[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/28 11:43]
ufal
user:hladka:playlang [2011/01/28 11:45]
ufal
Line 259: Line 259:
 Používám proto tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek. Používám proto tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek.
  
-Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''.+Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''(Id-čka předtím ještě zkracuju (aby byla jen pXsYwZ) a také nahrazuju elementy <MD[lt] src="m"> pouhými <[lt]>.)
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]