[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/26 14:28]
ufal
user:hladka:playlang [2011/01/28 11:42]
ufal
Line 255: Line 255:
  
 === Převod pro Shannona a Place the Space === === Převod pro Shannona a Place the Space ===
-Je potřeba převádět jinak - v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. +Je potřeba převádět jinak - v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. 
 + 
 +Používám proto tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, což znamená, že některé znaky (spodní a horní uvozovky, dlouhé pomlčky a další) je potřeba napřed nahradit standardními ekvivalenty. Tokenizer je v tool-chainu lepší než v TectoMT, a tak není potřeba dávat tečky za nadpisy a lépe se vypořádá s tečkami uprostřed vět. Nový řádek znamená konec věty - ve vstupním textu tedy nesmí být věty přerušeny novým řádkem; nový odstavec bude tam, kde je ve vstupním textu prázdný řádek. 
 + 
 +Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->''playcoref/scripts/txt_to_csts/_csts_fill_ids.pl'' dodělám id k elementům <f> a <d>; následně vyberu věty minimální délky 6 (a pro Shannona bez interpunkce) pomocí skriptu PlayLang->''playcoref/scripts/_csts_filter_sentences.pl''.
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]