[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:hladka:playlang [2011/01/25 15:59]
mirovsky
user:hladka:playlang [2011/01/25 16:26]
mirovsky
Line 240: Line 240:
  
 ==== Převod dat z prostého textu do formátu playlang: ==== ==== Převod dat z prostého textu do formátu playlang: ====
 +
 +=== Převod pro PlayCoref ===
 +
 Využíváme analýzu v modulárním systému TectoMT. Využíváme analýzu v modulárním systému TectoMT.
  
 Postup při zpracování české verze Studie v Šarlatové byl tento: Postup při zpracování české verze Studie v Šarlatové byl tento:
   - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná.   - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná.
-  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT.+  - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference.
   - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.)   - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: ''personal/mirovsky/coreference/sc_CzNEMWRecognition.scen''.)
   - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity).   - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu ''ne_atrees_to_txt.pl'' do textového souboru; z něj pak jdou později vložit do stejných dat v jiném formátu než tmt (pro mne je to schůdnější cesta než psát/upravovat přímou konverzi z tmt do pdt tak, aby uměla i pojmenované entity).
  
 +=== Převod pro Shannona a Place the Space ===
 +
 +Je potřeba převádět jinak - v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. 
  
 ==== Zobrazení v Tredu: ==== ==== Zobrazení v Tredu: ====

[ Back to the navigation ] [ Back to the content ]