Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playlang [2011/01/25 12:37] mirovsky |
user:hladka:playlang [2011/01/28 11:45] ufal |
||
---|---|---|---|
Line 240: | Line 240: | ||
==== Převod dat z prostého textu do formátu playlang: ==== | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | |||
+ | === Převod pro PlayCoref === | ||
Využíváme analýzu v modulárním systému TectoMT. | Využíváme analýzu v modulárním systému TectoMT. | ||
Postup při zpracování české verze Studie v Šarlatové byl tento: | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
- Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
- | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT. | + | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. |
- | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. | + | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. |
- | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | + | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' |
- | - | + | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' |
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
+ | |||
+ | === Převod pro Shannona a Place the Space === | ||
+ | Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. | ||
+ | |||
+ | Používám proto tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, | ||
+ | |||
+ | Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->'' | ||
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== |