Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playlang [2011/01/25 15:59] mirovsky |
user:hladka:playlang [2011/01/31 15:06] hladka |
||
---|---|---|---|
Line 25: | Line 25: | ||
==== Portal LGame ==== | ==== Portal LGame ==== | ||
* **Ukoly pro Honzu** | * **Ukoly pro Honzu** | ||
- | - Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//) | + | -=) '' |
* JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | ||
- Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | ||
Line 240: | Line 240: | ||
==== Převod dat z prostého textu do formátu playlang: ==== | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | |||
+ | === Převod pro PlayCoref === | ||
Využíváme analýzu v modulárním systému TectoMT. | Využíváme analýzu v modulárním systému TectoMT. | ||
Postup při zpracování české verze Studie v Šarlatové byl tento: | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
- Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
- | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT. | + | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. |
- Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | ||
- Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | ||
+ | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' | ||
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
+ | |||
+ | === Převod pro Shannona a Place the Space === | ||
+ | Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. | ||
+ | |||
+ | **Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, | ||
+ | Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->'' | ||
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== |