Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playlang [2011/01/24 11:23] ufal |
user:hladka:playlang [2011/01/31 15:13] ufal |
||
---|---|---|---|
Line 25: | Line 25: | ||
==== Portal LGame ==== | ==== Portal LGame ==== | ||
* **Ukoly pro Honzu** | * **Ukoly pro Honzu** | ||
- | - Presun LGame na novy server. Realizace s Milanem Fucikem. (//Do konce ledna//) | + | -=) '' |
* JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | * JK: Myslim, ze nam staci Apache server + PHP + PostgreSQL, pro zacatek asi nejlip ve stejne verzi, jako jsou na soucasnem serveru, aby nenastaly nahodou problemy s kompatibilitou. | ||
- Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | - Kliknuti na vlajecku znamena, ze se zobrazi lokalizace odpovidajiciho jazyka (nebo jineho, predem stanoveneho, | ||
Line 43: | Line 43: | ||
* **Ukoly pro Jirku** | * **Ukoly pro Jirku** | ||
- | - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " | + | - Najit Conana Doyla v cestine. (**JM:** Studie v šarlatové nalezeny dvě; první v překladu z roku 1907 (bezpochyby " |
- Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | - Thajske texty pro PtS. (ani cinstina, ani hindi nejsou vhodnymi kandidaty - bud se tam mezery pisou nebo je to jeste jinak komplikovany). Korpus s mezerama. (//Do 15. unora// - navrhuji vzhledem k deadlinu na IJCNLP 20. kvetna) | ||
- exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | - exportovana data z prosincove souteze nachystat tak, abychom je mohli analyzovat (//Do konce unora//) | ||
- vypsat projekty (//Do konce unora//) | - vypsat projekty (//Do konce unora//) | ||
* **Ukoly pro Baru** | * **Ukoly pro Baru** | ||
- | - sjednotit anglickou a ceskou lokalizaci LGame (//Do konce ledna//) | + | |
- promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | - promluvit s Nathanem Greenem - on ma rovnez nejake hry, snad i pro Named Entity. (//Do konce ledna//) | ||
- nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | - nachystat osnovu clanku do PBMl (//Do konce brezna//, deadline mame na konci kvetna); viz svn '' | ||
Line 238: | Line 238: | ||
== Převod rozšířené a-roviny do rozšířeného csts == | == Převod rozšířené a-roviny do rozšířeného csts == | ||
* '' | * '' | ||
+ | |||
+ | ==== Převod dat z prostého textu do formátu playlang: ==== | ||
+ | |||
+ | === Převod pro PlayCoref === | ||
+ | Využíváme analýzu v modulárním systému TectoMT. | ||
+ | |||
+ | Postup při zpracování české verze Studie v Šarlatové byl tento: | ||
+ | - Do textového souboru v UTF-8 jsem za nadpisy a čísla kapitol přidal tečku - konec věty; česká TectoMT analýza nadpisy nezná. | ||
+ | - Následně jsem použil aktuální verzi analýzy na tekto rovinu, která je k dispozici v TectoMT; použil jsem i bloky pro přidání gramatické koreference. | ||
+ | - Ve výsledném naparsovaném souboru jsem rozpoznal základní pojmenované entity - kombinace cizích a mých vlastních modulů TectoMT; prozatím v PlayCoref neumíme zpracovat vnořené entity, a tak jsem použil opravdu jen základní moduly, vynechal jsem např. spojení přívlastků vlastních s podstatnými jmény. (Použitý scénář: '' | ||
+ | - Nalezené pojmenované entity jsem vyextrahoval pomocí skriptu '' | ||
+ | - Pak nastává převod do formátu PDT. Používám skript z TectoMT->'' | ||
+ | * '' | ||
+ | * '' | ||
+ | * V takto získaných datech je ještě potřeba upravit identifikátory (vlastní skripty '' | ||
+ | * Pozor, skript hledá elementy SCzech*, proto pro anglický text je nejdřív potřeba nahradit v tmt souboru výskyty SEnglish za SCzech! | ||
+ | |||
+ | === Převod pro Shannona a Place the Space === | ||
+ | Je potřeba převádět jinak, neboť v TectoMT (nebo při převodu do PDT formátu) se ztrácí informace o přítomnosti mezery. Automatické doplnění není spolehlivé. | ||
+ | |||
+ | **Pro češtinu** proto používám tool-chain z projektu ČAK. Bohužel mi nefunguje (a nevím proč) tool-chain až na a-rovinu, a tak ho používám jen na m-rovinu, navíc jen v csts. Ale to pro tyto účely stačí! Vstupní text musí být v ISO-LATIN-2, | ||
+ | |||
+ | Vzniklý csts soubor převedu do UTF-8, pomocí skriptu PlayLang->'' | ||
==== Zobrazení v Tredu: ==== | ==== Zobrazení v Tredu: ==== |