Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser [2007/03/28 14:59] zeman Model syntaktických značek. |
user:zeman:dz-parser [2007/05/15 11:25] zeman Vstupy a výstupy. |
||
---|---|---|---|
Line 4: | Line 4: | ||
< | < | ||
+ | |||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | |||
+ | ===== Chování vstupu a výstupu ===== | ||
+ | |||
+ | V posledním roce jsem vnesl zmatek do chování vstupu a výstupu DZ Parseru. Jak by se tedy měl chovat a jak se momentálně chová? | ||
+ | |||
+ | ==== Vstup ==== | ||
+ | |||
+ | Vstupem train.pl jsou trénovací data a případně konfigurační soubor. | ||
+ | Vstupem parse.pl je natrénovaná statistika, testovací data a případně konfigurační soubor. | ||
+ | |||
+ | Malou část konfigurace lze provést přepínači na příkazovém řádku. V budoucnosti by měla být možnost provést tady veškerou konfiguraci, | ||
+ | |||
+ | Pokud konfigurace obsahuje cestu ke vstupním datům (trénovací korpus, testovací korpus, natrénovaná statistika), | ||
+ | |||
+ | Pokud konfigurace (ani ta z příkazového řádku) neobsahuje cestu ke vstupním datům, ale na příkazovém řádku zbývají nevyužité argumenty, tyto argumenty se interpretují jako cesty ke vstupním souborům a ty se načtou. Pokud nezbývají ani argumenty, čte se standardní vstup. (To neplatí o natrénované statistice na vstupu parse.pl, ta se čte vždy ze souboru. Pokud chybí určení cesty, postupuje se jako kdyby určení bylo " | ||
+ | |||
+ | Pokud konfigurace neobsahuje cestu k pracovní složce, považuje se za pracovní složka, ze které byl program spuštěn (" | ||
+ | |||
+ | ==== Výstup ==== | ||
+ | |||
+ | Hlavním výstupem train.pl je natrénovaná statistika. Hlavním výstupem parse.pl jsou rozebraná testovací data ve formátu CSTS. Hlavní výstupy se posílají na standardní výstup. | ||
+ | |||
+ | V ladícím režimu (lze ho zapnout v konfiguraci) se totéž loguje i do souboru. Případně lze vypnout standardní výstup a pouze logovat do souboru. | ||
===== To do ===== | ===== To do ===== | ||
* CoNLL 2007 | * CoNLL 2007 | ||
- | * Napsat program, který na základě závislostí (ručních nebo naučených), | ||
- | * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL. | ||
* Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
* Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | ||
Line 16: | Line 43: | ||
* Totéž, ale navíc rys pád. | * Totéž, ale navíc rys pád. | ||
* Učit se na morfologických značkách překódovaných do sady PDT. | * Učit se na morfologických značkách překódovaných do sady PDT. | ||
- | * Kombinace parserů (Brown, McDonald, Stanford). | + | * Kombinace parserů ([[:Parsery|Brown]], [[:MST|McDonald]], [[:Parsery|Stanford]]). |
* Angličtina (větev adaptace na novou doménu)? | * Angličtina (větev adaptace na novou doménu)? | ||
* Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
Line 31: | Line 58: | ||
* koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT). | * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT). | ||
- | |||
- | ===== Výsledky ===== | ||
- | |||
- | ==== Čeština PDT 2.0 ==== | ||
- | |||
- | < | ||
- | parse.pl -i parser-pdt.ini</ | ||
- | |||
- | A 158962 - G 118894 - B 40068 - P < | ||
- | |||
- | ===== Výsledky CoNLL 2006 ===== | ||
- | |||
- | ==== Arabština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | G 3086 - B 2287 - P < | ||
- | |||
- | ===== Výsledky CoNLL 2007 ===== | ||
- | |||
- | Viz též [[internal: | ||
- | |||
- | ==== Arabština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | G 3591 - P = < | ||
- | |||
- | ==== Baskičtina ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 4334 - G 2630 - B 1704 - P < | ||
- | |||
- | ==== Čeština ==== | ||
- | |||
- | Nastavení: stejné jako pro ostatní jazyky, podle výchozího '' | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 5760 - G 3067 - B 2693 - P < | ||
- | |||
- | Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách. | ||
- | |||
- | < | ||
- | |||
- | ==== Čínština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 2277 - G 1513 - B 764 - P < | ||
- | |||
- | ==== Italština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 7643 - G 4866 - B 2777 - P < | ||
- | |||
- | ==== Katalánština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 10971 - G 6768 - B 4203 - P < | ||
- | |||
- | ==== Maďarština ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 5995 - G 3164 - B 2831 - P < | ||
- | |||
- | ==== Řečtina ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 4874 - G 3122 - B 1752 - P < | ||
- | |||
- | ==== Turečtina ==== | ||
- | |||
- | < | ||
- | parse.pl < / | ||
- | |||
- | A 6210 - G 4037 - B 2173 - P < |