Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:conll [2008/03/05 14:32] zeman Nefunguje. |
user:zeman:dz-parser:conll [2008/03/27 22:58] zeman Komentář k výsledkům se značkami PDT. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Pokusy s DZ Parserem pro CoNLL 2007 ====== | + | ====== Pokusy s DZ Parserem pro CoNLL ====== |
- | Musíme odeslat | + | Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v& |
+ | |||
+ | ===== Proměnné ===== | ||
+ | |||
+ | Používám proměnné prostředí, | ||
+ | |||
+ | < | ||
+ | setenv TOOLS $PARSINGROOT/ | ||
+ | setenv INTERSET ~zeman/ | ||
+ | setenv PARSER ~zeman/ | ||
+ | |||
+ | Kromě toho mám ve své '' | ||
+ | |||
+ | Další proměnné, určené přímo pro rozbor dat CoNLL mým parserem: | ||
+ | |||
+ | < | ||
+ | setenv OUTPUT / | ||
+ | |||
+ | ===== Zpracování ===== | ||
+ | |||
+ | Každý jazyk zkouším zpracovat jednak s& | ||
+ | |||
+ | < | ||
+ | setenv ROK 2007 | ||
+ | setenv JAZYK cs | ||
+ | $PARSER/ | ||
+ | ($PARSER/ | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Výsledky ===== | ||
+ | |||
+ | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, | ||
+ | |||
+ | | Jazyk | Rok | A | G | B | P | | ||
+ | | ar | 2006 | 3955 | 2555 | 1400 | 64,6 | | ||
+ | | ar | 2007 | 5873 | 3757 | 2116 | 64,0 | | ||
+ | | bg | 2006 | 4677 | 3178 | 1499 | 67,9 | | ||
+ | | ca | 2007 | 10971 | 7670 | 3301 | 69,9 | | ||
+ | | cs | 2006 | 5643 | 3822 | 1821 | 67,7 | | ||
+ | | cs | 2007 | 5760 | 4061 | 1699 | 70,5 | | ||
+ | | da | 2006 | 5470 | 3792 | 1678 | 69,3 | | ||
+ | | de | 2006 | 5403 | 3704 | 1699 | 68,6 | | ||
+ | | el | 2007 | 4874 | 3132 | 1742 | 64,3 | | ||
+ | | en | 2007 | 9529 | 6163 | 3366 | 64,7 | | ||
+ | | eu | 2007 | 4334 | 2477 | 1857 | 57,2 | | ||
+ | | hu | 2007 | 5995 | 4088 | 1907 | 68,2 | | ||
+ | | it | 2007 | 7643 | 5556 | 2087 | 72,7 | | ||
+ | | ja | 2006 | 3384 | 2524 | 860 | 74,6 | | ||
+ | | nl | 2006 | 6187 | 4579 | 1608 | 74,0 | | ||
+ | | pt | 2006 | 6719 | 4941 | 1778 | 73,5 | | ||
+ | | sl | 2006 | 4307 | 2765 | 1542 | 64,2 | | ||
+ | | sv | 2006 | 7140 | 5075 | 2065 | 71,1 | | ||
+ | | tr | 2007 | 6210 | 3920 | 2290 | 63,1 | | ||
+ | | zh | 2006 | 1839 | 1269 | 570 | 69,0 | | ||
+ | | zh | 2007 | 2277 | 1506 | 771 | 66,1 | | ||
+ | |||
+ | Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. značky nejsou upravovány a selektivní lexikalizace není zapnuta. | ||
+ | |||
+ | | Jazyk | Rok | Značky | A | G | B | P | | ||
+ | | ar | 2006 | CoNLL | 3955 | 2555 | 1400 | 64,6 | | ||
+ | | ar | 2006 | PDT | 3955 | 2595 | 1360 | 65,6 | | ||
+ | | ar | 2007 | CoNLL | 5873 | 3757 | 2116 | 64,0 | | ||
+ | | ar | 2007 | PDT | 5873 | 3793 | 2080 | 64,6 | | ||
+ | | bg | 2006 | CoNLL | 4677 | 3178 | 1499 | 67,9 | | ||
+ | | bg | 2006 | PDT | 4677 | 3338 | 1339 | 71,4 | | ||
+ | | cs | 2006 | CoNLL | 5643 | 3822 | 1821 | 67,7 | | ||
+ | | cs | 2006 | PDT | 5643 | 4050 | 1593 | 71,8 | | ||
+ | | cs | 2007 | CoNLL | 5760 | 4061 | 1699 | 70,5 | | ||
+ | | cs | 2007 | PDT | 5760 | 4294 | 1466 | 74,5 | | ||
+ | | da | 2006 | CoNLL | 5470 | 3792 | 1678 | 69,3 | | ||
+ | | da | 2006 | PDT | 5470 | 3804 | 1666 | 69,5 | | ||
+ | | en | 2007 | CoNLL | 9529 | 6163 | 3366 | 64,7 | | ||
+ | | en | 2007 | PDT | 9529 | 6254 | 3275 | 65,6 | | ||
+ | | sv | 2006 | CoNLL | 7140 | 5075 | 2065 | 71,1 | | ||
+ | | sv | 2006 | PDT | 7140 | 5232 | 1908 | 73,3 | | ||
+ | | zh | 2006 | CoNLL | 1839 | 1269 | 570 | 69,0 | | ||
+ | | zh | 2006 | PDT | 1839 | 1252 | 587 | 68,1 | | ||
+ | | zh | 2007 | CoNLL | 2277 | 1506 | 771 | 66,1 | | ||
+ | | zh | 2007 | PDT | 2277 | 1449 | 828 | 63,6 | | ||
+ | |||
+ | Převod značek do sady PDT pomohl všude kromě čínštiny, | ||
+ | |||
+ | ===== Starší poznámky ===== | ||
Postup zpracování jednoho jazyka CoNLL: | Postup zpracování jednoho jazyka CoNLL: | ||
Line 19: | Line 103: | ||
Takhle to pro čínštinu 2006 nefunguje. Jednak máme dtrain a dtest, jednak při zavolání z cesty s daty (ale s plnou cestou, jak je uvedeno výše) parser stávkuje a nenačte data ze standardního vstupu. Měl by alespoň vypsat cestu ke konfiguračnímu souboru, který používá. | Takhle to pro čínštinu 2006 nefunguje. Jednak máme dtrain a dtest, jednak při zavolání z cesty s daty (ale s plnou cestou, jak je uvedeno výše) parser stávkuje a nenačte data ze standardního vstupu. Měl by alespoň vypsat cestu ke konfiguračnímu souboru, který používá. | ||
+ | |||
+ | < | ||
+ | setenv cesta / | ||
+ | setenv xx zh | ||
+ | $parser/ | ||
+ | $parser/ | ||
+ | ~zeman/ | ||
+ | ~zeman/ | ||
+ | $parser/ | ||
+ | $parser/ | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Čeština 2006 ===== | ||
+ | |||
+ | < | ||
+ | setenv xx cs | ||
+ | cd $cesta | ||
+ | csts_convert_tags.pl -f cs::conll -t cs::pdt < cstrain.csts > cstrain.pdttags.csts | ||
+ | csts_convert_tags.pl -f cs::conll -t cs::pdt < cstest.csts > cstest.pdttags.csts | ||
+ | $PARSER/ | ||
+ | $PARSER/ | ||
+ | |||
+ | Výsledky (365 vět, které CoNLL dodalo jako testovací): | ||
+ | |||
+ | Parser (i trénování) byl spuštěn s výchozími parametry bez konfiguračního souboru. Neměl tušení, že zpracovává svůj rodný jazyk. Kromě toho, že testovací data jsou jiná (a podstatně menší), než jsem měl přímo při práci s PDT, také chybí přídavné informace u lemmat (protože je CoNLL částečně přesunulo do atributu Sem, jehož hodnotu jsem při převádění značek zpět na PDT zahodil). Parser z nich využíval informace o křestním jménu a příjmení. Na druhou stranu parseru mohlo pomoct, že pracujeme s ručně přiřazenými značkami. |