Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:conll [2008/03/28 16:44] zeman Zapnutá úprava morfologických značek a selektivní lexikalizace. |
user:zeman:dz-parser:conll [2008/03/28 18:15] zeman |
||
---|---|---|---|
Line 28: | Line 28: | ||
$PARSER/ | $PARSER/ | ||
($PARSER/ | ($PARSER/ | ||
+ | |||
+ | |||
Line 41: | Line 43: | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
- | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, | + | ==== Výchozí nastavení ==== |
- | | Jazyk | Rok | A | G | B | P | | + | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními neupravenými značkami CoNLL (tabulátory, rysy oddělené svislítky). |
- | | ar | 2006 | 3955 | 2527 | 1428 | 63,9 | | + | |
- | | ar | 2007 | 5873 | 3813 | 2060 | 64,9 | | + | |
- | | bg | 2006 | 4677 | 3380 | 1297 | 72,3 | | + | |
- | | ca | 2007 | 10971 | 7978 | 2993 | 72,7 | | + | |
- | | cs | 2006 | 5643 | 3617 | 2026 | 64,1 | | + | |
- | | cs | 2007 | 5760 | 3981 | 1779 | 69,1 | | + | |
- | | da | 2006 | 5470 | 3825 | 1645 | 69,9 | | + | |
- | | de | 2006 | 5403 | 3877 | 1526 | 71,8 | | + | |
- | | el | 2007 | 4874 | 3170 | 1704 | 65,0 | | + | |
- | | en | 2007 | 9529 | 6725 | 2804 | 70,6 | | + | |
- | | eu | 2007 | 4334 | 2538 | 1796 | 58,6 | | + | |
- | | hu | 2007 | 5995 | 3733 | 2262 | 62,3 | | + | |
- | | it | 2007 | 7643 | 5467 | 2176 | 71,5 | | + | |
- | | ja | 2006 | 3384 | 2953 | 431 | 87,3 | | + | |
- | | nl | 2006 | 6187 | 4561 | 1626 | 73,7 | | + | |
- | | pt | 2006 | 6719 | 4959 | 1760 | 73,8 | | + | |
- | | sl | 2006 | 4307 | 2529 | 1778 | 58,7 | | + | |
- | | sv | 2006 | 7140 | 5071 | 2069 | 71,0 | | + | |
- | | tr | 2007 | 6210 | 4011 | 2199 | 64,6 | | + | |
- | | zh | 2006 | 1839 | 1286 | 553 | 69,9 | | + | |
- | | zh | 2007 | 2277 | 1570 | 707 | 69,0 | | + | |
- | Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) značek ve výchozí konfiguraci omylem zapnuté bylo. I tak se občas dostal do značky tabulátor a takové značky se pak chybně ukládají ve statistice. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni | + | | Jazyk | Rok | P | |
+ | | ar | 2006 | 63.9 | | ||
+ | | ar | 2007 | 64.9 | | ||
+ | | bg | 2006 | 72.3 | | ||
+ | | ca | 2007 | 72.7 | | ||
+ | | cs | 2006 | 64.1 | | ||
+ | | cs | 2007 | 69.1 | | ||
+ | | da | 2006 | 69.9 | | ||
+ | | de | 2006 | 71.8 | | ||
+ | | el | 2007 | 65.0 | | ||
+ | | en | 2007 | 70.6 | | ||
+ | | eu | 2007 | 58.6 | | ||
+ | | hu | 2007 | 62.3 | | ||
+ | | it | 2007 | 71.5 | | ||
+ | | ja | 2006 | 87.3 | | ||
+ | | nl | 2006 | 73.7 | | ||
+ | | pt | 2006 | 73.8 | | ||
+ | | sl | 2006 | 58.7 | | ||
+ | | sv | 2006 | 71.0 | | ||
+ | | tr | 2007 | 64.6 | | ||
+ | | zh | 2006 | 69.9 | | ||
+ | | zh | 2007 | 69.0 | | ||
- | | Jazyk | Rok | Značky | A | G | B | P | SV | | + | Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami |
- | | ar | 2006 | CoNLL | 3955 | 2555 | 1400 | 64,6 | | + | |
- | | ar | 2006 | PDT | 3955 | 2595 | 1360 | 65,6 | ne | | + | |
- | | ar | 2007 | CoNLL | 5873 | 3757 | 2116 | 64,0 | | + | |
- | | ar | 2007 | PDT | 5873 | 3793 | 2080 | 64,6 | ne | | + | |
- | | bg | 2006 | CoNLL | 4677 | 3178 | 1499 | 67,9 | | + | |
- | | bg | 2006 | PDT | 4677 | 3338 | 1339 | 71,4 | ano | | + | |
- | | cs | 2006 | CoNLL | 5643 | 3822 | 1821 | 67,7 | | + | |
- | | cs | 2006 | PDT | 5643 | 4050 | 1593 | 71,8 | ano | | + | |
- | | cs | 2007 | CoNLL | 5760 | 4061 | 1699 | 70,5 | | + | |
- | | cs | 2007 | PDT | 5760 | 4294 | 1466 | 74,5 | ano | | + | |
- | | da | 2006 | CoNLL | 5470 | 3792 | 1678 | 69,3 | | + | |
- | | da | 2006 | PDT | 5470 | 3804 | 1666 | 69,5 | ne | | + | |
- | | en | 2007 | CoNLL | 9529 | 6163 | 3366 | 64,7 | | + | |
- | | en | 2007 | PDT | 9529 | 6254 | 3275 | 65,6 | ano | | + | |
- | | sv | 2006 | CoNLL | 7140 | 5075 | 2065 | 71,1 | | + | |
- | | sv | 2006 | PDT | 7140 | 5232 | 1908 | 73,3 | ano | | + | |
- | | zh | 2006 | CoNLL | 1839 | 1269 | 570 | 69,0 | | + | |
- | | zh | 2006 | PDT | 1839 | 1252 | 587 | 68,1 | ne | | + | |
- | | zh | 2007 | CoNLL | 2277 | 1506 | 771 | 66,1 | | + | |
- | | zh | 2007 | PDT | 2277 | 1449 | 828 | 63,6 | ano | | + | |
- | Převod značek do sady PDT pomohl všude kromě čínštiny, | + | | Jazyk | Rok | P(CoNLL) | P(PDT) | Změna | McNemar | |
+ | | ar | 2006 | 63.9 | 66.8 | lepší | ano (19.858476) | | ||
+ | | ar | 2007 | 64.9 | 64.2 | horší | ne (1.497453) | | ||
+ | | bg | 2006 | 72.3 | 71.2 | horší | ne (3.205607) | | ||
+ | | cs | 2006 | 64.1 | 64.1 | lepší | ne (0.007519) | | ||
+ | | cs | 2007 | 69.1 | 68.6 | horší | ano (3.948357) | | ||
+ | | da | 2006 | 69.9 | 70.5 | lepší | ne (2.082218) | | ||
+ | | en | 2007 | 70.6 | 65.4 | horší | ano (227.951382) | | ||
+ | | sv | 2006 | 71.0 | 72.6 | lepší | ano (12.763713) | | ||
+ | | zh | 2006 | 69.9 | 68.4 | horší | ne (1.574297) | | ||
+ | | zh | 2007 | 69.0 | 63.7 | horší | ano (22.360248) | | ||
- | Následující tabulka je opravou té předchozí. Značky obsahující tabulátory už se ukládají správně, úprava | + | U čínštiny lze zhoršení snadno vysvětlit. Čínská sada značek se velmi liší od ostatních, do Intersetu se vejde jen nepatrný zlomek informace, kterou značky nesou, takže ztráta informace při převodu |
- | | Jazyk | Rok | Značky | A | G | B | P | SV | | + | ==== 01: zapnuté upravování značek a selektivní lexikalizace ==== |
- | | ar | 2006 | CoNLL | 3955 | 2527 | 1428 | 63,9 | | + | |
- | | ar | 2006 | PDT | 3955 | 2640 | 1315 | 66,8 | ano | | + | |
- | | ar | 2007 | CoNLL | 5873 | 3813 | 2060 | 64,9 | | + | |
- | | ar | 2007 | PDT | 5873 | 3771 | 2102 | 64,2 | ne | | + | |
- | | bg | 2006 | CoNLL | 4677 | 3380 | 1297 | 72,3 | | + | |
- | | bg | 2006 | PDT | 4677 | 3331 | 1346 | 71,2 | ne | | + | |
- | | cs | 2006 | CoNLL | 5643 | 3617 | 2026 | 64,1 | | + | |
- | | cs | 2006 | PDT | 5643 | 3618 | 2025 | 64,1 | ne | | + | |
- | | cs | 2007 | CoNLL | 5760 | 3981 | 1779 | 69,1 | | + | |
- | | cs | 2007 | PDT | 5760 | 3952 | 1808 | 68,6 | ano | | + | |
- | | da | 2006 | CoNLL | 5470 | 3825 | 1645 | 69,9 | | + | |
- | | da | 2006 | PDT | 5470 | 3858 | 1612 | 70,5 | ne | | + | |
- | | en | 2007 | CoNLL | 9529 | 6725 | 2804 | 70,6 | | + | |
- | | en | 2007 | PDT | 9529 | 6236 | 3293 | 65,4 | ano | | + | |
- | | sv | 2006 | CoNLL | 7140 | 5071 | 2069 | 71,0 | | + | |
- | | sv | 2006 | PDT | 7140 | 5181 | 1959 | 72,6 | ano | | + | |
- | | zh | 2006 | CoNLL | 1839 | 1286 | 553 | 69,9 | | + | |
- | | zh | 2006 | PDT | 1839 | 1258 | 581 | 68,4 | ne | | + | |
- | | zh | 2007 | CoNLL | 2277 | 1570 | 707 | 69,0 | | + | |
- | | zh | 2007 | PDT | 2277 | 1450 | 827 | 63,7 | ano | | + | |
Následující tabulka ukazuje úspěšnost DZ parseru se zapnutou úpravou morfologických značek a selektivní lexikalizací na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, | Následující tabulka ukazuje úspěšnost DZ parseru se zapnutou úpravou morfologických značek a selektivní lexikalizací na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, | ||
- | | Jazyk | Rok | A | G | B | P | | + | | Jazyk | Rok | P | |
- | | ar | 2006 | 3955 | 2543 | 1412 | 64,3 | | + | | ar | 2006 | 64.3 | |
- | | ar | 2007 | 5873 | 3512 | 2361 | 59,8 | | + | | ar | 2007 | 59.8 | |
- | | bg | 2006 | 4677 | 3178 | 1499 | 67,9 | | + | | bg | 2006 | 67.9 | |
- | | ca | 2007 | 10971 | 7670 | 3301 | 69,9 | | + | | ca | 2007 | 69.9 | |
- | | cs | 2006 | 5643 | 3158 | 2485 | 56,0 | | + | | cs | 2006 | 56.0 | |
- | | cs | 2007 | 5760 | 3379 | 2381 | 58,7 | | + | | cs | 2007 | 58.7 | |
- | | da | 2006 | 5470 | 3792 | 1678 | 69,3 | | + | | da | 2006 | 69.3 | |
- | | de | 2006 | 5403 | 3702 | 1701 | 68,5 | | + | | de | 2006 | 68.5 | |
- | | el | 2007 | 4874 | 3292 | 1582 | 67,5 | | + | | el | 2007 | 67.5 | |
- | | en | 2007 | 9529 | 6163 | 3366 | 64,7 | | + | | en | 2007 | 64.7 | |
- | | eu | 2007 | 4334 | 2531 | 1803 | 58,4 | | + | | eu | 2007 | 58.4 | |
- | | hu | 2007 | 5995 | 3962 | 2033 | 66,1 | | + | | hu | 2007 | 66.1 | |
- | | it | 2007 | 7643 | 5608 | 2035 | 73,4 | | + | | it | 2007 | 73.4 | |
- | | ja | 2006 | 3384 | 2524 | 860 | 74,6 | | + | | ja | 2006 | 74.6 | |
- | | nl | 2006 | 6187 | 4519 | 1668 | 73,0 | | + | | nl | 2006 | 73.0 | |
- | | pt | 2006 | 6719 | 4941 | 1778 | 73,5 | | + | | pt | 2006 | 73.5 | |
- | | sl | 2006 | 4307 | 2748 | 1559 | 63,8 | | + | | sl | 2006 | 63.8 | |
- | | sv | 2006 | 7140 | 5073 | 2067 | 71,1 | | + | | sv | 2006 | 71.1 | |
- | | tr | 2007 | 6210 | 4040 | 2170 | 65,1 | | + | | tr | 2007 | 65.1 | |
- | | zh | 2006 | 1839 | 1269 | 570 | 69,0 | | + | | zh | 2006 | 69.0 | |
- | | zh | 2007 | 2277 | 1506 | 771 | 66,1 | | + | | zh | 2007 | 66.1 | |
+ | |||
+ | | Jazyk | Rok | P(CoNLL) | P(PDT) | Změna | McNemar | | ||
+ | | ar | 2006 | 64.3 | 67.3 | lepší | ano (20.855670) | | ||
+ | | ar | 2007 | 59.8 | 66.7 | lepší | ano (149.962142) | ||
+ | | bg | 2006 | 67.9 | 71.4 | lepší | ano (44.137931) | | ||
+ | | cs | 2006 | 56.0 | 71.6 | lepší | ano (597.483871) | ||
+ | | cs | 2007 | 58.7 | 74.2 | lepší | ano (616.602151) | | ||
+ | | da | 2006 | 69.3 | 69.5 | lepší | ne (0.114286) | | ||
+ | | en | 2007 | 64.7 | 65.6 | lepší | ano (8.781548) | ||
+ | | sv | 2006 | 71.1 | 73.1 | lepší | ano (24.144134) | | ||
+ | | zh | 2006 | 69.0 | 68.1 | horší | ne (1.000000) | ||
+ | | zh | 2007 | 66.1 | 63.6 | horší | ||
===== Starší poznámky ===== | ===== Starší poznámky ===== |