Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:conll [2008/03/28 15:49] zeman Oprava výchozích výsledků. Nyní se opravdu neupravují morfologické značky a správně se ukládají události s tabulátory. |
user:zeman:dz-parser:conll [2008/03/28 18:15] zeman |
||
---|---|---|---|
Line 28: | Line 28: | ||
$PARSER/ | $PARSER/ | ||
($PARSER/ | ($PARSER/ | ||
+ | |||
+ | |||
+ | |||
Line 40: | Line 43: | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
- | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, | + | ==== Výchozí nastavení ==== |
+ | |||
+ | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními | ||
+ | |||
+ | | Jazyk | Rok | P | | ||
+ | | ar | 2006 | 63.9 | | ||
+ | | ar | 2007 | 64.9 | | ||
+ | | bg | 2006 | 72.3 | | ||
+ | | ca | 2007 | 72.7 | | ||
+ | | cs | 2006 | 64.1 | | ||
+ | | cs | 2007 | 69.1 | | ||
+ | | da | 2006 | 69.9 | | ||
+ | | de | 2006 | 71.8 | | ||
+ | | el | 2007 | 65.0 | | ||
+ | | en | 2007 | 70.6 | | ||
+ | | eu | 2007 | 58.6 | | ||
+ | | hu | 2007 | 62.3 | | ||
+ | | it | 2007 | 71.5 | | ||
+ | | ja | 2006 | 87.3 | | ||
+ | | nl | 2006 | 73.7 | | ||
+ | | pt | 2006 | 73.8 | | ||
+ | | sl | 2006 | 58.7 | | ||
+ | | sv | 2006 | 71.0 | | ||
+ | | tr | 2007 | 64.6 | | ||
+ | | zh | 2006 | 69.9 | | ||
+ | | zh | 2007 | 69.0 | | ||
+ | |||
+ | Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. úprava značek ani selektivní lexikalizace není zapnuta. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ< | ||
- | | Jazyk | Rok | A | G | B | P | | + | | Jazyk | Rok | P(CoNLL) |
- | | ar | 2006 | 3955 | 2527 | 1428 | 63,9 | | + | | ar | 2006 | 63.9 | 66.8 | lepší |
- | | ar | 2007 | 5873 | 3813 | 2060 | 64,9 | | + | | ar | 2007 | 64.9 | 64.2 | horší |
- | | bg | 2006 | 4677 | 3380 | 1297 | 72,3 | | + | | bg | 2006 | 72.3 | 71.2 | horší |
- | | ca | 2007 | 10971 | 7978 | 2993 | 72,7 | | + | | cs | 2006 | 64.1 | 64.1 | lepší | ne (0.007519) |
- | | cs | 2006 | 5643 | 3617 | 2026 | 64,1 | | + | | cs | 2007 | 69.1 | 68.6 | horší |
- | | cs | 2007 | 5760 | 3981 | 1779 | 69,1 | | + | | da | 2006 | 69.9 | 70.5 | lepší |
- | | da | 2006 | 5470 | 3825 | 1645 | 69,9 | | + | | en | 2007 | 70.6 | 65.4 | horší |
- | | de | 2006 | 5403 | 3877 | 1526 | 71,8 | | + | | sv | 2006 | 71.0 | 72.6 | lepší |
- | | el | 2007 | 4874 | 3170 | 1704 | 65,0 | | + | | zh | 2006 | 69.9 | 68.4 | horší |
- | | en | 2007 | 9529 | 6725 | 2804 | 70,6 | | + | | zh | 2007 | 69.0 | 63.7 | horší |
- | | eu | 2007 | 4334 | 2538 | 1796 | 58,6 | | + | |
- | | hu | 2007 | 5995 | 3733 | 2262 | 62,3 | | + | |
- | | it | 2007 | 7643 | 5467 | 2176 | 71,5 | | + | |
- | | ja | 2006 | 3384 | 2953 | 431 | 87,3 | | + | |
- | | nl | 2006 | 6187 | 4561 | 1626 | 73,7 | | + | |
- | | pt | 2006 | 6719 | 4959 | 1760 | 73,8 | | + | |
- | | sl | 2006 | 4307 | 2529 | 1778 | 58,7 | | + | |
- | | sv | 2006 | 7140 | 5071 | 2069 | 71,0 | | + | |
- | | tr | 2007 | 6210 | 4011 | 2199 | 64,6 | | + | |
- | | zh | 2006 | 1839 | 1286 | 553 | 69,9 | | + | |
- | | zh | 2007 | 2277 | 1570 | 707 | 69,0 | | + | |
- | Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) | + | U čínštiny lze zhoršení snadno vysvětlit. Čínská sada značek se velmi liší od ostatních, |
- | | Jazyk | Rok | Značky | A | G | B | P | SV | | + | ==== 01: zapnuté upravování značek a selektivní lexikalizace ==== |
- | | ar | 2006 | CoNLL | 3955 | 2555 | 1400 | 64,6 | | + | |
- | | ar | 2006 | PDT | 3955 | 2595 | 1360 | 65,6 | ne | | + | |
- | | ar | 2007 | CoNLL | 5873 | 3757 | 2116 | 64,0 | | + | |
- | | ar | 2007 | PDT | 5873 | 3793 | 2080 | 64,6 | ne | | + | |
- | | bg | 2006 | CoNLL | 4677 | 3178 | 1499 | 67,9 | | + | |
- | | bg | 2006 | PDT | 4677 | 3338 | 1339 | 71,4 | ano | | + | |
- | | cs | 2006 | CoNLL | 5643 | 3822 | 1821 | 67,7 | | + | |
- | | cs | 2006 | PDT | 5643 | 4050 | 1593 | 71,8 | ano | | + | |
- | | cs | 2007 | CoNLL | 5760 | 4061 | 1699 | 70,5 | | + | |
- | | cs | 2007 | PDT | 5760 | 4294 | 1466 | 74,5 | ano | | + | |
- | | da | 2006 | CoNLL | 5470 | 3792 | 1678 | 69,3 | | + | |
- | | da | 2006 | PDT | 5470 | 3804 | 1666 | 69,5 | ne | | + | |
- | | en | 2007 | CoNLL | 9529 | 6163 | 3366 | 64,7 | | + | |
- | | en | 2007 | PDT | 9529 | 6254 | 3275 | 65,6 | ano | | + | |
- | | sv | 2006 | CoNLL | 7140 | 5075 | 2065 | 71,1 | | + | |
- | | sv | 2006 | PDT | 7140 | 5232 | 1908 | 73,3 | ano | | + | |
- | | zh | 2006 | CoNLL | 1839 | 1269 | 570 | 69,0 | | + | |
- | | zh | 2006 | PDT | 1839 | 1252 | 587 | 68,1 | ne | | + | |
- | | zh | 2007 | CoNLL | 2277 | 1506 | 771 | 66,1 | | + | |
- | | zh | 2007 | PDT | 2277 | 1449 | 828 | 63,6 | ano | | + | |
- | Převod | + | Následující tabulka ukazuje úspěšnost DZ parseru se zapnutou úpravou morfologických |
- | Následující tabulka je opravou té předchozí. Značky obsahující tabulátory už se ukládají správně, úprava značek je opravdu vypnutá. | + | | Jazyk | Rok | P | |
+ | | ar | 2006 | 64.3 | | ||
+ | | ar | 2007 | 59.8 | | ||
+ | | bg | 2006 | 67.9 | | ||
+ | | ca | 2007 | 69.9 | | ||
+ | | cs | 2006 | 56.0 | | ||
+ | | cs | 2007 | 58.7 | | ||
+ | | da | 2006 | 69.3 | | ||
+ | | de | 2006 | 68.5 | | ||
+ | | el | 2007 | 67.5 | | ||
+ | | en | 2007 | 64.7 | | ||
+ | | eu | 2007 | 58.4 | | ||
+ | | hu | 2007 | 66.1 | | ||
+ | | it | 2007 | 73.4 | | ||
+ | | ja | 2006 | 74.6 | | ||
+ | | nl | 2006 | 73.0 | | ||
+ | | pt | 2006 | 73.5 | | ||
+ | | sl | 2006 | 63.8 | | ||
+ | | sv | 2006 | 71.1 | | ||
+ | | tr | 2007 | 65.1 | | ||
+ | | zh | 2006 | 69.0 | | ||
+ | | zh | 2007 | 66.1 | | ||
- | | Jazyk | Rok | Značky | A | G | B | P | SV | | + | | Jazyk | Rok | P(CoNLL) | P(PDT) |
- | | ar | 2006 | CoNLL | 3955 | 2527 | 1428 | 63,9 | | + | | ar | 2006 | 64.3 | 67.3 | lepší |
- | | ar | 2006 | PDT | 3955 | 2640 | 1315 | 66,8 | ano | | + | | ar | 2007 | 59.8 | 66.7 | lepší |
- | | ar | 2007 | CoNLL | 5873 | 3813 | 2060 | 64,9 | | + | | bg | 2006 | 67.9 | 71.4 | lepší |
- | | ar | 2007 | PDT | 5873 | 3771 | 2102 | 64,2 | ne | | + | | cs | 2006 | 56.0 | 71.6 | lepší |
- | | bg | 2006 | CoNLL | 4677 | 3380 | 1297 | 72,3 | | + | | cs | 2007 | 58.7 | 74.2 | lepší |
- | | bg | 2006 | PDT | 4677 | 3331 | 1346 | 71,2 | ne | | + | | da | 2006 | 69.3 | 69.5 | lepší |
- | | cs | 2006 | CoNLL | 5643 | 3617 | 2026 | 64,1 | | + | | en | 2007 | 64.7 | 65.6 | lepší |
- | | cs | 2006 | PDT | 5643 | 3618 | 2025 | 64,1 | ne | | + | | sv | 2006 | 71.1 | 73.1 | lepší |
- | | cs | 2007 | CoNLL | 5760 | 3981 | 1779 | 69,1 | | + | | zh | 2006 | 69.0 | 68.1 | horší |
- | | cs | 2007 | PDT | 5760 | 3952 | 1808 | 68,6 | ano | | + | | zh | 2007 | 66.1 | 63.6 | horší |
- | | da | 2006 | CoNLL | 5470 | 3825 | 1645 | 69,9 | | + | |
- | | da | 2006 | PDT | 5470 | 3858 | 1612 | 70,5 | ne | | + | |
- | | en | 2007 | CoNLL | 9529 | 6725 | 2804 | 70,6 | | + | |
- | | en | 2007 | PDT | 9529 | 6236 | 3293 | 65,4 | ano | | + | |
- | | sv | 2006 | CoNLL | 7140 | 5071 | 2069 | 71,0 | | + | |
- | | sv | 2006 | PDT | 7140 | 5181 | 1959 | 72,6 | ano | | + | |
- | | zh | 2006 | CoNLL | 1839 | 1286 | 553 | 69,9 | | + | |
- | | zh | 2006 | PDT | 1839 | 1258 | 581 | 68,4 | ne | | + | |
- | | zh | 2007 | CoNLL | 2277 | 1570 | 707 | 69,0 | | + | |
- | | zh | 2007 | PDT | 2277 | 1450 | 827 | 63,7 | ano | | + | |
===== Starší poznámky ===== | ===== Starší poznámky ===== |