[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/03/28 15:43]
zeman
user:zeman:dz-parser:conll [2008/03/28 16:44]
zeman Zapnutá úprava morfologických značek a selektivní lexikalizace.
Line 28: Line 28:
 $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat
 ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
 +
 +
  
  
Line 42: Line 44:
  
 | Jazyk | Rok | A | G | B | P | | Jazyk | Rok | A | G | B | P |
-| ar | 2006 | 3955 | 2555 1400 64,+| ar | 2006 | 3955 | 2527 1428 63,
-| ar | 2007 | 5873 | 3757 2116 | 64,+| ar | 2007 | 5873 | 3813 2060 | 64,
-| bg | 2006 | 4677 | 3178 1499 67,|+| bg | 2006 | 4677 | 3380 1297 72,|
 | ca | 2007 | 10971 | 7978 | 2993 | 72,7 | | ca | 2007 | 10971 | 7978 | 2993 | 72,7 |
-| cs | 2006 | 5643 | 3822 1821 67,+| cs | 2006 | 5643 | 3617 2026 64,
-| cs | 2007 | 5760 | 4061 1699 70,+| cs | 2007 | 5760 | 3981 1779 69,
-| da | 2006 | 5470 | 3792 1678 | 69,|+| da | 2006 | 5470 | 3825 1645 | 69,|
 | de | 2006 | 5403 | 3877 | 1526 | 71,8 | | de | 2006 | 5403 | 3877 | 1526 | 71,8 |
 | el | 2007 | 4874 | 3170 | 1704 | 65,0 | | el | 2007 | 4874 | 3170 | 1704 | 65,0 |
-| en | 2007 | 9529 | 6163 3366 64,|+| en | 2007 | 9529 | 6725 2804 70,|
 | eu | 2007 | 4334 | 2538 | 1796 | 58,6 | | eu | 2007 | 4334 | 2538 | 1796 | 58,6 |
 | hu | 2007 | 5995 | 3733 | 2262 | 62,3 | | hu | 2007 | 5995 | 3733 | 2262 | 62,3 |
Line 59: Line 61:
 | pt | 2006 | 6719 | 4959 | 1760 | 73,8 | | pt | 2006 | 6719 | 4959 | 1760 | 73,8 |
 | sl | 2006 | 4307 | 2529 | 1778 | 58,7 | | sl | 2006 | 4307 | 2529 | 1778 | 58,7 |
-| sv | 2006 | 7140 | 5075 2065 | 71,|+| sv | 2006 | 7140 | 5071 2069 | 71,|
 | tr | 2007 | 6210 | 4011 | 2199 | 64,6 | | tr | 2007 | 6210 | 4011 | 2199 | 64,6 |
-| zh | 2006 | 1839 | 1269 570 | 69,+| zh | 2006 | 1839 | 1286 553 | 69,
-| zh | 2007 | 2277 | 1506 771 66,|+| zh | 2007 | 2277 | 1570 707 69,|
  
 Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) značek ve výchozí konfiguraci omylem zapnuté bylo. I tak se občas dostal do značky tabulátor a takové značky se pak chybně ukládají ve statistice. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84). Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) značek ve výchozí konfiguraci omylem zapnuté bylo. I tak se občas dostal do značky tabulátor a takové značky se pak chybně ukládají ve statistice. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84).
Line 113: Line 115:
 | zh | 2007 | CoNLL | 2277 | 1570 | 707 | 69,0 | | zh | 2007 | CoNLL | 2277 | 1570 | 707 | 69,0 |
 | zh | 2007 | PDT   | 2277 | 1450 | 827 | 63,7 | ano | | zh | 2007 | PDT   | 2277 | 1450 | 827 | 63,7 | ano |
 +
 +Následující tabulka ukazuje úspěšnost DZ parseru se zapnutou úpravou morfologických značek a selektivní lexikalizací na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, rysy oddělené svislítky).
 +
 +| Jazyk | Rok | A | G | B | P |
 +| ar | 2006 | 3955 | 2543 | 1412 | 64,3 |
 +| ar | 2007 | 5873 | 3512 | 2361 | 59,8 |
 +| bg | 2006 | 4677 | 3178 | 1499 | 67,9 |
 +| ca | 2007 | 10971 | 7670 | 3301 | 69,9 |
 +| cs | 2006 | 5643 | 3158 | 2485 | 56,0 |
 +| cs | 2007 | 5760 | 3379 | 2381 | 58,7 |
 +| da | 2006 | 5470 | 3792 | 1678 | 69,3 |
 +| de | 2006 | 5403 | 3702 | 1701 | 68,5 |
 +| el | 2007 | 4874 | 3292 | 1582 | 67,5 |
 +| en | 2007 | 9529 | 6163 | 3366 | 64,7 |
 +| eu | 2007 | 4334 | 2531 | 1803 | 58,4 |
 +| hu | 2007 | 5995 | 3962 | 2033 | 66,1 |
 +| it | 2007 | 7643 | 5608 | 2035 | 73,4 |
 +| ja | 2006 | 3384 | 2524 | 860 | 74,6 |
 +| nl | 2006 | 6187 | 4519 | 1668 | 73,0 |
 +| pt | 2006 | 6719 | 4941 | 1778 | 73,5 |
 +| sl | 2006 | 4307 | 2748 | 1559 | 63,8 |
 +| sv | 2006 | 7140 | 5073 | 2067 | 71,1 |
 +| tr | 2007 | 6210 | 4040 | 2170 | 65,1 |
 +| zh | 2006 | 1839 | 1269 | 570 | 69,0 |
 +| zh | 2007 | 2277 | 1506 | 771 | 66,1 |
  
 ===== Starší poznámky ===== ===== Starší poznámky =====

[ Back to the navigation ] [ Back to the content ]