[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/03/28 15:43]
zeman
user:zeman:dz-parser:conll [2008/03/28 15:49]
zeman Oprava výchozích výsledků. Nyní se opravdu neupravují morfologické značky a správně se ukládají události s tabulátory.
Line 28: Line 28:
 $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat
 ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
 +
  
  
Line 42: Line 43:
  
 | Jazyk | Rok | A | G | B | P | | Jazyk | Rok | A | G | B | P |
-| ar | 2006 | 3955 | 2555 1400 64,+| ar | 2006 | 3955 | 2527 1428 63,
-| ar | 2007 | 5873 | 3757 2116 | 64,+| ar | 2007 | 5873 | 3813 2060 | 64,
-| bg | 2006 | 4677 | 3178 1499 67,|+| bg | 2006 | 4677 | 3380 1297 72,|
 | ca | 2007 | 10971 | 7978 | 2993 | 72,7 | | ca | 2007 | 10971 | 7978 | 2993 | 72,7 |
-| cs | 2006 | 5643 | 3822 1821 67,+| cs | 2006 | 5643 | 3617 2026 64,
-| cs | 2007 | 5760 | 4061 1699 70,+| cs | 2007 | 5760 | 3981 1779 69,
-| da | 2006 | 5470 | 3792 1678 | 69,|+| da | 2006 | 5470 | 3825 1645 | 69,|
 | de | 2006 | 5403 | 3877 | 1526 | 71,8 | | de | 2006 | 5403 | 3877 | 1526 | 71,8 |
 | el | 2007 | 4874 | 3170 | 1704 | 65,0 | | el | 2007 | 4874 | 3170 | 1704 | 65,0 |
-| en | 2007 | 9529 | 6163 3366 64,|+| en | 2007 | 9529 | 6725 2804 70,|
 | eu | 2007 | 4334 | 2538 | 1796 | 58,6 | | eu | 2007 | 4334 | 2538 | 1796 | 58,6 |
 | hu | 2007 | 5995 | 3733 | 2262 | 62,3 | | hu | 2007 | 5995 | 3733 | 2262 | 62,3 |
Line 59: Line 60:
 | pt | 2006 | 6719 | 4959 | 1760 | 73,8 | | pt | 2006 | 6719 | 4959 | 1760 | 73,8 |
 | sl | 2006 | 4307 | 2529 | 1778 | 58,7 | | sl | 2006 | 4307 | 2529 | 1778 | 58,7 |
-| sv | 2006 | 7140 | 5075 2065 | 71,|+| sv | 2006 | 7140 | 5071 2069 | 71,|
 | tr | 2007 | 6210 | 4011 | 2199 | 64,6 | | tr | 2007 | 6210 | 4011 | 2199 | 64,6 |
-| zh | 2006 | 1839 | 1269 570 | 69,+| zh | 2006 | 1839 | 1286 553 | 69,
-| zh | 2007 | 2277 | 1506 771 66,|+| zh | 2007 | 2277 | 1570 707 69,|
  
 Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) značek ve výchozí konfiguraci omylem zapnuté bylo. I tak se občas dostal do značky tabulátor a takové značky se pak chybně ukládají ve statistice. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84). Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. selektivní lexikalizace není zapnuta, ale úprava (zkracování) značek ve výchozí konfiguraci omylem zapnuté bylo. I tak se občas dostal do značky tabulátor a takové značky se pak chybně ukládají ve statistice. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84).

[ Back to the navigation ] [ Back to the content ]