[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/03/28 12:28]
zeman Statistická významnost.
user:zeman:dz-parser:conll [2008/03/28 12:45]
zeman
Line 28: Line 28:
 $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat
 ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
 +
 +
  
  
Line 66: Line 68:
 | ar | 2006 | PDT   | 3955 | 2595 | 1360 | 65,6 | ne | | ar | 2006 | PDT   | 3955 | 2595 | 1360 | 65,6 | ne |
 | ar | 2007 | CoNLL | 5873 | 3757 | 2116 | 64,0 | | ar | 2007 | CoNLL | 5873 | 3757 | 2116 | 64,0 |
-| ar | 2007 | PDT   | 5873 | 3793 | 2080 | 64,6 |+| ar | 2007 | PDT   | 5873 | 3793 | 2080 | 64,6 | ne |
 | bg | 2006 | CoNLL | 4677 | 3178 | 1499 | 67,9 | | bg | 2006 | CoNLL | 4677 | 3178 | 1499 | 67,9 |
 | bg | 2006 | PDT   | 4677 | 3338 | 1339 | 71,4 | ano | | bg | 2006 | PDT   | 4677 | 3338 | 1339 | 71,4 | ano |
Line 72: Line 74:
 | cs | 2006 | PDT   | 5643 | 4050 | 1593 | 71,8 | ano | | cs | 2006 | PDT   | 5643 | 4050 | 1593 | 71,8 | ano |
 | cs | 2007 | CoNLL | 5760 | 4061 | 1699 | 70,5 | | cs | 2007 | CoNLL | 5760 | 4061 | 1699 | 70,5 |
-| cs | 2007 | PDT   | 5760 | 4294 | 1466 | 74,5 |+| cs | 2007 | PDT   | 5760 | 4294 | 1466 | 74,5 | ano |
 | da | 2006 | CoNLL | 5470 | 3792 | 1678 | 69,3 | | da | 2006 | CoNLL | 5470 | 3792 | 1678 | 69,3 |
 | da | 2006 | PDT   | 5470 | 3804 | 1666 | 69,5 | ne | | da | 2006 | PDT   | 5470 | 3804 | 1666 | 69,5 | ne |
 | en | 2007 | CoNLL | 9529 | 6163 | 3366 | 64,7 | | en | 2007 | CoNLL | 9529 | 6163 | 3366 | 64,7 |
-| en | 2007 | PDT   | 9529 | 6254 | 3275 | 65,6 |+| en | 2007 | PDT   | 9529 | 6254 | 3275 | 65,6 | ano |
 | sv | 2006 | CoNLL | 7140 | 5075 | 2065 | 71,1 | | sv | 2006 | CoNLL | 7140 | 5075 | 2065 | 71,1 |
 | sv | 2006 | PDT   | 7140 | 5232 | 1908 | 73,3 | ano | | sv | 2006 | PDT   | 7140 | 5232 | 1908 | 73,3 | ano |
Line 82: Line 84:
 | zh | 2006 | PDT   | 1839 | 1252 | 587 | 68,1 | ne | | zh | 2006 | PDT   | 1839 | 1252 | 587 | 68,1 | ne |
 | zh | 2007 | CoNLL | 2277 | 1506 | 771 | 66,1 | | zh | 2007 | CoNLL | 2277 | 1506 | 771 | 66,1 |
-| zh | 2007 | PDT   | 2277 | 1449 | 828 | 63,6 |+| zh | 2007 | PDT   | 2277 | 1449 | 828 | 63,6 | ano |
  
-Převod značek do sady PDT pomohl všude kromě čínštiny, i když u některých jazyků možná změna nebyla statisticky významná. U čínštiny lze zhoršení snadno vysvětlit. Čínská sada značek se velmi liší od ostatních, do Intersetu se vejde jen nepatrný zlomek informace, kterou značky nesou, takže ztráta informace při převodu značek je mimořádně veliká.+Převod značek do sady PDT pomohl všude kromě čínštiny, i když u některých jazyků změna nebyla statisticky významná. U čínštiny lze zhoršení snadno vysvětlit. Čínská sada značek se velmi liší od ostatních, do Intersetu se vejde jen nepatrný zlomek informace, kterou značky nesou, takže ztráta informace při převodu značek je mimořádně veliká.
  
 ===== Starší poznámky ===== ===== Starší poznámky =====

[ Back to the navigation ] [ Back to the content ]