[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/03/27 22:49]
zeman Čeština 2006.
user:zeman:dz-parser:conll [2008/04/29 13:04]
zeman Srovnání konfigurací parseru.
Line 29: Line 29:
 ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
  
 +===== Zpracování na clusteru =====
  
 +V&nbsp;''$OUTPUT/bin'' mám několik skriptů, které odesílají parsovací úlohy na cluster:
 +  * ''qtp2006.csh'' ... přetrénování a rozbor všech jazyků 2006 bez machinací se značkami
 +  * ''qtp2007.csh'' ... přetrénování a rozbor všech jazyků 2007 bez machinací se značkami
 +  * ''qtppdt.csh'' ... přetrénování a rozbor dat se značkami převedenými do sady PDT u jazyků, u kterých to umíme, z&nbsp;obou let
 +  * ''trainparse.csh ROK JAZYK VAR INI'' ... přetrénování a rozbor jednoho korpusu (rok a jazyk jsou jasné parametry, var je varianta dat, třeba "''pdttags''", a ini je název konfiguračního souboru bez přípony .ini, třeba "''03''")
 +  * ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s&nbsp;původními značkami
 +  * ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v&nbsp;této wiki. Má parametr ''INI'', který říká, jaké výsledky (získané s&nbsp;jakým konfiguračním souborem) se mají sbírat.
  
 ===== Výsledky ===== ===== Výsledky =====
  
-Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, rysy oddělené svislítky):+==== Výchozí nastavení ====
  
-| Jazyk | Rok | A | G | B | P | +Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními neupravenými značkami CoNLL (tabulátory, rysy oddělené svislítky). 
-| ar | 2006 | 3955 | 2555 | 1400 | 64,6 +Úspěšnost parsingu s&nbsp;původními značkami CoNLL: 
-| ar | 2007 | 5873 | 3757 | 2116 | 64,0 +| Jazyk | Rok | P | 
-| bg | 2006 | 4677 | 3178 | 1499 | 67,9 +| ar | 2006 | 63.9 
-| ca | 2007 | 10971 | 7670 | 3301 | 69,9 +| ar | 2007 | 64.9 
-| cs | 2006 | 5643 | 3822 | 1821 | 67,7 +| bg | 2006 | 72.3 
-| cs | 2007 | 5760 | 4061 | 1699 | 70,5 +| ca | 2007 | 72.7 
-| da | 2006 | 5470 | 3792 | 1678 | 69,3 +| cs | 2006 | 64.1 
-| de | 2006 | 5403 | 3704 | 1699 | 68,6 +| cs | 2007 | 69.1 
-| el | 2007 | 4874 | 3132 | 1742 | 64,3 +| da | 2006 | 69.9 
-| en | 2007 | 9529 | 6163 | 3366 | 64,7 +| de | 2006 | 71.8 
-| eu | 2007 | 4334 | 2477 | 1857 | 57,2 +| el | 2007 | 65.0 
-| hu | 2007 | 5995 | 4088 | 1907 | 68,2 +| en | 2007 | 70.6 
-| it | 2007 | 7643 | 5556 | 2087 | 72,7 +| eu | 2007 | 58.6 
-| ja | 2006 | 3384 | 2524 | 860 | 74,6 +| hu | 2007 | 62.3 
-| nl | 2006 | 6187 | 4579 | 1608 | 74,0 +| it | 2007 | 71.5 
-| pt | 2006 | 6719 | 4941 | 1778 | 73,5 +| ja | 2006 | 87.3 
-| sl | 2006 | 4307 | 2765 | 1542 | 64,2 +| nl | 2006 | 73.7 
-| sv | 2006 | 7140 | 5075 | 2065 | 71,1 +| pt | 2006 | 73.8 
-| tr | 2007 | 6210 | 3920 | 2290 | 63,1 +| sl | 2006 | 58.7 
-| zh | 2006 | 1839 | 1269 | 570 | 69,0 +| sv | 2006 | 71.0 
-| zh | 2007 | 2277 | 1506 | 771 | 66,1 |+| tr | 2007 | 64.6 
 +| zh | 2006 | 69.9 
 +| zh | 2007 | 69.0 |
  
-Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. značky nejsou upravovány a selektivní lexikalizace není zapnuta.+Následující tabulka srovnává výsledky s původními značkami CoNLL a výsledky se značkami PDT. Data jsou dtest. Nastavení parseru je výchozí, tj. úprava značek ani selektivní lexikalizace není zapnuta. Poslední sloupec říká, zda je změna úspěšnosti statisticky významná podle McNemarova testu na úrovni 0,05 (χ<html><sup>2</sup></html> ≥ 3,84).
  
-| Jazyk | Rok | Značky +| Jazyk | Rok | P(CoNLL) P(PDT) Změna McNemar | 
-| ar | 2006 | CoNLL 3955 2555 1400 | 64,6 | +| ar | 2006 | 63.9 | 66.8 | lepší | ano (19.858476) 
-ar | 2006 | PDT   3955 2595 1360 | 65,6 | +| ar | 2007 | 64.9 | 64.2 | horší | ne (1.497453) | 
-ar | 2007 | CoNLL | 5873 3757 2116 | 64,0 +| bg | 2006 | 72.3 71.2 horší ne (3.205607) | 
-| ar | 2007 | PDT   5873 3793 2080 | 64,6 | +| cs | 2006 | 64.1 | 64.1 | lepší | ne (0.007519) | 
-bg | 2006 | CoNLL | 4677 3178 1499 | 67,9 +| cs | 2007 | 69.1 | 68.| horší | ano (3.948357) 
-| bg | 2006 | PDT   4677 3338 1339 | 71,4 +da | 2006 | 69.9 70.5 lepší ne (2.082218) | 
-| cs | 2006 | CoNLL | 5643 3822 1821 | 67,7 | +| de | 2006 | 71.8 | 67.5 | horší | ano (61.301887) | 
-cs | 2006 | PDT   5643 4050 1593 | 71,8 +| en | 2007 | 70.6 | 65.4 | horší | ano (227.951382) | 
-| cs | 2007 | CoNLL 5760 4061 1699 70,5 | +| pt | 2006 | 73.8 | 76.4 | lepší | ano (44.312588) | 
-cs | 2007 | PDT   5760 4294 1466 74,5 +| sv | 2006 | 71.0 | 72.| lepší | ano (12.763713) 
-da | 2006 | CoNLL 5470 3792 1678 | 69,3 | +zh | 2006 | 69.9 | 68.4 | horší | ne (1.574297) | 
-da | 2006 | PDT   5470 3804 1666 | 69,5 | +| zh | 2007 | 69.0 | 63.7 | horší | ano (22.360248) | 
-| en | 2007 | CoNLL | 9529 6163 3366 | 64,7 | + 
-| en | 2007 | PDT   9529 6254 3275 65,6 | +U čínštiny lze zhoršení snadno vysvětlit. Čínská sada značek se velmi liší od ostatních, do Intersetu se vejde jen nepatrný zlomek informace, kterou značky nesou, takže ztráta informace při převodu značek je mimořádně veliká. 
-sv | 2006 | CoNLL 7140 5075 2065 | 71,1 | + 
-sv | 2006 | PDT   7140 5232 1908 73,3 | +==== 01: zapnuté upravování značek a selektivní lexikalizace ==== 
-| zh | 2006 | CoNLL | 1839 1269 570 | 69,0 | + 
-| zh | 2006 | PDT   1839 1252 | 587 | 68,1 | +Následující tabulka ukazuje úspěšnost DZ parseru se zapnutou úpravou morfologických značek a selektivní lexikalizací na průběžných testovacích datech CoNLL, s původními značkami CoNLL (tabulátory, rysy oddělené svislítky). 
-| zh | 2007 | CoNLL 2277 1506 771 | 66,1 | + 
-zh | 2007 | PDT   2277 1449 828 | 63,6 |+Jazyk Rok P | 
 +| ar | 2006 | 64.3 
 +| ar | 2007 | 59.8 | 
 +bg 2006 | 67.9 | 
 +| ca | 2007 | 69.9 | 
 +| cs | 2006 | 56.0 | 
 +| cs | 2007 | 58.7 | 
 +| da | 2006 | 69.3 | 
 +| de | 2006 | 68.5 | 
 +| el | 2007 | 67.5 | 
 +| en | 2007 | 64.7 | 
 +| eu | 2007 | 58.4 | 
 +| hu | 2007 | 66.1 | 
 +| it | 2007 | 73.4 | 
 +| ja | 2006 | 74.6 | 
 +nl | 2006 | 73.0 | 
 +| pt | 2006 | 73.5 | 
 +| sl | 2006 | 63.8 | 
 +| sv | 2006 | 71.1 | 
 +| tr | 2007 | 65.1 | 
 +| zh | 2006 | 69.0 | 
 +| zh | 2007 | 66.1 | 
 + 
 +| Jazyk | Rok | P(CoNLLP(PDT) Změna McNemar | 
 +| ar | 2006 | 64.3 | 67.3 | lepší | ano (20.855670) | 
 +| ar | 2007 | 59.8 | 66.7 | lepší | ano (149.962142) 
 +| bg | 2006 | 67.9 71.4 lepší ano (44.137931) | 
 +| cs | 2006 | 56.0 | 71.6 | lepší | ano (597.483871) 
 +| cs | 2007 | 58.7 | 74.2 | lepší | ano (616.602151) | 
 +| da | 2006 | 69.3 | 69.5 | lepší | ne (0.114286) | 
 +| en | 2007 | 64.7 | 65.6 | lepší | ano (8.781548) | 
 +| sv | 2006 | 71.1 | 73.1 | lepší | ano (24.144134) | 
 +| zh | 2006 | 69.0 | 68.1 | horší | ne (1.000000) | 
 +| zh | 2007 | 66.1 | 63.6 | horší | ano (8.950413) | 
 + 
 +=== Srovnání výchozího nastavení CoNLL s nastavením 01 PDT === 
 + 
 +Jazyk Rok P(CoNLL) | P(PDT) | Změna | McNemar | 
 +| ar | 2006 | 63.9 | 67.3 | lepší | ano (21.670630) | 
 +| ar | 2007 | 64.9 | 66.| lepší | ano (9.078534) 
 +bg | 2006 | 72.3 71.4 horší ne (1.904968) | 
 +| cs | 2006 | 64.1 | 71.6 | lepší | ano (170.571020) 
 +| cs | 2007 | 69.1 74.2 lepší ano (85.242604) | 
 +| da | 2006 | 69.9 | 69.| horší | ne (0.821288) 
 +en | 2007 | 70.6 65.6 horší ano (176.765737) | 
 +| sv | 2006 | 71.0 | 73.1 | lepší | ano (24.369923) 
 +zh | 2006 | 69.9 68.1 horší ne (2.330645) | 
 +| zh | 2007 | 69.0 | 63.6 | horší | ano (22.769829) | 
 + 
 + 
 +==== 02: navíc zakázané přeskakování bezdětných předložek ==== 
 +| Jazyk | Rok | P | 
 +| ar | 2006 | 64.3 | 
 +ar | 2007 | 59.8 | 
 +| bg | 2006 | 68.0 | 
 +ca 2007 | 69.9 | 
 +| cs | 2006 | 56.1 | 
 +| cs | 2007 | 58.7 | 
 +| da | 2006 | 68.3 | 
 +| de | 2006 | 68.
 +| el | 2007 | 67.1 
 +| en | 2007 | 63.8 | 
 +| eu | 2007 | 58.4 | 
 +| hu | 2007 | 62.3 | 
 +| it | 2007 | 72.1 | 
 +| ja | 2006 | 74.6 | 
 +| nl | 2006 | 73.0 | 
 +| pt | 2006 | 73.5 | 
 +| sl | 2006 | 63.8 | 
 +| sv | 2006 | 71.0 | 
 +| tr | 2007 | 65.1 | 
 +| zh | 2006 | 69.0 | 
 +| zh | 2007 | 66.1 | 
 + 
 +| Jazyk | Rok | P(CoNLLP(PDT) Změna McNemar | 
 +| ar | 2006 | 64.3 | 67.6 | lepší | ano (24.635569) | 
 +| ar | 2007 | 59.8 | 66.9 | lepší | ano (162.665108) | 
 +| bg | 2006 | 68.0 | 71.3 | lepší | ano (41.317073) | 
 +| cs | 2006 | 56.1 | 71.4 | lepší | ano (583.183944) | 
 +| cs | 2007 | 58.| 74.0 | lepší | ano (611.467919) | 
 +| da | 2006 | 68.3 | 69.8 | lepší | ano (9.116809) 
 +| en | 2007 | 63.8 | 67.3 | lepší | ano (97.889876) | 
 +| sv | 2006 | 71.0 | 73.5 | lepší | ano (38.126126) | 
 +| zh | 2006 | 69.0 | 68.0 | horší | ne (1.249135) | 
 +| zh | 2007 | 66.1 | 63.5 | horší | ano (9.836066) | 
 + 
 +| Jazyk | Rok | P(CoNLL) | P(PDTZměna McNemar | 
 +ar | 2006 | 63.9 | 67.| lepší | ano (26.578554) 
 +ar | 2007 | 64.9 | 66.9 | lepší | ano (12.122523) | 
 +| bg | 2006 | 72.3 71.3 horší ne (2.198697) | 
 +| cs | 2006 | 64.1 | 71.4 | lepší | ano (163.208696) | 
 +| cs | 2007 | 69.| 74.0 | lepší | ano (78.750246) 
 +da | 2006 | 69.9 69.8 horší ne (0.065772) | 
 +| en | 2007 | 70.6 | 67.| horší | ano (80.847587) | 
 +| sv | 2006 | 71.0 | 73.5 | lepší | ano (35.800000) 
 +| zh | 2006 | 69.9 | 68.0 | horší | ne (2.623482) | 
 +| zh | 2007 | 69.0 | 63.5 | horší | ano (23.875776) | 
 + 
 +==== 03: navíc zapnuté modelování pseudovalence ==== 
 + 
 +Úspěšnost parsingu s&nbsp;původními značkami CoNLL
 +Jazyk Rok P | 
 +| ar | 2006 | 64.4 | 
 +| ar | 2007 | 59.8 | 
 +| bg | 2006 | 67.6 | 
 +| ca | 2007 | 69.9 | 
 +| cs | 2006 | 56.
 +| cs | 2007 | 58.7 | 
 +| da | 2006 | 68.3 | 
 +| de | 2006 | 69.5 | 
 +| el | 2007 | 67.2 | 
 +| en | 2007 | 64.2 | 
 +| eu | 2007 | 58.4 | 
 +| hu | 2007 | 62.3 | 
 +| it | 2007 | 72.2 | 
 +| ja | 2006 | 74.9 | 
 +| nl | 2006 | 73.2 | 
 +| pt | 2006 | 73.5 | 
 +| sl | 2006 | 63.8 | 
 +| sv | 2006 | 71.0 | 
 +| tr | 2007 | 65.2 
 +| zh | 2006 | 67.5 | 
 +| zh | 2007 | 64.6 | 
 + 
 +Srovnání úspěšnosti parsingu s&nbsp;původními značkami a se značkami PDT
 +Jazyk | Rok | P(CoNLL) | P(PDT) | Změna | McNemar | 
 +| ar | 2006 | 64.4 | 67.6 | lepší | ano (23.953216) | 
 +| ar | 2007 | 59.8 | 67.0 | lepší | ano (165.491130) | 
 +| bg | 2006 | 67.6 | 71.0 | lepší | ano (45.224638) | 
 +| cs | 2006 | 56.0 | 71.4 lepší ano (587.655280) | 
 +| cs | 2007 | 58.7 | 74.3 | lepší | ano (627.063764) | 
 +| da | 2006 | 68.3 | 69.8 | lepší | ano (8.878214) | 
 +| de | 2006 | 69.5 | 67.7 | horší | ano (9.841876) | 
 +| en | 2007 | 64.2 | 67.9 | lepší | ano (110.976037) | 
 +| pt | 2006 | 73.5 | 76.4 | lepší | ano (42.581187) | 
 +| sv | 2006 | 71.0 | 73.2 | lepší | ano (27.717540) | 
 +| zh | 2006 | 67.5 | 68.8 | lepší | ne (2.042553) | 
 +| zh | 2007 | 64.6 | 64.6 | stejná | ne (0.000000) | 
 + 
 +Totéžale parsing s&nbsp;původními značkami použil výchozí konfiguraci místo 03. 
 +| Jazyk | Rok | P(CoNLL) | P(PDT) | Změna | McNemar | 
 +| ar | 2006 | 63.9 | 67.6 | lepší | ano (27.380000) | 
 +| ar | 2007 | 64.9 | 67.0 | lepší | ano (12.949640) | 
 +| bg | 2006 | 72.3 | 71.0 | horší | ne (3.688525) | 
 +| cs | 2006 | 64.| 71.4 | lepší | ano (167.052632) | 
 +| cs | 2007 | 69.1 | 74.3 | lepší | ano (87.422200) | 
 +| da | 2006 | 69.9 | 69.8 | horší | ne (0.046272) | 
 +| de | 2006 | 71.8 | 67.7 | horší | ano (54.691057) | 
 +| en | 2007 | 70.6 | 67.9 | horší | ano (55.470000) | 
 +| pt | 2006 | 73.8 | 76.4 | lepší | ano (34.848721) | 
 +| sv | 2006 | 71.0 | 73.2 | lepší | ano (22.530318) | 
 +| zh | 2006 | 69.9 | 68.8 | horší | ne (0.757576) 
 +| zh | 2007 | 69.0 64.6 horší ano (14.266376) | 
 + 
 +===== Která konfigurace je nejúspěšnější pro který jazyk? ===== 
 + 
 +| Jazyk | Rok | orig df | pdt df | orig 03 | pdt 03 | 
 +| ar | 2006 | 63.9 | 66.8 | 64.4 | 67.6 | 
 +| ar | 2007 | 64.9 | 64.2 | 59.8 | 67.0 | 
 +| bg | 2006 | 72.3 | 71.2 | 67.6 | 71.0 | 
 +| ca | 2007 | 72.7 |      | 69.9 |      | 
 +| cs | 2006 | 64.| 64.1 | 56.0 | 71.4 
 +cs | 2007 | 69.1 68.6 58.7 74.3 | 
 +| da | 2006 | 69.9 | 70.5 | 68.3 | 69.8 | 
 +| de | 2006 | 71.8 | 67.5 | 69.5 | 67.7 | 
 +| el | 2007 | 65.0 |      | 67.2 |      | 
 +| en | 2007 | 70.6 | 65.4 | 64.2 | 67.9 | 
 +| eu | 2007 | 58.6 |      | 58.4 |      | 
 +| hu | 2007 | 62.3 |      | 62.3 |      | 
 +| it | 2007 | 71.5 |      | 72.2 |      | 
 +| ja | 2006 | 87.3 |      | 74.9 |      | 
 +| nl | 2006 | 73.7 |      | 73.2 |      | 
 +| pt | 2006 | 73.8 | 76.4 | 73.5 | 76.4 | 
 +| sl | 2006 | 58.7 |      | 63.8 |      | 
 +| sv | 2006 | 71.0 | 72.6 | 71.0 | 73.2 | 
 +| tr | 2007 | 64.6 |      | 65.2 |      | 
 +| zh | 2006 | 69.9 | 68.4 | 67.5 | 68.8 | 
 +| zh | 2007 | 69.0 | 63.7 | 64.6 | 64.6 |
  
 ===== Starší poznámky ===== ===== Starší poznámky =====

[ Back to the navigation ] [ Back to the content ]