Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:dz-parser:conll [2008/04/29 10:12] zeman Výsledky němčiny a portugalštiny. |
user:zeman:dz-parser:conll [2008/04/29 12:56] zeman Doplnění německých a portugalských výsledků s výchozí konfigurací parseru. |
$PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat | $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat |
($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> | ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> |
| |
| |
| |
===== Zpracování na clusteru ===== | ===== Zpracování na clusteru ===== |
* ''qtp2007.csh'' ... přetrénování a rozbor všech jazyků 2007 bez machinací se značkami | * ''qtp2007.csh'' ... přetrénování a rozbor všech jazyků 2007 bez machinací se značkami |
* ''qtppdt.csh'' ... přetrénování a rozbor dat se značkami převedenými do sady PDT u jazyků, u kterých to umíme, z obou let | * ''qtppdt.csh'' ... přetrénování a rozbor dat se značkami převedenými do sady PDT u jazyků, u kterých to umíme, z obou let |
* ''trainparse.csh ROK JAZYK VAR INI'' ... přetrénování a rozbor jednoho korpusu (rok a jazyk jsou jasné parametry, var je varianta dat, třeba "''.pdttags''", a ini je název konfiguračního souboru bez přípony .ini, třeba "''03''") | * ''trainparse.csh ROK JAZYK VAR INI'' ... přetrénování a rozbor jednoho korpusu (rok a jazyk jsou jasné parametry, var je varianta dat, třeba "''pdttags''", a ini je název konfiguračního souboru bez přípony .ini, třeba "''03''") |
* ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s původními značkami | * ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s původními značkami |
* ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v této wiki. Má parametr ''INI'', který říká, jaké výsledky (získané s jakým konfiguračním souborem) se mají sbírat. | * ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v této wiki. Má parametr ''INI'', který říká, jaké výsledky (získané s jakým konfiguračním souborem) se mají sbírat. |
| |
Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními neupravenými značkami CoNLL (tabulátory, rysy oddělené svislítky). | Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL, s původními neupravenými značkami CoNLL (tabulátory, rysy oddělené svislítky). |
| Úspěšnost parsingu s původními značkami CoNLL: |
| Jazyk | Rok | P | | | Jazyk | Rok | P | |
| ar | 2006 | 63.9 | | | ar | 2006 | 63.9 | |
| cs | 2007 | 69.1 | 68.6 | horší | ano (3.948357) | | | cs | 2007 | 69.1 | 68.6 | horší | ano (3.948357) | |
| da | 2006 | 69.9 | 70.5 | lepší | ne (2.082218) | | | da | 2006 | 69.9 | 70.5 | lepší | ne (2.082218) | |
| | de | 2006 | 71.8 | 67.5 | horší | ano (61.301887) | |
| en | 2007 | 70.6 | 65.4 | horší | ano (227.951382) | | | en | 2007 | 70.6 | 65.4 | horší | ano (227.951382) | |
| | pt | 2006 | 73.8 | 76.4 | lepší | ano (44.312588) | |
| sv | 2006 | 71.0 | 72.6 | lepší | ano (12.763713) | | | sv | 2006 | 71.0 | 72.6 | lepší | ano (12.763713) | |
| zh | 2006 | 69.9 | 68.4 | horší | ne (1.574297) | | | zh | 2006 | 69.9 | 68.4 | horší | ne (1.574297) | |