Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:dz-parser:conll [2008/04/01 10:03] zeman Dodatečně ještě němčina. |
user:zeman:dz-parser:conll [2008/04/25 11:30] zeman Dokumentace skriptů. |
$PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat | $PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat |
($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> | ($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code> |
| |
| ===== Zpracování na clusteru ===== |
| |
| V ''$OUTPUT/bin'' mám několik skriptů, které odesílají parsovací úlohy na cluster: |
| * ''qtp2006.csh'' ... přetrénování a rozbor všech jazyků 2006 bez machinací se značkami |
| * ''qtp2007.csh'' ... přetrénování a rozbor všech jazyků 2007 bez machinací se značkami |
| * ''qtppdt.csh'' ... přetrénování a rozbor dat se značkami převedenými do sady PDT u jazyků, u kterých to umíme, z obou let |
| * ''trainparse.csh ROK JAZYK VAR INI'' ... přetrénování a rozbor jednoho korpusu (rok a jazyk jsou jasné parametry, var je varianta dat, třeba "pdttags", a ini je název konfiguračního souboru bez přípony .ini, třeba "03") |
| * ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s původními značkami |
| * ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v této wiki |
| |
===== Výsledky ===== | ===== Výsledky ===== |