Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
user:zeman:dz-parser:conll [2009/03/13 18:24] zeman Sémantika. |
user:zeman:dz-parser:conll [2009/03/26 08:21] (current) zeman Úvod. |
====== Pokusy s DZ Parserem pro CoNLL ====== | ====== Pokusy s DZ Parserem pro CoNLL ====== |
| |
Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s [[internal:data-conll|daty CoNLL]] obecně (nejen 2007). Data leží v ''/net/data/conll''. Parser odsud čte, ale nepíše sem. Pro soubory související se syntaktickou analýzou těchto dat mám samostatnou složku ''/net/work/people/zeman/conll-dzparser''. | CoNLL Shared Task je soutěž v závislostní syntaktické analýze více jazyků, která probíhala v letech [[http://nextens.uvt.nl/~conll/|2006]], [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|2007]], [[http://barcelona.research.yahoo.net/conll2008/|2008]] a [[http://ufal.mff.cuni.cz/conll2009-st/|2009]]. Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s [[internal:data-conll|daty CoNLL]] obecně. |
| |
| Data leží v ''/net/data/conll''. Parser odsud čte, ale nepíše sem. Pro soubory související se syntaktickou analýzou těchto dat mám samostatnou složku ''/net/work/people/zeman/conll-dzparser''. |
| |
===== Proměnné ===== | ===== Proměnné ===== |
* ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s původními značkami | * ''harvest.csh'' ... pro všechny roky a jazyky (a u korpusů, u kterých to umíme, i pro data se značkami převedenými do PDT) zavolá ''porovnat.pl'' na zlatý standard a výstup parseru, čímž kromě úspěšnosti získáme i McNemarův test statistické významnosti zlepšení nebo zhoršení, které přinesl převod značek oproti datům s původními značkami |
* ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v této wiki. Má parametr ''INI'', který říká, jaké výsledky (získané s jakým konfiguračním souborem) se mají sbírat. | * ''vypsat_tabulku.pl'' dělá podobnou věc jako ''harvest.csh'', ale výsledky rovnou formátuje jako tabulku, kterou můžeme uložit v této wiki. Má parametr ''INI'', který říká, jaké výsledky (získané s jakým konfiguračním souborem) se mají sbírat. |
| |
| |
===== Sémantika 2009 ===== | ===== Sémantika 2009 ===== |
* Pro každou větu spočítat, kolik uzlů má nastaveno FILLPRED = "Y". Tolik bude u každého uzlu sloupců APREDs. | * Pro každou větu spočítat, kolik uzlů má nastaveno FILLPRED = "Y". Tolik bude u každého uzlu sloupců APREDs. |
* Zapamatovat si, které predikáty závisí na jiných predikátech (popř. si rovnou zapamatovat celý strom). U každého predikátu pak střelit nějakou hodnotu APRED do všech sloupců, které na něm závisí. Do ostatních vyplnit "_". | * Zapamatovat si, které predikáty závisí na jiných predikátech (popř. si rovnou zapamatovat celý strom). U každého predikátu pak střelit nějakou hodnotu APRED do všech sloupců, které na něm závisí. Do ostatních vyplnit "_". |
| * Až tyhle skripty budou, zapracovat je do Makefilu a získat baseline výsledek pro všechny jazyky. |
| |
===== Výsledky ===== | ===== Výsledky ===== |