Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:conll [2008/03/05 18:49]
zeman Převod značek do sady PDT.
+++ user:zeman:dz-parser:conll [2008/03/27 21:10]
zeman Výsledky dtest původní značky.
@@ Line 1: / Line 1: @@
-====== Pokusy s DZ Parserem pro CoNLL 2007 ======
+====== Pokusy s DZ Parserem pro CoNLL ======
-Musíme odeslat i angličtinu!
+Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v&nbsp;parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s&nbsp;[[internal:data-conll|daty CoNLL]] obecně (nejen 2007). Data leží v&nbsp;''/net/data/conll''. Parser odsud čte, ale nepíše sem. Pro soubory související se syntaktickou analýzou těchto dat mám samostatnou složku ''/net/work/people/zeman/conll-dzparser''.
+===== Proměnné =====
+Používám proměnné prostředí, které mám nastavené ve svém ''.cshrc'' takto:
+<code>setenv PARSINGROOT /net/work/people/zeman/parsing
+setenv TOOLS $PARSINGROOT/tools
+setenv INTERSET ~zeman/projekty/interset
+setenv PARSER ~zeman/projekty/parser</code>
+Kromě toho mám ve své ''PATH'' přidáno ''$INTERSET/bin'' a v ''PERLLIB'' a ''PERL5LIB'' mám mj. ''$INTERSET/lib'' a ''$PARSINGROOT/lib''.
+Další proměnné, určené přímo pro rozbor dat CoNLL mým parserem:
+<code>setenv DATA /net/data/conll
+setenv OUTPUT /net/work/people/zeman/conll-dzparser</code>
+===== Výsledky =====
+Následující tabulka ukazuje úspěšnost DZ parseru s výchozím nastavením na průběžných testovacích datech CoNLL 2007, s původními značkami CoNLL (tabulátory, rysy oddělené svislítky):
+| Jazyk | A | G | B | P |
+| ar | 5873 | 3757 | 2116 | 64,0 |
+| ca | 10971 | 7670 | 3301 | 69,9 |
+| cs | 5760 | 4061 | 1699 | 70,5 |
+| el | 4874 | 3132 | 1742 | 64,3 |
+| en | 9529 | 6163 | 3366 | 64,7 |
+| eu | 4334 | 2477 | 1857 | 57,2 |
+| hu | 5995 | 4088 | 1907 | 68,2 |
+| it | 7643 | 5556 | 2087 | 72,7 |
+| tr | 6210 | 3920 | 2290 | 63,1 |
+| zh | 2277 | 1506 | 771 | 66,1 |
+===== Zpracování =====
+Každý jazyk zkouším zpracovat jednak s&nbsp;původními značkami, jednak se značkami převedenými do české sady PDT. Základní zpracování (bez přiřazování syntaktických značek) předpokládá pouze dva kroky: natrénování modelu na průběžných trénovacích datech a jeho otestování na průběžných testovacích datech. U základního zpracování používáme výchozí, jazykově nezávislé nastavení parseru.
+<code>cd $OUTPUT
+setenv ROK 2007
+setenv JAZYK cs
+$PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat
+($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
+===== Starší poznámky =====
 Postup zpracování jednoho jazyka CoNLL:
@@ Line 25: / Line 70: @@
 $parser/train.pl < $cesta/${xx}dtrain.csts > $cesta/${xx}.stat
 $parser/parse.pl -m $cesta/${xx}.stat < $cesta/${xx}dtest.csts > $cesta/${xx}dtest.dz.csts
-~zeman/projekty/interset/bin/csts-zh-conll-cs-pdt.pl < $cesta/${xx}dtrain.csts > $cesta/${xx}dtrain.pdt.csts</code>
+~zeman/projekty/interset/bin/csts-zh-conll-cs-pdt.pl < $cesta/${xx}dtrain.csts > $cesta/${xx}dtrain.pdt.csts
+~zeman/projekty/interset/bin/csts-zh-conll-cs-pdt.pl < $cesta/${xx}dtest.csts > $cesta/${xx}dtest.pdt.csts
+$parser/train.pl < $cesta/${xx}dtrain.pdt.csts > $cesta/${xx}.pdt.stat
+$parser/parse.pl -m $cesta/${xx}.pdt.stat < $cesta/${xx}dtest.pdt.csts > $cesta/${xx}dtest.pdt.dz.csts</code>
+===== Čeština 2006 =====
+<code>setenv cesta /net/data/conll/2006/czech/pdt
+setenv xx cs
+cd $cesta
+csts_convert_tags.pl -f cs::conll -t cs::pdt < cstrain.csts > cstrain.pdttags.csts
+csts_convert_tags.pl -f cs::conll -t cs::pdt < cstest.csts > cstest.pdttags.csts
+$PARSER/train.pl < $cesta/${xx}train.pdttags.csts > $cesta/${xx}.pdttags.stat
+$PARSER/parse.pl -m $cesta/${xx}.pdttags.stat < $cesta/${xx}test.pdttags.csts > $cesta/${xx}test.pdttags.dz.csts</code>
+Výsledky (365 vět, které CoNLL dodalo jako testovací): A 5853 - G 4197 - B 1656 - P <html><span style='background:yellow'>71,71</span></html>&nbsp;%
+Parser (i trénování) byl spuštěn s výchozími parametry bez konfiguračního souboru. Neměl tušení, že zpracovává svůj rodný jazyk. Kromě toho, že testovací data jsou jiná (a podstatně menší), než jsem měl přímo při práci s PDT, také chybí přídavné informace u lemmat (protože je CoNLL částečně přesunulo do atributu Sem, jehož hodnotu jsem při převádění značek zpět na PDT zahodil). Parser z nich využíval informace o křestním jménu a příjmení. Na druhou stranu parseru mohlo pomoct, že pracujeme s ručně přiřazenými značkami.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences