[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:conll [2008/03/26 16:35]
zeman Výsledky rozboru češtiny.
user:zeman:dz-parser:conll [2008/03/27 20:44]
zeman
Line 1: Line 1:
 ====== Pokusy s DZ Parserem pro CoNLL ====== ====== Pokusy s DZ Parserem pro CoNLL ======
  
-Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s daty CoNLL obecně (nejen 2007).+Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s [[internal:data-conll|daty CoNLL]] obecně (nejen 2007). Data leží v ''/net/data/conll''. Parser odsud čte, ale nepíše sem. Pro soubory související se syntaktickou analýzou těchto dat mám samostatnou složku ''/net/work/people/zeman/conll-dzparser''.
  
 ===== Proměnné ===== ===== Proměnné =====
Line 13: Line 13:
  
 Kromě toho mám ve své ''PATH'' přidáno ''$INTERSET/bin'' a v ''PERLLIB'' a ''PERL5LIB'' mám mj. ''$INTERSET/lib'' a ''$PARSINGROOT/lib''. Kromě toho mám ve své ''PATH'' přidáno ''$INTERSET/bin'' a v ''PERLLIB'' a ''PERL5LIB'' mám mj. ''$INTERSET/lib'' a ''$PARSINGROOT/lib''.
 +
 +Další proměnné, určené přímo pro rozbor dat CoNLL mým parserem:
 +
 +<code>setenv DATA /net/data/conll
 +setenv OUTPUT /net/work/people/zeman/conll-dzparser</code>
 +
 +===== Zpracování =====
 +
 +Každý jazyk zkouším zpracovat jednak s&nbsp;původními značkami, jednak se značkami převedenými do české sady PDT. Základní zpracování (bez přiřazování syntaktických značek) předpokládá pouze dva kroky: natrénování modelu na průběžných trénovacích datech a jeho otestování na průběžných testovacích datech. U základního zpracování používáme výchozí, jazykově nezávislé nastavení parseru.
 +
 +<code>cd $OUTPUT
 +setenv ROK 2007
 +setenv JAZYK cs
 +$PARSER/train.pl < $DATA/$ROK/$JAZYK/dtrain.csts > $JAZYK.stat
 +($PARSER/parse.pl -m $JAZYK.stat < $DATA/$ROK/$JAZYK/dtest.csts > $JAZYK.dtest.dz.csts) >& $JAZYK.dtest.log</code>
  
 ===== Starší poznámky ===== ===== Starší poznámky =====

[ Back to the navigation ] [ Back to the content ]