Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:conll [2008/03/26 16:01] zeman Rozbor češtiny. |
user:zeman:dz-parser:conll [2008/03/27 20:44] zeman |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Pokusy s DZ Parserem pro CoNLL ====== | ====== Pokusy s DZ Parserem pro CoNLL ====== | ||
- | Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s daty CoNLL obecně (nejen 2007). | + | Tato stránka původně vznikla jako záznam o tom, jakým způsobem jsem spouštěl parser během soutěže v parsingu CoNLL 2007, abych tyto pokusy dokázal zopakovat. Postupně se mění na stránku o pokusech s& |
===== Proměnné ===== | ===== Proměnné ===== | ||
Line 13: | Line 13: | ||
Kromě toho mám ve své '' | Kromě toho mám ve své '' | ||
+ | |||
+ | Další proměnné, určené přímo pro rozbor dat CoNLL mým parserem: | ||
+ | |||
+ | < | ||
+ | setenv OUTPUT / | ||
+ | |||
+ | ===== Zpracování ===== | ||
+ | |||
+ | Každý jazyk zkouším zpracovat jednak s& | ||
+ | |||
+ | < | ||
+ | setenv ROK 2007 | ||
+ | setenv JAZYK cs | ||
+ | $PARSER/ | ||
+ | ($PARSER/ | ||
===== Starší poznámky ===== | ===== Starší poznámky ===== | ||
Line 42: | Line 57: | ||
$parser/ | $parser/ | ||
$parser/ | $parser/ | ||
+ | |||
+ | |||
Line 53: | Line 70: | ||
csts_convert_tags.pl -f cs::conll -t cs::pdt < cstest.csts > cstest.pdttags.csts | csts_convert_tags.pl -f cs::conll -t cs::pdt < cstest.csts > cstest.pdttags.csts | ||
$PARSER/ | $PARSER/ | ||
- | $PARSER/ | + | $PARSER/ |
+ | |||
+ | Výsledky (365 vět, které CoNLL dodalo jako testovací): | ||
+ | |||
+ | Parser (i trénování) byl spuštěn s výchozími parametry bez konfiguračního souboru. Neměl tušení, že zpracovává svůj rodný jazyk. Kromě toho, že testovací data jsou jiná (a podstatně menší), než jsem měl přímo při práci s PDT, také chybí přídavné informace u lemmat (protože je CoNLL částečně přesunulo do atributu Sem, jehož hodnotu jsem při převádění značek zpět na PDT zahodil). Parser z nich využíval informace o křestním jménu a příjmení. Na druhou stranu parseru mohlo pomoct, že pracujeme s ručně přiřazenými značkami. |