[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

DZ Parser

DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky.

svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser

To do

Výchozí nastavení

Výsledky

Čeština PDT 2.0

train.pl -i parser-pdt.ini
parse.pl -i parser-pdt.ini

A 158962 - G 118894 - B 40068 - P 0.74793975918773. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8.

Výsledky CoNLL 2006

Arabština

train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts
parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts

G 3086 - B 2287 - P 57,44 %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde.

Výsledky CoNLL 2007

Viz též Data CoNLL.

Arabština

train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts
parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts

G 3591 - P = 61,1 %

Baskičtina

train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts
parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts

A 4334 - G 2630 - B 1704 - P 0.606829718504845.

Čeština

Nastavení: stejné jako pro ostatní jazyky, podle výchozího parser.ini. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu.

train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts
parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts

A 5760 - G 3067 - B 2693 - P 0.532465277777778.

Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách.

atrain.pl < /net/data/conll/2007/czech/pdt/csdtrain.csts > cs.astat

Čínština

train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts
parse.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtest.csts

A 2277 - G 1513 - B 764 - P 0.664470794905577.

Italština

train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts
parse.pl < /net/data/CoNLL/2007/italian/isst/itdtest.csts

A 7643 - G 4866 - B 2777 - P 0.63666099699071.

Katalánština

train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts
parse.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtest.csts

A 10971 - G 6768 - B 4203 - P 0.616899097621001.

Maďarština

train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts
parse.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtest.csts

A 5995 - G 3164 - B 2831 - P 0.527773144286906.

Řečtina

train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts
parse.pl < /net/data/CoNLL/2007/greek/gdt/eldtest.csts

A 4874 - G 3122 - B 1752 - P 0.640541649569142.

Turečtina

train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts
parse.pl < /net/data/CoNLL/2007/turkish/metu/trdtest.csts

A 6210 - G 4037 - B 2173 - P 0.650080515297907.


[ Back to the navigation ] [ Back to the content ]