Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:vysledky [2008/02/20 11:54]
zeman
+++ user:zeman:dz-parser:vysledky [2008/02/20 13:29] (current)
zeman Bulharština, slovinština a konec Atanasova dva roky starého mailu.
@@ Line 140: / Line 140: @@
+===== Atanas Čanev, jaro 2006 až 2008 =====
+Atanas se mi ozval, že zkouší použít DZ Parser na italský TUT (Turin University Treebank) a na pár dalších (BulTreeBank, Slovene Dependency Treebank). Úspěšnost nebyla nic moc a měl nějaké problémy s nastavením. Na poslední mail z 13.4.2006 jsem mu téměř 2 roky neodpověděl a teď už to ztrácí smysl.
+Pokusy s TUT mám na nilu jako samostatný projekt ve složce projekty\tut. Na zenu tenhle projekt nemám, tam mám jen projekty/parser. Dnes (19.2.2008) ho tam kopíruji, ale cílem je sloučit ho se složkou parser a data odstěhovat do příslušných složek na data.
-===== Atanas Čanev, jaro 2006 až 2008 =====
+==== 20.3.2006 ====
-Atanas se mi ozval, že zkouší použít DZ Parser na italský TUT (Turin University Treebank) a na pár dalších (BulTreeBank, Slovene Dependency Treebank). Úspěšnost nebyla nic moc a měl nějaké problémy s nastavením. Na poslední mail z 13.4.2006 jsem mu téměř 2 roky neodpověděl a teď už to ztrácí smysl.
+Tyto výsledky jsem zaznamenal při prvních pokusech s Turínským treebankem. Parser používal původní turínské morfologické značky (snad přiřazené ručně, ale nevím). Značky nebyly nijak upravovány. Koordinace nebyla zpracovávána odlišně od pravých závislostí. Celá data obsahují 1500 vět, které jsem si rozdělil na prvních 1350 trénovacích a zbývajících 150 testovacích. Průměrná délka turínské věty je 27,7 tokenů (v češtině je to jen asi 17). Trénovací data obsahují 37557 tokenů. Testovací data obsahují 4059 tokenů.
-Pokusy s TUT mám na nilu jako samostatný projekt ve složce projekty\tut. Na zenu tenhle projekt nemám, tam mám jen projekty/parser. Dnes (19.2.2008) ho tam kopíruji, ale cílem je sloučit ho se složkou parser a data odstěhovat do příslušných složek na data.
+Parsing **všech** (i trénovacích!) dat parserem natrénovaným na všech datech:
+A 41616 - G 30254 - B 11362 - P 72,7 %
+Výsledky na testovacích datech:
+A 4059 - G 2862 - B 1197 - P 70,5 %
+==== 19.2.2008 ====
 Následující příkazy nefungují, protože DZ Parser zatím není možné spustit z jiné složky, než ve které se nachází. Perl nenajde knihovny .pm.
@@ Line 176: / Line 187: @@
 Výpočet skončil v 17:34:01.
 Program běžel 00:00:14 hodin.</code>
 ==== 20.2.2008 ====
@@ Line 182: / Line 196: @@
 Nyní se pro změnu shání po souboru rematizatory. Tohle se zřejmě konfigurovat nedá, tak prostě nalinkuju český soubor ze sousední složky.
+A 4059 - G 2925 - B 1134 - P <html><span style='background:yellow'>0.720620842572062</span></html>.
+Nyní je na čase ověřit, jak se současná verze parseru liší od poslední verze uložené v SVN. Přinejmenším úprava pro nalezení knihoven by se tam uložit měla. Ukládám do SVN revizi 5.
+Nyní by to chtělo uklidit. Projekt tut zrušit, data přestěhovat mezi data, konfiguraci parseru přestěhovat do projektu parser.
+==== Bulharština ====
+Atanas mi ještě psal o problémech, které měl s rozborem bulharštiny z BulTreeBanku. U některých vět, které obsahovaly 2 slova (ve skutečnosti to byly nadpisy), na výstupu dostal pouze 1 slovo. Nemám dost podkladů, abych tuto chybu zopakoval (například nemám jeho trénovací data), takže tento problém nebudu řešit.
+Atanas hlásil na bulharštině úspěšnost 63,78 % (CoNLL bez interpunkce, unlabelled).
+==== Slovinština ====
+Atanas hlásil na slovinštině úspěšnost 58,34 % (CoNLL bez interpunkce, unlabelled).

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences