Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/10/20 18:05]
zeman vytvořeno
+++ user:zeman:dz-parser:icon [2009/10/20 18:29]
zeman Průzkum dat.
@@ Line 3: / Line 3: @@
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
-Indický parsing - to do:
+===== Zbývá udělat =====
-- Převod z CSTS do CoNLL 2006 není v pořádku. Asi i proto mi vychází úspěšnost 100 %.
+  * Vyzkoušet neprojektivní parsing MST parserem.
-- Pokusit se rozchodit a natrénovat MST Parser. Pokud se to podaří, pokračovat v rozcházení hlasování 3 parserů.
+  * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.)
-- Makefile a případné další soubory specifické pro tuto úlohu přenést do některého svého repozitáře SVN.
+  * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefile, specifické skripty, vstupní data, soubory s vyhodnocením...) a dát je tam.
-- Zjistit, zda je Malt parser a MST parser také horší, když se mu dá morfologie, a o kolik.
+  * Vyhodnotit křivku učení.
-- Zjistit, které rysy co znamenají. Prozkoumat, zda nepomůže přibrat do značky pád.
+  * Napsat článek.
-- Zdá se, že lemma bylo také součástí morfologické anotace a není součástí "obyčejných" ssf souborů.
+  * Více si pohrát s rysy.
-- Totéž zřejmě platí o značce slovního druhu – přehlédl jsem, že v souborech ssf se opakuje značka chunku!
+  * Více si pohrát s konfigurací Malt parseru.
+===== Průzkum dat =====
+Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar a značka chunku, ta by ale zřejmě měla být přiřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006, jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj převodem do CoNLL něco neztrácí).
+Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií:
+| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS |
+| hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 |
+| bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 |
+| telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 |
 První výsledky DZ Parseru na vývojových datech:

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences