[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 18:05]
zeman vytvořeno
user:zeman:dz-parser:icon [2009/10/21 21:23]
zeman Jak dlouhé jsou věty?
Line 3: Line 3:
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
  
-Indický parsing - to do:+===== Zbývá udělat =====
  
-- Převod z CSTS do CoNLL 2006 není pořádkuAsi i proto mi vychází úspěšnost 100 %. +  * Napsat článek. 
-- Pokusit se rozchodit natrénovat MST ParserPokud se to podaří, pokračovat rozcházení hlasování 3 parserů. +  * Rozchodit podporu clusteru makefilech, abych nemusel MST parser pouštět ručně zvlášť. 
-- Makefile případné další soubory specifické pro tuto úlohu přenést do kterého svého repozitáře SVN+  * Vyzkoušet neprojektivní parsing MST parserem. 
-- Zjistitzda je Malt parser a MST parser také horší, když se mu dá morfologie, a o kolik+  * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen všechny předcházející uzly na posledníPřinejmenším v telugských dtest datech takových případů vidím spoustu
-- Zjistitkteré rysy co znamenajíProzkoumatzda nepomůže ibrat do značky pád+  * Zjistit, proč je tolik chyb v syntaktickém značkování, vylepšit ho. Třeba pomocí jakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky žvětšina sloves asi vyžaduje k1
-- Zdá se, že lemma bylo také součástí morfologické anotace a není součástí "obyčejných" ssf souborů. +  * Vybrat SVN repozitářdo kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefilespecifické skriptyvstupní data, soubory s vyhodnocením...) dát je tam
-- Totéž zřejmě platí o značce slovního druhu – ehlédl jsem, že v souborech ssf se opakuje značka chunku!+  * Vyhodnotit křivku učení. 
 +  * Vyhodnotit požadavky na procesorpaměť a disk (je třeba nejdříve rozchodit skript). 
 +  * Více si pohrát s rysy. 
 +  * Více si pohrát s konfigurací Malt parseru. 
 +  * Frekvenční slovníkyabych si trochu udělal edstavu o častých slovech, případně o jejich syntaktických zvláštnostech. 
 +  * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku
 +  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkcetakže neodpovídají počtu uzlů, které vidím v treebanku
 + 
 +===== Průzkum dat ===== 
 + 
 +Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar a značka chunku, ta by ale zřejmě měla být iřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj převodem do CoNLL něco neztrácí). 
 + 
 +Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: 
 + 
 +| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS | 
 +| hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 | 
 +| bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | 
 +| telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | 
 + 
 +Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: 
 + 
 +<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code>
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:

[ Back to the navigation ] [ Back to the content ]