[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 18:05]
zeman vytvořeno
user:zeman:dz-parser:icon [2009/10/28 12:54]
zeman
Line 3: Line 3:
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
  
-Indický parsing - to do:+===== Zbývá udělat =====
  
-- Převod z CSTS do CoNLL 2006 není pořádkuAsi i proto mi vychází úspěšnost 100 %. +  * Napsat článek. 
-- Pokusit se rozchodit natrénovat MST ParserPokud se to podaří, pokračovat rozcházení hlasování 3 parserů. +  * Rozchodit podporu clusteru makefilech, abych nemusel MST parser pouštět ručně zvlášť. 
-- Makefile případné další soubory specifické pro tuto úlohu přenést do kterého svého repozitáře SVN+  * Vyzkoušet neprojektivní parsing MST parserem. 
-- Zjistitzda je Malt parser a MST parser také horší, když se mu dá morfologie, a o kolik+  * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen všechny předcházející uzly na posledníPřinejmenším v telugských dtest datech takových případů vidím spoustu
-- Zjistitkteré rysy co znamenajíProzkoumatzda nepomůže ibrat do značky pád+  * Zjistit, proč je tolik chyb v syntaktickém značkování, vylepšit ho. Třeba pomocí jakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky žvětšina sloves asi vyžaduje k1
-- Zdá se, že lemma bylo také součástí morfologické anotace není součástí "obyčejných" ssf souborů. +  * Vybrat SVN repozitářdo kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefilespecifické skriptyvstupní data, soubory s vyhodnocením...) dát je tam
-- Totéž zřejmě platí značce slovního druhu – ehlédl jsem, že v souborech ssf se opakuje značka chunku!+  * Vyhodnotit křivku učení. 
 +  * Vyhodnotit požadavky na procesorpaměť a disk (je třeba nejdříve rozchodit skript). 
 +  * Více si pohrát s rysy. 
 +  * Více si pohrát s konfigurací Malt parseru. 
 +  * Frekvenční slovníkyabych si trochu udělal edstavu o častých slovech, případně o jejich syntaktických zvláštnostech. 
 +  * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku
 +  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkcetakže neodpovídají počtu uzlů, které vidím v treebanku. 
 + 
 +===== Průzkum dat ===== 
 + 
 +Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar značka chunku, ta by ale zřejmě měla být přiřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006, jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj převodem do CoNLL něco neztrácí)
 + 
 +Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: 
 + 
 +| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS | POS+case+postpos | FEATS | 
 +| hindština | 13779 | 3973 | 3134 | 10 | 33 | 297 | 714 | 
 +| bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | 
 +| telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | 
 + 
 +Statistiky v tabulce byly získány následujícím příkazem: 
 + 
 +<code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code> 
 + 
 +==== Naivní telugu ==== 
 + 
 +V&nbsp;telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stává, že poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) a většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k&nbsp;tomu, že na telugštině jinak dosahuju nejnižší úspěšnosti, by se tohle mělo nějak využít. 
 + 
 +| Jazyk | dtrain | dtest | 
 +| hi | 35.71 | 34.64 | 
 +| bn | 39.52 | 44.14 | 
 +| te | 73.75 | 76.89 | 
 + 
 +===== Analýza chyb ===== 
 + 
 +Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: 
 + 
 +<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code> 
 + 
 +Důležitou součástí výše uvedeného íkazu je perlový kódkterý maže tabulátory ze značek, jinak se na výsledek nedá v&nbsp;Tredu koukat. Tady je varianta pro výstup parseru: 
 + 
 +<code>cat hi/dtest.voted.rconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.voted.fs<t>
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:
Line 110: Line 150:
 Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později. Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později.
 Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, na kterém se podílí! Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, na kterém se podílí!
 +
 +Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou):
 +
 +unlabeled MST:MALT:DZ
 +hi 8616:8584:7512
 +bn 8570:8471:5438
 +te 7985:8089:4578
 +
 +labels MST:MALT:DZ
 +hi 6816:6704:5960
 +bn 6967:6215:5314
 +te 5526:4904:4400
 +
 +===== Neprojektivity =====
  
 21:57 lrc-two:/ha/work/people/zeman/icon-parsing/work> cat hi/dtrain.conll hi/dtest.conll | $TOOLS/neproj.pl 21:57 lrc-two:/ha/work/people/zeman/icon-parsing/work> cat hi/dtrain.conll hi/dtest.conll | $TOOLS/neproj.pl
Line 138: Line 192:
   Unlabeled attachment score: 947 / 1250 * 100 = 75.76 %   Unlabeled attachment score: 947 / 1250 * 100 = 75.76 %
   Label accuracy score:       685 / 1250 * 100 = 54.80 %   Label accuracy score:       685 / 1250 * 100 = 54.80 %
- 
-Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou): 
- 
-unlabeled MST:MALT:DZ 
-hi 8616:8584:7512 
-bn 8570:8471:5438 
-te 7985:8089:4578 
- 
-labels MST:MALT:DZ 
-hi 6816:6704:5960 
-bn 6967:6215:5314 
-te 5526:4904:4400 
  

[ Back to the navigation ] [ Back to the content ]