[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 18:05]
zeman vytvořeno
user:zeman:dz-parser:icon [2009/10/28 18:41]
zeman
Line 3: Line 3:
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
  
-Indický parsing - to do:+===== Zbývá udělat =====
  
-- Převod z CSTS do CoNLL 2006 není pořádkuAsi i proto mi vychází úspěšnost 100 %+  * Napsat článek. 
-- Pokusit se rozchodit natrénovat MST ParserPokud se to podaří, pokračovat rozcházení hlasování 3 parserů. +  * Rozchodit podporu clusteru makefilech, abych nemusel MST parser pouštět ručně zvlášť. 
-- Makefile a případné další soubory specifické pro tuto úlohu enést do některého svého repozitáře SVN+  * Vyzkoušet neprojektivní parsing MST parserem. 
-- Zjistitzda je Malt parser MST parser také horší, když se mu dá morfologiea o kolik. +  * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v telugských dtest datech takových případů vidím spoustu
-Zjistit, které rysy co znamenajíProzkoumat, zda nepomůže přibrat do značky pád+  * Zjistit, proč je tolik chyb v syntaktickém značkování, vylepšit hoTřeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky že většina sloves asi vyžaduje k1. 
-Zdá se, že lemma bylo také součástí morfologické anotace není součástí "obyčejnýchssf souborů. +  * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefilespecifické skripty, vstupní data, soubory s vyhodnocením...) a dát je tam. 
-- Totéž zřejmě platí o značce slovního druhu – ehlédl jsem, že v souborech ssf se opakuje značka chunku!+  * Vyhodnotit křivku učení. 
 +  * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). 
 +  * Více si pohrát s rysy. 
 +  * Více si pohrát s konfigurací Malt parseru. 
 +  * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. 
 +  * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku
 +  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku. 
 + 
 +===== Průzkum dat ===== 
 + 
 +Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar a značka chunku, ta by ale zřejmě měla být iřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006, jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj evodem do CoNLL co neztrácí). 
 + 
 +Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: 
 + 
 +| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS | POS+case+postpos | FEATS | 
 +| hindština | 13779 | 3973 | 3134 | 10 | 33 | 297 | 714 | 
 +| bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | 
 +| telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | 
 + 
 +Statistiky v tabulce byly získány následujícím příkazem: 
 + 
 +<code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code> 
 + 
 +==== Naivní telugu ==== 
 + 
 +V&nbsp;telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stáváže poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo o poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k&nbsp;tomu, že na telugštině jinak dosahuju nejnižší úspěšnostiby se tohle mělo nějak využít. 
 + 
 +| Jazyk | dtrain | dtest | 
 +| hi | 35.71 | 34.64 | 
 +| bn | 39.52 | 44.14 | 
 +| te | 73.75 | 76.89 | 
 + 
 + 
 +===== Analýza chyb ===== 
 + 
 +Takhle se z morfologických indických dat vyrobí soubor pro Tredkterý obsahuje indické písmo místo WX: 
 + 
 +<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code> 
 + 
 +Důležitou součástí výšuvedeného íkazu je perlový kód, který maže tabulátory ze značek, jinak se na výsledek nedá v&nbsp;Tredu koukatTady je varianta pro výstup parseru: 
 + 
 +<code>cat hi/dtest.voted.rconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.voted.fs</code> 
 + 
 +A takhle spojíme vzorovou anotaci s&nbsp;výstupem parseru, abychom viděli chyby: 
 + 
 +<code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code> 
 + 
 +Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v&nbsp;bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéšajsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb. 
 + 
 +V&nbsp;hindštině se často na chybách podílí uzel NULL. Spočítat, kolik takových uzlů ve kterém jazyce je
 + 
 +Přinejmenším častá slova by měla být pro parsery viditelná jako samostatný rys uzlu. Např. hindské "कि / ki" ("že") se mi zavěsilo špatně a kdo ví, jestli to není jen proto, že parser viděl pouze značku "CC". Podobně "तो / tó" má taky značku "CC", ale jeho zavěšování asi bude o dost jiné. 
 + 
 +Úspěšnost es 85&nbsp;% je poměrně vysoká a je těžké v&nbsp;těch občasných chybách vysledovat nějaké pravidlo. Přinejmenším v&nbsp;hindštině se mi ale zdá, že často jde o chyby se slovesy či spojkami (koordinace sloves) a často na velkou vzdálenost. 
 + 
 +Je potřeba přinejmenším Malt parseru, ale pokud to jde, tak i MST parseru předhodit podrobnější rysy, aby parser mohl pracovat zvlášť např. s&nbsp;lemmatem a zvlášť s&nbsp;pádem a sám se rozhodnout, ve kterém případě mu co pomáhá víc. 
 + 
 +===== Výsledky =====
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:
Line 110: Line 167:
 Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později. Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později.
 Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, na kterém se podílí! Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, na kterém se podílí!
 +
 +Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou):
 +
 +unlabeled MST:MALT:DZ
 +hi 8616:8584:7512
 +bn 8570:8471:5438
 +te 7985:8089:4578
 +
 +labels MST:MALT:DZ
 +hi 6816:6704:5960
 +bn 6967:6215:5314
 +te 5526:4904:4400
 +
 +===== Neprojektivity =====
  
 21:57 lrc-two:/ha/work/people/zeman/icon-parsing/work> cat hi/dtrain.conll hi/dtest.conll | $TOOLS/neproj.pl 21:57 lrc-two:/ha/work/people/zeman/icon-parsing/work> cat hi/dtrain.conll hi/dtest.conll | $TOOLS/neproj.pl
Line 138: Line 209:
   Unlabeled attachment score: 947 / 1250 * 100 = 75.76 %   Unlabeled attachment score: 947 / 1250 * 100 = 75.76 %
   Label accuracy score:       685 / 1250 * 100 = 54.80 %   Label accuracy score:       685 / 1250 * 100 = 54.80 %
- 
-Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou): 
- 
-unlabeled MST:MALT:DZ 
-hi 8616:8584:7512 
-bn 8570:8471:5438 
-te 7985:8089:4578 
- 
-labels MST:MALT:DZ 
-hi 6816:6704:5960 
-bn 6967:6215:5314 
-te 5526:4904:4400 
  

[ Back to the navigation ] [ Back to the content ]