Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/10/20 18:20]
zeman Zbývá udělat.
+++ user:zeman:dz-parser:icon [2009/10/28 11:05]
zeman Statistiky značek slovních druhů.
@@ Line 5: / Line 5: @@
 ===== Zbývá udělat =====
+  * Napsat článek.
+  * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť.
   * Vyzkoušet neprojektivní parsing MST parserem.
-  * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.)
+  * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v&nbsp;telugských dtest datech takových případů vidím spoustu.
+  * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky že většina sloves asi vyžaduje k1.
   * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefile, specifické skripty, vstupní data, soubory s vyhodnocením...) a dát je tam.
   * Vyhodnotit křivku učení.
-  * Napsat článek.
+  * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript).
   * Více si pohrát s rysy.
   * Více si pohrát s konfigurací Malt parseru.
+  * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
+  * Konverze z&nbsp;wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v&nbsp;článku.
+  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
+===== Průzkum dat =====
+Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar a značka chunku, ta by ale zřejmě měla být přiřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006, jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj převodem do CoNLL něco neztrácí).
+Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií:
+| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS | POS+case+postpos | FEATS |
+| hindština | 13779 | 3973 | 3134 | 10 | 33 | 297 | 714 |
+| bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 |
+| telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 |
+Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:
+<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code>
 První výsledky DZ Parseru na vývojových datech:
@@ Line 110: / Line 131: @@
 Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později.
 Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, na kterém se podílí!
+Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou):
+unlabeled MST:MALT:DZ
+hi 8616:8584:7512
+bn 8570:8471:5438
+te 7985:8089:4578
+labels MST:MALT:DZ
+hi 6816:6704:5960
+bn 6967:6215:5314
+te 5526:4904:4400
+===== Neprojektivity =====
 :57 lrc-two:/ha/work/people/zeman/icon-parsing/work> cat hi/dtrain.conll hi/dtest.conll | $TOOLS/neproj.pl
@@ Line 138: / Line 173: @@
   Unlabeled attachment score: 947 / 1250 * 100 = 75.76 %
   Label accuracy score:       685 / 1250 * 100 = 54.80 %
-Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou):
-unlabeled MST:MALT:DZ
-hi 8616:8584:7512
-bn 8570:8471:5438
-te 7985:8089:4578
-labels MST:MALT:DZ
-hi 6816:6704:5960
-bn 6967:6215:5314
-te 5526:4904:4400

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences