Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:dz-parser:icon [2009/10/28 11:33] zeman Jak získat statistiky polí v CoNLL formátu? |
user:zeman:dz-parser:icon [2009/10/28 18:21] zeman कि / ki |
* Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku. | * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku. |
* Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku. | * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku. |
| |
| |
===== Průzkum dat ===== | ===== Průzkum dat ===== |
| |
<code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code> | <code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code> |
| |
| ==== Naivní telugu ==== |
| |
| V telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stává, že poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) a většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo o poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k tomu, že na telugštině jinak dosahuju nejnižší úspěšnosti, by se tohle mělo nějak využít. |
| |
| | Jazyk | dtrain | dtest | |
| | hi | 35.71 | 34.64 | |
| | bn | 39.52 | 44.14 | |
| | te | 73.75 | 76.89 | |
| |
| |
| |
| |
| |
| |
| ===== Analýza chyb ===== |
| |
Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: |
| |
<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code> | <code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code> |
| |
| Důležitou součástí výše uvedeného příkazu je perlový kód, který maže tabulátory ze značek, jinak se na výsledek nedá v Tredu koukat. Tady je varianta pro výstup parseru: |
| |
| <code>cat hi/dtest.voted.rconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.voted.fs</code> |
| |
| A takhle spojíme vzorovou anotaci s výstupem parseru, abychom viděli chyby: |
| |
| <code>conll_pokusy.pl -l hi -t -g hi/dtest.mconll -s hi/dtest.voted.rconll | cstsfs.pl -s dzchyby > hi/dtest.voted.fs</code> |
| |
| Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v bengálské větě "(3) তবে / tabé সুদীপ / sudípa ওকে / óké একদিন / ékadina আড়ালে / áđa়াlé ডেকে / đéké বলেছিল / baléčhila কৌতূহল / kautúhala দেখালে / dékhálé তুমি / tumi উঁচুতে / um̃čuté উঠতে / uţhaté অনিমেষ / animéša" jsou slova "déké" a "dékhálé" značena jako "VGNF|VM" (zřejmě gerundium), zatímco "baléčhila" a "uthaté" jsou "VGF|VM". Pokud parser u všech vidí jen "VM", pak není divu, že v té větě nasekal několik divokých chyb. |
| |
| V hindštině se často na chybách podílí uzel NULL. Spočítat, kolik takových uzlů ve kterém jazyce je. |
| |
| Přinejmenším častá slova by měla být pro parsery viditelná jako samostatný rys uzlu. Např. hindské "कि / ki" ("že") se mi zavěsilo špatně a kdo ví, jestli to není jen proto, že parser viděl pouze značku "CC". |
| |
| ===== Výsledky ===== |
| |
První výsledky DZ Parseru na vývojových datech: | První výsledky DZ Parseru na vývojových datech: |