Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/10/28 11:33]
zeman Jak získat statistiky polí v CoNLL formátu?
+++ user:zeman:dz-parser:icon [2009/10/28 12:32]
zeman Naivní telugu.
@@ Line 18: / Line 18: @@
   * Konverze z&nbsp;wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v&nbsp;článku.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
 ===== Průzkum dat =====
@@ Line 34: / Line 33: @@
 <code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code>
+==== Naivní telugu ====
+V&nbsp;telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stává, že poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) a většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo o poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k&nbsp;tomu, že na telugštině jinak dosahuju nejnižší úspěšnosti, by se tohle mělo nějak využít.
+| Jazyk | dtrain | dtest |
+| hi | 35.71 | 34.64 |
+| bn | 39.52 | 44.14 |
+| te | 73.75 | 76.89 |
 Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences