Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/10/28 11:00]
zeman Neprojektivity.
+++ user:zeman:dz-parser:icon [2009/10/28 12:32]
zeman Naivní telugu.
@@ Line 25: / Line 25: @@
 Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií:
-| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS |
+| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS | POS+case+postpos | FEATS |
-| hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 |
+| hindština | 13779 | 3973 | 3134 | 10 | 33 | 297 | 714 |
-| bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 |
+| bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 |
-| telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 |
+| telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 |
+Statistiky v&nbsp;tabulce byly získány následujícím příkazem:
+<code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code>
+==== Naivní telugu ====
+V&nbsp;telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stává, že poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) a většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo o poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k&nbsp;tomu, že na telugštině jinak dosahuju nejnižší úspěšnosti, by se tohle mělo nějak využít.
+| Jazyk | dtrain | dtest |
+| hi | 35.71 | 34.64 |
+| bn | 39.52 | 44.14 |
+| te | 73.75 | 76.89 |
 Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences