[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/28 11:33]
zeman Jak získat statistiky polí v CoNLL formátu?
user:zeman:dz-parser:icon [2009/10/28 12:32]
zeman Naivní telugu.
Line 18: Line 18:
   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
- 
  
 ===== Průzkum dat ===== ===== Průzkum dat =====
Line 34: Line 33:
  
 <code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code> <code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code>
 +
 +==== Naivní telugu ====
 +
 +V&nbsp;telugských stromech jsem vypozoroval extrémní důsledek slovosledu SOV: poměrně často se stává, že poslední slovo věty visí na kořeni (typicky je to zřejmě sloveso) a většina ostatních slov visí na něm. Pro hindštinu a bengálštinu už to neplatí. Následující tabulka ukazuje podíl uzlů v jednotlivých datových souborech, které visely "naivně telugsky" (tj. pokud šlo o poslední uzel, visel na kořeni, jinak na posledním uzlu). Vzhledem k&nbsp;tomu, že na telugštině jinak dosahuju nejnižší úspěšnosti, by se tohle mělo nějak využít.
 +
 +| Jazyk | dtrain | dtest |
 +| hi | 35.71 | 34.64 |
 +| bn | 39.52 | 44.14 |
 +| te | 73.75 | 76.89 |
  
 Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:

[ Back to the navigation ] [ Back to the content ]