[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/28 11:05]
zeman Statistiky značek slovních druhů.
user:zeman:dz-parser:icon [2009/10/28 11:33]
zeman Jak získat statistiky polí v CoNLL formátu?
Line 18: Line 18:
   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
 +
  
 ===== Průzkum dat ===== ===== Průzkum dat =====
Line 29: Line 30:
 | bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | | bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 |
 | telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | | telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 |
 +
 +Statistiky v tabulce byly získány následujícím příkazem:
 +
 +<code bash>$TOOLS/conll_pocet_hodnot_sloupec.pl 4 < hi/dtrain.mconll</code>
  
 Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:

[ Back to the navigation ] [ Back to the content ]