[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 23:01]
zeman Karma-karta.
user:zeman:dz-parser:icon [2009/10/21 21:23]
zeman Jak dlouhé jsou věty?
Line 15: Line 15:
   * Více si pohrát s rysy.   * Více si pohrát s rysy.
   * Více si pohrát s konfigurací Malt parseru.   * Více si pohrát s konfigurací Malt parseru.
 +  * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
 +  * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.
 +  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
  
 ===== Průzkum dat ===== ===== Průzkum dat =====
Line 26: Line 29:
 | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 |
 | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 |
 +
 +Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:
 +
 +<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code>
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:

[ Back to the navigation ] [ Back to the content ]