[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 23:03]
zeman Další to do.
user:zeman:dz-parser:icon [2009/10/21 21:23]
zeman Jak dlouhé jsou věty?
Line 17: Line 17:
   * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.   * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.   * Konverze z wx do původních indických písem a do jejich vědecké transliterace kvůli příkladům v článku.
 +  * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
  
 ===== Průzkum dat ===== ===== Průzkum dat =====
Line 28: Line 29:
 | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 |
 | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 |
 +
 +Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX:
 +
 +<code>cat hi/dtest.rmconll | conll_wc2utf.pl -l hi | $TOOLS/conll2csts.pl -y 2006 -l hi | perl -pe 's/<t>\S+\t/<t>/; s/\t.*?</</;' | cstsfs.pl > hi/dtest.fs</code>
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:

[ Back to the navigation ] [ Back to the content ]