Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/10/20 22:59] zeman Naivní parser. |
user:zeman:dz-parser:icon [2009/10/21 21:23] zeman Jak dlouhé jsou věty? |
||
---|---|---|---|
Line 9: | Line 9: | ||
* Vyzkoušet neprojektivní parsing MST parserem. | * Vyzkoušet neprojektivní parsing MST parserem. | ||
* Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v& | * Zjistit, jaká je úspěšnost naivního parseru, který pověsí poslední uzel na kořen a všechny předcházející uzly na poslední. Přinejmenším v& | ||
- | * Zjistit, proč je tolik chyb v syntaktickém značkování, | + | * Zjistit, proč je tolik chyb v syntaktickém značkování, |
* Vybrat SVN repozitář, | * Vybrat SVN repozitář, | ||
* Vyhodnotit křivku učení. | * Vyhodnotit křivku učení. | ||
Line 15: | Line 15: | ||
* Více si pohrát s rysy. | * Více si pohrát s rysy. | ||
* Více si pohrát s konfigurací Malt parseru. | * Více si pohrát s konfigurací Malt parseru. | ||
+ | * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | ||
+ | * Konverze z& | ||
+ | * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | ||
===== Průzkum dat ===== | ===== Průzkum dat ===== | ||
Line 26: | Line 29: | ||
| bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | ||
| telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | ||
+ | |||
+ | Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | ||
+ | |||
+ | < | ||
První výsledky DZ Parseru na vývojových datech: | První výsledky DZ Parseru na vývojových datech: |