Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/10/20 18:05] zeman vytvořeno |
user:zeman:dz-parser:icon [2009/10/21 21:21] zeman Jak zobrazit v Tredu. |
||
---|---|---|---|
Line 3: | Line 3: | ||
Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. | Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. | ||
- | Indický parsing - to do: | + | ===== Zbývá udělat ===== |
- | - Převod z CSTS do CoNLL 2006 není v pořádku. Asi i proto mi vychází | + | * Napsat článek. |
- | - Pokusit se rozchodit | + | * Rozchodit podporu clusteru |
- | - Makefile | + | * Vyzkoušet neprojektivní parsing MST parserem. |
- | - Zjistit, zda je Malt parser a MST parser také horší, když se mu dá morfologie, a o kolik. | + | * Zjistit, jaká je úspěšnost |
- | - Zjistit, které | + | * Zjistit, proč je tolik chyb v syntaktickém značkování, |
- | - Zdá se, že lemma bylo také součástí | + | * Vybrat SVN repozitář, do kterého tyto pokusy budu archivovat, vybrat soubory, které tam patří (Makefile, specifické skripty, vstupní data, soubory s vyhodnocením...) |
- | - Totéž | + | * Vyhodnotit křivku učení. |
+ | * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | ||
+ | * Více si pohrát s rysy. | ||
+ | * Více si pohrát s konfigurací Malt parseru. | ||
+ | * Frekvenční slovníky, abych si trochu udělal | ||
+ | * Konverze z& | ||
+ | |||
+ | ===== Průzkum dat ===== | ||
+ | |||
+ | Jak je zvykem, máme k dispozici data pro (d)trénink, | ||
+ | |||
+ | Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: | ||
+ | |||
+ | | Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS | | ||
+ | | hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 | | ||
+ | | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | ||
+ | | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | ||
+ | |||
+ | Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | ||
+ | |||
+ | < | ||
První výsledky DZ Parseru na vývojových datech: | První výsledky DZ Parseru na vývojových datech: |