Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/10/20 18:33] zeman Požadavky na procesor a paměť. |
user:zeman:dz-parser:icon [2009/10/29 11:49] zeman Volba transliteračního schématu. |
||
---|---|---|---|
Line 5: | Line 5: | ||
===== Zbývá udělat ===== | ===== Zbývá udělat ===== | ||
+ | * Napsat článek. | ||
* Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť. | * Rozchodit podporu clusteru v makefilech, abych nemusel MST parser pouštět ručně zvlášť. | ||
* Vyzkoušet neprojektivní parsing MST parserem. | * Vyzkoušet neprojektivní parsing MST parserem. | ||
- | * Zjistit, proč je tolik chyb v syntaktickém značkování, | + | |
+ | | ||
* Vybrat SVN repozitář, | * Vybrat SVN repozitář, | ||
* Vyhodnotit křivku učení. | * Vyhodnotit křivku učení. | ||
* Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | ||
- | * Napsat článek. | ||
* Více si pohrát s rysy. | * Více si pohrát s rysy. | ||
* Více si pohrát s konfigurací Malt parseru. | * Více si pohrát s konfigurací Malt parseru. | ||
+ | * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | ||
+ | * Konverze z& | ||
+ | * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | ||
===== Průzkum dat ===== | ===== Průzkum dat ===== | ||
Line 21: | Line 25: | ||
Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: | Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií: | ||
- | | Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS | | + | | Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS |
- | | hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 | | + | | hindština | 13779 | 3973 | 3134 | 10 | 33 | 297 | 714 | |
- | | bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 | | + | | bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | |
- | | telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 | | + | | telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | |
+ | |||
+ | Statistiky v& | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | ==== Naivní telugu ==== | ||
+ | |||
+ | V& | ||
+ | |||
+ | | Jazyk | dtrain | dtest | | ||
+ | | hi | 35.71 | 34.64 | | ||
+ | | bn | 39.52 | 44.14 | | ||
+ | | te | 73.75 | 76.89 | | ||
+ | |||
+ | ===== Analýza chyb ===== | ||
+ | |||
+ | Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | ||
+ | |||
+ | < | ||
+ | |||
+ | Důležitou součástí výše uvedeného příkazu je perlový kód, který maže tabulátory ze značek, jinak se na výsledek nedá v& | ||
+ | |||
+ | < | ||
+ | |||
+ | A takhle spojíme vzorovou anotaci s& | ||
+ | |||
+ | < | ||
+ | |||
+ | Tady je ještě jedna alternativa (pozor, tohle je pro změnu okopírováno z& | ||
+ | |||
+ | < | ||
+ | ts and Settings\Dan\Dokumenty\Lingvistika\Projekty\padapt\parsingroot\tools" | ||
+ | C: | ||
+ | -l te -t sci -g te/ | ||
+ | est.voted.1.fs</ | ||
+ | |||
+ | Není pravda, že ze značky POS jednoznačně vyplývá značka chunku. Proto bych měl parserům poskytnout obě značky, může jim to pomoct. Např. v& | ||
+ | |||
+ | V& | ||
+ | |||
+ | Přinejmenším častá slova by měla být pro parsery viditelná jako samostatný rys uzlu. Např. hindské " | ||
+ | |||
+ | Úspěšnost přes 85& | ||
+ | |||
+ | Příklad problému s& | ||
+ | |||
+ | Je potřeba přinejmenším Malt parseru, ale pokud to jde, tak i MST parseru předhodit podrobnější rysy, aby parser mohl pracovat zvlášť např. s& | ||
+ | |||
+ | ===== Výsledky ===== | ||
První výsledky DZ Parseru na vývojových datech: | První výsledky DZ Parseru na vývojových datech: | ||
Line 123: | Line 176: | ||
Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později. | Otázka je, jestli by si lépe vedly i Malt parser a MST parser, ale to vyzkouším až později. | ||
Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, | Pozoruhodné je, že zhoršený DZ Parser zlepšuje výsledek hlasování, | ||
+ | |||
+ | Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou): | ||
+ | |||
+ | unlabeled MST:MALT:DZ | ||
+ | hi 8616: | ||
+ | bn 8570: | ||
+ | te 7985: | ||
+ | |||
+ | labels MST:MALT:DZ | ||
+ | hi 6816: | ||
+ | bn 6967: | ||
+ | te 5526: | ||
+ | |||
+ | ===== Neprojektivity ===== | ||
21:57 lrc-two:/ | 21:57 lrc-two:/ | ||
Line 151: | Line 218: | ||
Unlabeled attachment score: 947 / 1250 * 100 = 75.76 % | Unlabeled attachment score: 947 / 1250 * 100 = 75.76 % | ||
Label accuracy score: | Label accuracy score: | ||
- | |||
- | Nové váhy parserů při hlasování (20.10.2009 13:26, DZ parser teď na všechno používá pád a záložku, Malt parser používá POSTAG s pádem a záložkou pro hindštinu, jinde používá CPOSTAG, MST Parser používá všude POSTAG s pádem a záložkou): | ||
- | |||
- | unlabeled MST:MALT:DZ | ||
- | hi 8616: | ||
- | bn 8570: | ||
- | te 7985: | ||
- | |||
- | labels MST:MALT:DZ | ||
- | hi 6816: | ||
- | bn 6967: | ||
- | te 5526: | ||