Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2012/06/28 09:04] zeman Reorganizace a vyházení některých nepotřebných pasáží. |
user:zeman:malt-parser [2013/06/12 13:06] zeman Aktuální úkoly. |
||
---|---|---|---|
Line 6: | Line 6: | ||
Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | ||
+ | |||
+ | ==== Co dál? ==== | ||
+ | |||
+ | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | ||
+ | * Upravit švédskou definici rysů, aby fungovala i s& | ||
+ | * Odladit '' | ||
+ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
+ | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
+ | * Zkusit hlasování pětitisícových kusů. | ||
===== Pokusy s PDT 2.0 ===== | ===== Pokusy s PDT 2.0 ===== | ||
Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | ||
+ | |||
+ | Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. | ||
==== BEST: Javová implementace libsvm, splitting trick ==== | ==== BEST: Javová implementace libsvm, splitting trick ==== | ||
Line 30: | Line 41: | ||
| 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | | 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | ||
| 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | ||
- | | full | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | + | | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | |
Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | ||
Line 205: | Line 216: | ||
Všechny trénovací procesy hlásí "The function cannot be initialized." | Všechny trénovací procesy hlásí "The function cannot be initialized." | ||
- | |||
- | ==== Co dál? ==== | ||
- | |||
- | * Upravit švédskou definici rysů, aby fungovala i s& | ||
- | * Odladit '' | ||
- | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
- | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
- | * Zkusit hlasování pětitisícových kusů. | ||