Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:dz-parser:vysledky [2008/02/19 17:35] zeman |
user:zeman:dz-parser:vysledky [2008/02/20 13:29] (current) zeman Bulharština, slovinština a konec Atanasova dva roky starého mailu. |
||
---|---|---|---|
Line 140: | Line 140: | ||
+ | ===== Atanas Čanev, jaro 2006 až 2008 ===== | ||
+ | Atanas se mi ozval, že zkouší použít DZ Parser na italský TUT (Turin University Treebank) a na pár dalších (BulTreeBank, | ||
- | ===== Atanas Čanev, jaro 2006 ===== | + | Pokusy s TUT mám na nilu jako samostatný projekt ve složce projekty\tut. Na zenu tenhle projekt nemám, tam mám jen projekty/ |
- | Atanas se mi ozval, že zkouší použít DZ Parser na italský TUT (Turin University Treebank) a na pár dalších (BulTreeBank, | ||
- | Pokusy | + | ==== 20.3.2006 ==== |
+ | |||
+ | Tyto výsledky jsem zaznamenal při prvních pokusech | ||
+ | |||
+ | Parsing **všech** (i trénovacích!) dat parserem natrénovaným | ||
+ | |||
+ | A 41616 - G 30254 - B 11362 - P 72,7 % | ||
+ | |||
+ | Výsledky na testovacích datech: | ||
+ | |||
+ | A 4059 - G 2862 - B 1197 - P 70,5 % | ||
+ | |||
+ | ==== 19.2.2008 ==== | ||
Následující příkazy nefungují, protože DZ Parser zatím není možné spustit z jiné složky, než ve které se nachází. Perl nenajde knihovny .pm. | Následující příkazy nefungují, protože DZ Parser zatím není možné spustit z jiné složky, než ve které se nachází. Perl nenajde knihovny .pm. | ||
Line 162: | Line 175: | ||
Dále se zdá, že současná verze parseru nepřečte treebank, který není v UTF-8, ale v ISO 8859-1 (italština). Jakmile narazí na ne-ASCII znak, vyhodnotí ho jako začátek poškozeného znaku UTF-8, ohlásí chybu a skončí. Pro tuto chvíli to řeším tím, že převádím Turínský treebank do UTF-8. Je to divné, protože na první pohled treebank vůbec neobsahuje ne-ASCII znaky. Italské samohlásky s accentem grave se tu totiž objevují jako ASCII samohlásky následované apostrofem. Jak se zdá, týká se to výhradně " | Dále se zdá, že současná verze parseru nepřečte treebank, který není v UTF-8, ale v ISO 8859-1 (italština). Jakmile narazí na ne-ASCII znak, vyhodnotí ho jako začátek poškozeného znaku UTF-8, ohlásí chybu a skončí. Pro tuto chvíli to řeším tím, že převádím Turínský treebank do UTF-8. Je to divné, protože na první pohled treebank vůbec neobsahuje ne-ASCII znaky. Italské samohlásky s accentem grave se tu totiž objevují jako ASCII samohlásky následované apostrofem. Jak se zdá, týká se to výhradně " | ||
- | < | + | < |
+ | ../ | ||
< | < | ||
Line 173: | Line 187: | ||
Výpočet skončil v 17:34:01. | Výpočet skončil v 17:34:01. | ||
Program běžel 00:00:14 hodin.</ | Program běžel 00:00:14 hodin.</ | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== 20.2.2008 ==== | ||
+ | |||
+ | Propracoval jsem se až k puštění parsingu, ale stěžuje si, že nemůže otevřít soubor zakazy_preskoceni.txt. Tenhle soubor pochopitelně pro italštinu vůbec nemám, ale divím se, že ho tahle verze ještě vyžaduje, všechny podobné externí zdroje jsem se totiž už dávno snažil zakomponovat do trénování. Snad bude stačit vypnout zákaz přeskakování v konfiguračním souboru. | ||
+ | |||
+ | Nyní se pro změnu shání po souboru rematizatory. Tohle se zřejmě konfigurovat nedá, tak prostě nalinkuju český soubor ze sousední složky. | ||
+ | |||
+ | A 4059 - G 2925 - B 1134 - P < | ||
+ | |||
+ | Nyní je na čase ověřit, jak se současná verze parseru liší od poslední verze uložené v SVN. Přinejmenším úprava pro nalezení knihoven by se tam uložit měla. Ukládám do SVN revizi 5. | ||
+ | |||
+ | Nyní by to chtělo uklidit. Projekt tut zrušit, data přestěhovat mezi data, konfiguraci parseru přestěhovat do projektu parser. | ||
+ | |||
+ | ==== Bulharština ==== | ||
+ | |||
+ | Atanas mi ještě psal o problémech, | ||
+ | |||
+ | Atanas hlásil na bulharštině úspěšnost 63,78 % (CoNLL bez interpunkce, | ||
+ | |||
+ | ==== Slovinština ==== | ||
+ | |||
+ | Atanas hlásil na slovinštině úspěšnost 58,34 % (CoNLL bez interpunkce, | ||