Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:dz-parser:vysledky [2008/02/20 13:03] zeman Výsledky z března 2006. |
user:zeman:dz-parser:vysledky [2008/02/20 13:29] (current) zeman Bulharština, slovinština a konec Atanasova dva roky starého mailu. |
||
---|---|---|---|
Line 145: | Line 145: | ||
Pokusy s TUT mám na nilu jako samostatný projekt ve složce projekty\tut. Na zenu tenhle projekt nemám, tam mám jen projekty/ | Pokusy s TUT mám na nilu jako samostatný projekt ve složce projekty\tut. Na zenu tenhle projekt nemám, tam mám jen projekty/ | ||
+ | |||
==== 20.3.2006 ==== | ==== 20.3.2006 ==== | ||
Line 150: | Line 151: | ||
Tyto výsledky jsem zaznamenal při prvních pokusech s Turínským treebankem. Parser používal původní turínské morfologické značky (snad přiřazené ručně, ale nevím). Značky nebyly nijak upravovány. Koordinace nebyla zpracovávána odlišně od pravých závislostí. Celá data obsahují 1500 vět, které jsem si rozdělil na prvních 1350 trénovacích a zbývajících 150 testovacích. Průměrná délka turínské věty je 27,7 tokenů (v češtině je to jen asi 17). Trénovací data obsahují 37557 tokenů. Testovací data obsahují 4059 tokenů. | Tyto výsledky jsem zaznamenal při prvních pokusech s Turínským treebankem. Parser používal původní turínské morfologické značky (snad přiřazené ručně, ale nevím). Značky nebyly nijak upravovány. Koordinace nebyla zpracovávána odlišně od pravých závislostí. Celá data obsahují 1500 vět, které jsem si rozdělil na prvních 1350 trénovacích a zbývajících 150 testovacích. Průměrná délka turínské věty je 27,7 tokenů (v češtině je to jen asi 17). Trénovací data obsahují 37557 tokenů. Testovací data obsahují 4059 tokenů. | ||
- | Parsing **trénovacích** (!) dat: | + | Parsing **všech** (i trénovacích!) dat parserem natrénovaným na všech datech: |
A 41616 - G 30254 - B 11362 - P 72,7 % | A 41616 - G 30254 - B 11362 - P 72,7 % | ||
Line 186: | Line 187: | ||
Výpočet skončil v 17:34:01. | Výpočet skončil v 17:34:01. | ||
Program běžel 00:00:14 hodin.</ | Program běžel 00:00:14 hodin.</ | ||
+ | |||
Line 200: | Line 202: | ||
Nyní by to chtělo uklidit. Projekt tut zrušit, data přestěhovat mezi data, konfiguraci parseru přestěhovat do projektu parser. | Nyní by to chtělo uklidit. Projekt tut zrušit, data přestěhovat mezi data, konfiguraci parseru přestěhovat do projektu parser. | ||
+ | |||
+ | ==== Bulharština ==== | ||
+ | |||
+ | Atanas mi ještě psal o problémech, | ||
+ | |||
+ | Atanas hlásil na bulharštině úspěšnost 63,78 % (CoNLL bez interpunkce, | ||
+ | |||
+ | ==== Slovinština ==== | ||
+ | |||
+ | Atanas hlásil na slovinštině úspěšnost 58,34 % (CoNLL bez interpunkce, | ||
+ |