Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:brilluv-tagger [2007/10/24 21:48] zeman Skripty. |
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:04] zeman Data. |
||
---|---|---|---|
Line 5: | Line 5: | ||
Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, | Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, | ||
- | Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé, | + | Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé |
===== Poznámky k architektuře ===== | ===== Poznámky k architektuře ===== | ||
- | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994 takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | + | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. |
===== Otázky ===== | ===== Otázky ===== | ||
Line 33: | Line 34: | ||
* Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | ||
+ | ===== Data ===== | ||
+ | |||
+ | ==== Čeština ==== | ||
+ | |||
+ | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | ||
+ | |||
+ | ==== Švédština ==== | ||
+ | |||
+ | Data pocházejí ze švédského korpusu Talbanken05, | ||
+ | |||
+ | ==== Dánština ==== | ||
+ | |||
+ | Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. |