Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:33] zeman První nástřel. |
user:zeman:ukoly:brilluv-tagger [2013/10/08 08:13] (current) zeman quest |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Brillův tagger ====== | ====== Brillův tagger ====== | ||
- | Stáhněte z internetu (např. z http://www.cs.jhu.edu/~brill/RBT1_14.tar.Z) tagger Erika Brilla, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte tagger na trénovacích datech, označkujte testovací data a zjistěte, jaké úspěšnosti tagger dosahuje. | + | Stáhněte z internetu (např. z http://sourceforge.net/projects/ |
Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, | Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, | ||
Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Brillův software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, | Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Brillův software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený tagger s příslušenstvím, | ||
+ | |||
Line 12: | Line 13: | ||
Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | ||
+ | Poznámka k& | ||
===== Otázky ===== | ===== Otázky ===== | ||
Line 42: | Line 43: | ||
Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu " | Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu " | ||
+ | |||
==== Čeština ==== | ==== Čeština ==== | ||
- | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | + | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// |
==== Švédština ==== | ==== Švédština ==== | ||
Data pocházejí ze švédského korpusu Talbanken05, | Data pocházejí ze švédského korpusu Talbanken05, | ||
+ | {{user: | ||
==== Dánština ==== | ==== Dánština ==== | ||
Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. | Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. | ||
+ | {{user: | ||
+ | |||
+ | ===== Další informace ===== | ||
+ | |||
+ | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http:// | ||
+ | |||
+ | Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. | ||
+ |