Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:21] zeman Kódování? |
user:zeman:ukoly:brilluv-tagger [2007/10/28 12:52] zeman Další informace. |
||
---|---|---|---|
Line 11: | Line 11: | ||
Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní. | ||
+ | |||
Line 26: | Line 27: | ||
- Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova " | - Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova " | ||
- Změní se výsledek značkování, | - Změní se výsledek značkování, | ||
+ | - Brillův tagger funguje tak, že nejdřív udělá pro každé slovo jakýsi první nástřel značky a pak se učí pravidla, jak značku nahradit lepší značkou. Defaultní první nástřel používá značky běžné v anglickém Penn Treebanku, tj. pro jiné korpusy a jazyky tyto značky musí být špatně. Změní se úspěšnost, | ||
===== Skripty ===== | ===== Skripty ===== | ||
Line 35: | Line 37: | ||
* Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše). | * Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše). | ||
* Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | ||
+ | |||
===== Data ===== | ===== Data ===== | ||
+ | |||
+ | Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu " | ||
==== Čeština ==== | ==== Čeština ==== | ||
Line 45: | Line 50: | ||
Data pocházejí ze švédského korpusu Talbanken05, | Data pocházejí ze švédského korpusu Talbanken05, | ||
+ | {{user: | ||
==== Dánština ==== | ==== Dánština ==== | ||
Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. | Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. | ||
+ | {{user: | ||
+ | |||
+ | ===== Další informace ===== | ||
+ | |||
+ | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http:// | ||
+ | |||
+ | Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. | ||
+ |