Differences

This shows you the differences between two versions of the page.

--- user:zeman:ukoly:brilluv-tagger [2007/10/24 22:21]
zeman Kódování?
+++ user:zeman:ukoly:brilluv-tagger [2007/10/28 12:52]
zeman Další informace.
@@ Line 11: / Line 11: @@
 Brillův software je napsán dílem v C, dílem v Perlu. Testován byl na Sun Sparc 10, takže doporučené prostředí je Unix, i když není zatím vyloučeno, že ho půjde přeložit i ve Windows. Vznikl už v roce 1994, takže na dnešním hardwaru by měl být rychlejší a nemusel by mít problémy s pamětí. Tehdy ale trénování na půl miliónu anglických slov trvalo několik dní.
@@ Line 26: / Line 27: @@
   - Jaké jsou nejčastější druhy chyb naivního a Brillova taggeru? (Např. "25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova "předpis".")
   - Změní se výsledek značkování, když Brillovi nepředhodíme text v UTF-8, ale převedeme ho nejdřív do nějakého osmibitového kódování?
+  - Brillův tagger funguje tak, že nejdřív udělá pro každé slovo jakýsi první nástřel značky a pak se učí pravidla, jak značku nahradit lepší značkou. Defaultní první nástřel používá značky běžné v anglickém Penn Treebanku, tj. pro jiné korpusy a jazyky tyto značky musí být špatně. Změní se úspěšnost, když algoritmus prvního nástřelu upravíte pro svou sadu značek? Nebo se změní jen čas potřebný ke konvergenci algoritmu?
 ===== Skripty =====
@@ Line 35: / Line 37: @@
   * Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše).
   * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb.
 ===== Data =====
+Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.
 ==== Čeština ====
@@ Line 45: / Line 50: @@
 Data pocházejí ze švédského korpusu Talbanken05, který je volně dostupný na webu.
+{{user:zeman:ukoly:sv.tag.zip|stáhnout}}
 ==== Dánština ====
 Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu.
+{{user:zeman:ukoly:da.tag.zip|stáhnout}}
+===== Další informace =====
+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
+Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences