Differences

This shows you the differences between two versions of the page.

--- user:zeman:ukoly:brilluv-tagger [2007/10/24 22:21]
zeman Kódování?
+++ user:zeman:ukoly:brilluv-tagger [2007/10/24 22:28]
zeman Formát dat.
@@ Line 35: / Line 35: @@
   * Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše).
   * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb.
 ===== Data =====
+Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.
 ==== Čeština ====

Institute of Formal and Applied Linguistics Wiki