Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:21] zeman Kódování? |
user:zeman:ukoly:brilluv-tagger [2007/10/24 22:28] zeman Formát dat. |
||
---|---|---|---|
Line 35: | Line 35: | ||
* Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše). | * Naivní trénovač a tagger, který se volá stejně jako výše popsané rozhraní na Brillův tagger, ale chová se zcela naivně (nejpravděpodobnější značka, viz výše). | ||
* Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | * Skript, kterému se předá ručně označkovaný text (tzv. gold standard) a tentýž text označkovaný taggerem. Skript vypíše úspěšnost značkování taggeru (tj. procento správně označkovaných slov) a případný další rozbor chyb. | ||
+ | |||
===== Data ===== | ===== Data ===== | ||
+ | |||
+ | Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu " | ||
==== Čeština ==== | ==== Čeština ==== |