This is an old revision of the document!
Brillův tagger
/home/zeman/nastroje/taggery/brill/RULE_BASED_TAGGER_V1.14
Potřebujeme trénovací korpus. Ten musí být tokenizovaný, každá věta na samostatném řádku. Každý token má tvar slovo/značka
. Zatím nevím, jak se zachází s lomítkem jako slovem.
cd ~/data/pdt/2.0 $PARSINGROOT/tools/csts2brill.pl < trainmm.utf.csts > train.brill
Výsledkem je soubor o 68562 řádcích (větách).