[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Brillův tagger

/home/zeman/nastroje/taggery/brill/RULE_BASED_TAGGER_V1.14

Potřebujeme trénovací korpus. Ten musí být tokenizovaný, každá věta na samostatném řádku. Každý token má tvar slovo/značka. Zatím nevím, jak se zachází s lomítkem jako slovem.

cd ~/data/pdt/2.0
$PARSINGROOT/tools/csts2brill.pl < trainmm.utf.csts > train.brill

Výsledkem je soubor o 68562 řádcích (větách). Příklad:

Třikrát/Cv------------- rychlejší/AAFS1----2A---- než/J,------------- slovo/NNNS1-----A----

[ Back to the navigation ] [ Back to the content ]