This is an old revision of the document!
Brillův tagger
setenv BRILL /home/zeman/nastroje/taggery/brill/RULE_BASED_TAGGER_V1.14
Potřebujeme trénovací korpus. Ten musí být tokenizovaný, každá věta na samostatném řádku. Každý token má tvar slovo/značka
. Zatím nevím, jak se zachází s lomítkem jako slovem.
cd ~/data/pdt/2.0 $PARSINGROOT/tools/csts2brill.pl < trainmm.utf.csts > train.brill
Výsledkem je soubor o 68562 řádcích (větách). Příklad:
Třikrát/Cv------------- rychlejší/AAFS1----2A---- než/J,------------- slovo/NNNS1-----A----
Dále potřebujeme rozdělit trénovací data na 2 části. Z první části se budeme učit značky pro neznámá slova. Ze druhé se budeme učit kontextová pravidla pro náhradu značky u slova lepší značkou.
Pozor, Eric měl Perl v /usr/local/bin/perl
, já ho mám na zenu v /usr/bin/perl
, takže musím Erikovy Perlové skripty volat jako argumenty perlu, ne jako spustitelné soubory.
cd $BRILL/Bin_and_Data perl ../Utilities/divide-in-two-rand.prl < ~/data/pdt/2.0/train.brill pdt-train-1.brill pdt-train-2.brill