[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Brillův tagger

setenv BRILL /home/zeman/nastroje/taggery/brill/RULE_BASED_TAGGER_V1.14

Potřebujeme trénovací korpus. Ten musí být tokenizovaný, každá věta na samostatném řádku. Každý token má tvar slovo/značka. Zatím nevím, jak se zachází s lomítkem jako slovem.

cd ~/data/pdt/2.0
$PARSINGROOT/tools/csts2brill.pl < trainmm.utf.csts > train.brill

Výsledkem je soubor o 68562 řádcích (větách). Příklad:

Třikrát/Cv------------- rychlejší/AAFS1----2A---- než/J,------------- slovo/NNNS1-----A----

Dále potřebujeme rozdělit trénovací data na 2 části. Z první části se budeme učit značky pro neznámá slova. Ze druhé se budeme učit kontextová pravidla pro náhradu značky u slova lepší značkou.

Pozor, Eric měl Perl v /usr/local/bin/perl, já ho mám na zenu v /usr/bin/perl, takže musím Erikovy Perlové skripty volat jako argumenty perlu, ne jako spustitelné soubory.

cd $BRILL/Bin_and_Data
perl ../Utilities/divide-in-two-rand.prl < ~/data/pdt/2.0/train.brill pdt-train-1.brill pdt-train-2.brill

Dělení korpusu je náhodné, ale se snahou, aby obě části byly přibližně stejně velké. Vyšlo mi 34221 vět v první části a 34341 ve druhé.


[ Back to the navigation ] [ Back to the content ]