[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:turecka-morfologie [2013/06/17 22:49]
zeman
user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
Line 21: Line 21:
 cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
 cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
-bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc|Punc|_'+bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
 bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
 eval_tree_tagger.pl tagged.tr.txt gold.tr.txt eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
Line 33: Line 33:
 2200 correct tags of known words (92.088740 %). 2200 correct tags of known words (92.088740 %).
 456 correct tags of unknown words (37.346437 %). 456 correct tags of unknown words (37.346437 %).
-3200 correct parts of speech (88.642659 %).+3199 correct parts of speech (88.614958 %).
 2270 correct parts of speech of known words (95.018836 %). 2270 correct parts of speech of known words (95.018836 %).
-930 correct parts of speech of unknown words (76.167076 %).+929 correct parts of speech of unknown words (76.085176 %). 
 + 
 +===== RF Tagger ===== 
 + 
 +Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj. 
 + 
 +RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru. 
 + 
 +<code bash> 
 +man -l src/man1/rft-train.1 
 +man -l src/man1/rft-annotate.1 
 +bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par 
 +bin/rft-annotate tr.par test.tr.txt tagged.tr.txt 
 +../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt 
 +../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt 
 +</code> 
 + 
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující: 
 + 
 +3611 total tokens. 
 +1221 unknown tokens (33.813348 %). 
 +2856 correct tags (79.091664 %). 
 +2182 correct tags of known words (91.297071 %). 
 +674 correct tags of unknown words (55.200655 %). 
 +3339 correct parts of speech (92.467461 %). 
 +2256 correct parts of speech of known words (94.393305 %). 
 +1083 correct parts of speech of unknown words (88.697789 %).
  
 ===== Turecká Wikipedie ===== ===== Turecká Wikipedie =====

[ Back to the navigation ] [ Back to the content ]