[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:turecka-morfologie [2013/06/20 10:34]
zeman Turecké značky jsou nyní přizpůsobovány Schmidovu RFTaggeru.
user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
Line 36: Line 36:
 2270 correct parts of speech of known words (95.018836 %). 2270 correct parts of speech of known words (95.018836 %).
 929 correct parts of speech of unknown words (76.085176 %). 929 correct parts of speech of unknown words (76.085176 %).
 +
 +===== RF Tagger =====
 +
 +Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj.
 +
 +RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru.
 +
 +<code bash>
 +man -l src/man1/rft-train.1
 +man -l src/man1/rft-annotate.1
 +bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par
 +bin/rft-annotate tr.par test.tr.txt tagged.tr.txt
 +../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt
 +../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt
 +</code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3611 total tokens.
 +1221 unknown tokens (33.813348 %).
 +2856 correct tags (79.091664 %).
 +2182 correct tags of known words (91.297071 %).
 +674 correct tags of unknown words (55.200655 %).
 +3339 correct parts of speech (92.467461 %).
 +2256 correct parts of speech of known words (94.393305 %).
 +1083 correct parts of speech of unknown words (88.697789 %).
  
 ===== Turecká Wikipedie ===== ===== Turecká Wikipedie =====

[ Back to the navigation ] [ Back to the content ]