[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:turecka-morfologie [2013/06/17 22:20]
zeman Tree Tagger.
user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
Line 20: Line 20:
 cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
 cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
-bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc|Punc|_'+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt 
 +bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
 bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
 +eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
 </code> </code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3610 total tokens.
 +1221 unknown tokens (33.822715 %).
 +2656 correct tags (73.573407 %).
 +2200 correct tags of known words (92.088740 %).
 +456 correct tags of unknown words (37.346437 %).
 +3199 correct parts of speech (88.614958 %).
 +2270 correct parts of speech of known words (95.018836 %).
 +929 correct parts of speech of unknown words (76.085176 %).
 +
 +===== RF Tagger =====
 +
 +Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj.
 +
 +RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru.
 +
 +<code bash>
 +man -l src/man1/rft-train.1
 +man -l src/man1/rft-annotate.1
 +bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par
 +bin/rft-annotate tr.par test.tr.txt tagged.tr.txt
 +../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt
 +../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt
 +</code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3611 total tokens.
 +1221 unknown tokens (33.813348 %).
 +2856 correct tags (79.091664 %).
 +2182 correct tags of known words (91.297071 %).
 +674 correct tags of unknown words (55.200655 %).
 +3339 correct parts of speech (92.467461 %).
 +2256 correct parts of speech of known words (94.393305 %).
 +1083 correct parts of speech of unknown words (88.697789 %).
  
 ===== Turecká Wikipedie ===== ===== Turecká Wikipedie =====

[ Back to the navigation ] [ Back to the content ]