Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:turecka-morfologie [2013/06/17 22:27] zeman Gold annotation of test data. |
user:zeman:turecka-morfologie [2013/06/20 11:01] (current) zeman RF Tagger. |
||
---|---|---|---|
Line 21: | Line 21: | ||
cat / | cat / | ||
cat / | cat / | ||
- | bin/ | + | bin/ |
bin/ | bin/ | ||
+ | eval_tree_tagger.pl tagged.tr.txt gold.tr.txt | ||
</ | </ | ||
+ | |||
+ | Výsledky na tureckém treebanku CoNLL 2007 jsou následující: | ||
+ | |||
+ | 3610 total tokens. | ||
+ | 1221 unknown tokens (33.822715 %). | ||
+ | 2656 correct tags (73.573407 %). | ||
+ | 2200 correct tags of known words (92.088740 %). | ||
+ | 456 correct tags of unknown words (37.346437 %). | ||
+ | 3199 correct parts of speech (88.614958 %). | ||
+ | 2270 correct parts of speech of known words (95.018836 %). | ||
+ | 929 correct parts of speech of unknown words (76.085176 %). | ||
+ | |||
+ | ===== RF Tagger ===== | ||
+ | |||
+ | Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj. | ||
+ | |||
+ | RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru. | ||
+ | |||
+ | <code bash> | ||
+ | man -l src/ | ||
+ | man -l src/ | ||
+ | bin/ | ||
+ | bin/ | ||
+ | ../ | ||
+ | ../ | ||
+ | </ | ||
+ | |||
+ | Výsledky na tureckém treebanku CoNLL 2007 jsou následující: | ||
+ | |||
+ | 3611 total tokens. | ||
+ | 1221 unknown tokens (33.813348 %). | ||
+ | 2856 correct tags (79.091664 %). | ||
+ | 2182 correct tags of known words (91.297071 %). | ||
+ | 674 correct tags of unknown words (55.200655 %). | ||
+ | 3339 correct parts of speech (92.467461 %). | ||
+ | 2256 correct parts of speech of known words (94.393305 %). | ||
+ | 1083 correct parts of speech of unknown words (88.697789 %). | ||
===== Turecká Wikipedie ===== | ===== Turecká Wikipedie ===== |