Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:turecka-morfologie [2013/06/20 10:34] zeman Turecké značky jsou nyní přizpůsobovány Schmidovu RFTaggeru. |
user:zeman:turecka-morfologie [2013/06/20 11:01] (current) zeman RF Tagger. |
||
---|---|---|---|
Line 36: | Line 36: | ||
2270 correct parts of speech of known words (95.018836 %). | 2270 correct parts of speech of known words (95.018836 %). | ||
929 correct parts of speech of unknown words (76.085176 %). | 929 correct parts of speech of unknown words (76.085176 %). | ||
+ | |||
+ | ===== RF Tagger ===== | ||
+ | |||
+ | Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj. | ||
+ | |||
+ | RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru. | ||
+ | |||
+ | <code bash> | ||
+ | man -l src/ | ||
+ | man -l src/ | ||
+ | bin/ | ||
+ | bin/ | ||
+ | ../ | ||
+ | ../ | ||
+ | </ | ||
+ | |||
+ | Výsledky na tureckém treebanku CoNLL 2007 jsou následující: | ||
+ | |||
+ | 3611 total tokens. | ||
+ | 1221 unknown tokens (33.813348 %). | ||
+ | 2856 correct tags (79.091664 %). | ||
+ | 2182 correct tags of known words (91.297071 %). | ||
+ | 674 correct tags of unknown words (55.200655 %). | ||
+ | 3339 correct parts of speech (92.467461 %). | ||
+ | 2256 correct parts of speech of known words (94.393305 %). | ||
+ | 1083 correct parts of speech of unknown words (88.697789 %). | ||
===== Turecká Wikipedie ===== | ===== Turecká Wikipedie ===== |