Differences

This shows you the differences between two versions of the page.

--- user:zeman:turecka-morfologie [2013/06/13 23:55]
zeman Zaznamenávám další postup.
+++ user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
@@ Line 12: / Line 12: @@
   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.
+===== Tree Tagger =====
+<code bash>
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
+bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
+bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
+eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
+</code>
+Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
+total tokens.
+unknown tokens (33.822715 %).
+correct tags (73.573407 %).
+correct tags of known words (92.088740 %).
+correct tags of unknown words (37.346437 %).
+correct parts of speech (88.614958 %).
+correct parts of speech of known words (95.018836 %).
+correct parts of speech of unknown words (76.085176 %).
+===== RF Tagger =====
+Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj.
+RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru.
+<code bash>
+man -l src/man1/rft-train.1
+man -l src/man1/rft-annotate.1
+bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par
+bin/rft-annotate tr.par test.tr.txt tagged.tr.txt
+../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt
+../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt
+</code>
+Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
+total tokens.
+unknown tokens (33.813348 %).
+correct tags (79.091664 %).
+correct tags of known words (91.297071 %).
+correct tags of unknown words (55.200655 %).
+correct parts of speech (92.467461 %).
+correct parts of speech of known words (94.393305 %).
+correct parts of speech of unknown words (88.697789 %).
 ===== Turecká Wikipedie =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences