[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:turecka-morfologie [2013/06/12 15:31]
zeman Aktuální úkoly s tureckou Wikipedií.
user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
Line 12: Line 12:
   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.
 +
 +===== Tree Tagger =====
 +
 +<code bash>
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
 +cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
 +cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
 +bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
 +bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
 +eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
 +</code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3610 total tokens.
 +1221 unknown tokens (33.822715 %).
 +2656 correct tags (73.573407 %).
 +2200 correct tags of known words (92.088740 %).
 +456 correct tags of unknown words (37.346437 %).
 +3199 correct parts of speech (88.614958 %).
 +2270 correct parts of speech of known words (95.018836 %).
 +929 correct parts of speech of unknown words (76.085176 %).
 +
 +===== RF Tagger =====
 +
 +Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj.
 +
 +RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru.
 +
 +<code bash>
 +man -l src/man1/rft-train.1
 +man -l src/man1/rft-annotate.1
 +bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par
 +bin/rft-annotate tr.par test.tr.txt tagged.tr.txt
 +../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt
 +../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt
 +</code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3611 total tokens.
 +1221 unknown tokens (33.813348 %).
 +2856 correct tags (79.091664 %).
 +2182 correct tags of known words (91.297071 %).
 +674 correct tags of unknown words (55.200655 %).
 +3339 correct parts of speech (92.467461 %).
 +2256 correct parts of speech of known words (94.393305 %).
 +1083 correct parts of speech of unknown words (88.697789 %).
  
 ===== Turecká Wikipedie ===== ===== Turecká Wikipedie =====
Line 18: Line 68:
 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
 unzip.pl trwiki-20130606-pages-articles.xml.bz2</code> unzip.pl trwiki-20130606-pages-articles.xml.bz2</code>
 +
 +<code bash>
 +DUMP=trwiki-20130606-pages-articles
 +wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
 +bunzip2 $DUMP.xml.bz2
 +gzip $DUMP.xml
 +treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
 +# Note that zip has problems with UTF8 characters in filenames.
 +find texts -name '*.txt' -print | zip -m trwiki -@
 +
 +find texts -name '*.txt' -print > filelist.txt
 +tar czf trwiki.tgz --files-from filelist.txt
 +</code>
 +
 +212476 článků (dokumentů, souborů)
  
 Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB. Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.

[ Back to the navigation ] [ Back to the content ]