Differences

This shows you the differences between two versions of the page.

--- user:zeman:turecka-morfologie [2013/06/12 15:31]
zeman Aktuální úkoly s tureckou Wikipedií.
+++ user:zeman:turecka-morfologie [2013/06/20 11:01] (current)
zeman RF Tagger.
@@ Line 12: / Line 12: @@
   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.
+===== Tree Tagger =====
+<code bash>
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
+bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
+bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
+eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
+</code>
+Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
+total tokens.
+unknown tokens (33.822715 %).
+correct tags (73.573407 %).
+correct tags of known words (92.088740 %).
+correct tags of unknown words (37.346437 %).
+correct parts of speech (88.614958 %).
+correct parts of speech of known words (95.018836 %).
+correct parts of speech of unknown words (76.085176 %).
+===== RF Tagger =====
+Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj.
+RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru.
+<code bash>
+man -l src/man1/rft-train.1
+man -l src/man1/rft-annotate.1
+bin/rft-train train.tr.txt wordclass/wordclass.txt tr.par
+bin/rft-annotate tr.par test.tr.txt tagged.tr.txt
+../treetagger/join_rf_tree.pl tagged.tr.txt ../treetagger/tagged.tr.txt > lemmatized.tr.txt
+../treetagger/eval_tree_tagger.pl lemmatized.tr.txt gold.tr.txt
+</code>
+Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
+total tokens.
+unknown tokens (33.813348 %).
+correct tags (79.091664 %).
+correct tags of known words (91.297071 %).
+correct tags of unknown words (55.200655 %).
+correct parts of speech (92.467461 %).
+correct parts of speech of known words (94.393305 %).
+correct parts of speech of unknown words (88.697789 %).
 ===== Turecká Wikipedie =====
@@ Line 18: / Line 68: @@
 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
 unzip.pl trwiki-20130606-pages-articles.xml.bz2</code>
+<code bash>
+DUMP=trwiki-20130606-pages-articles
+wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
+bunzip2 $DUMP.xml.bz2
+gzip $DUMP.xml
+treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
+# Note that zip has problems with UTF8 characters in filenames.
+find texts -name '*.txt' -print | zip -m trwiki -@
+find texts -name '*.txt' -print > filelist.txt
+tar czf trwiki.tgz --files-from filelist.txt
+</code>
+článků (dokumentů, souborů)
 Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences