Differences

This shows you the differences between two versions of the page.

--- user:zeman:turecka-morfologie [2013/06/12 15:27]
zeman vytvořeno
+++ user:zeman:turecka-morfologie [2013/06/20 10:34]
zeman Turecké značky jsou nyní přizpůsobovány Schmidovu RFTaggeru.
@@ Line 12: / Line 12: @@
   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.
+===== Tree Tagger =====
+<code bash>
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
+cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
+cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
+bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
+bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
+eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
+</code>
+Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
+total tokens.
+unknown tokens (33.822715 %).
+correct tags (73.573407 %).
+correct tags of known words (92.088740 %).
+correct tags of unknown words (37.346437 %).
+correct parts of speech (88.614958 %).
+correct parts of speech of known words (95.018836 %).
+correct parts of speech of unknown words (76.085176 %).
 ===== Turecká Wikipedie =====
@@ Line 18: / Line 42: @@
 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
 unzip.pl trwiki-20130606-pages-articles.xml.bz2</code>
+<code bash>
+DUMP=trwiki-20130606-pages-articles
+wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
+bunzip2 $DUMP.xml.bz2
+gzip $DUMP.xml
+treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
+# Note that zip has problems with UTF8 characters in filenames.
+find texts -name '*.txt' -print | zip -m trwiki -@
+find texts -name '*.txt' -print > filelist.txt
+tar czf trwiki.tgz --files-from filelist.txt
+</code>
+článků (dokumentů, souborů)
 Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.
+  * Určitě už někde mám kód, který odstraňuje syntaxi MediaWiki a nechává jen prostý text.
+  * Kromě toho bude potřeba tokenizace a větná segmentace.
+  * Ideálně by to chtělo nějaký načítací blok do Treexu.
+  * Wikiodkazy teď asi zahazovat, ale později je možná ještě budeme chtít využít, abychom lépe odhalili koncovky, rozsah víceslovných výrazů apod.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences