[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Last revision Both sides next revision
user:zeman:turecka-morfologie [2013/06/12 15:27]
zeman vytvořeno
user:zeman:turecka-morfologie [2013/06/20 10:34]
zeman Turecké značky jsou nyní přizpůsobovány Schmidovu RFTaggeru.
Line 12: Line 12:
   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))   * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.   * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.
 +
 +===== Tree Tagger =====
 +
 +<code bash>
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
 +cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
 +cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
 +cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
 +bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc.Punc._'
 +bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt
 +eval_tree_tagger.pl tagged.tr.txt gold.tr.txt
 +</code>
 +
 +Výsledky na tureckém treebanku CoNLL 2007 jsou následující:
 +
 +3610 total tokens.
 +1221 unknown tokens (33.822715 %).
 +2656 correct tags (73.573407 %).
 +2200 correct tags of known words (92.088740 %).
 +456 correct tags of unknown words (37.346437 %).
 +3199 correct parts of speech (88.614958 %).
 +2270 correct parts of speech of known words (95.018836 %).
 +929 correct parts of speech of unknown words (76.085176 %).
  
 ===== Turecká Wikipedie ===== ===== Turecká Wikipedie =====
Line 18: Line 42:
 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2 wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
 unzip.pl trwiki-20130606-pages-articles.xml.bz2</code> unzip.pl trwiki-20130606-pages-articles.xml.bz2</code>
 +
 +<code bash>
 +DUMP=trwiki-20130606-pages-articles
 +wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
 +bunzip2 $DUMP.xml.bz2
 +gzip $DUMP.xml
 +treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
 +# Note that zip has problems with UTF8 characters in filenames.
 +find texts -name '*.txt' -print | zip -m trwiki -@
 +
 +find texts -name '*.txt' -print > filelist.txt
 +tar czf trwiki.tgz --files-from filelist.txt
 +</code>
 +
 +212476 článků (dokumentů, souborů)
  
 Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB. Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.
  
 +  * Určitě už někde mám kód, který odstraňuje syntaxi MediaWiki a nechává jen prostý text.
 +  * Kromě toho bude potřeba tokenizace a větná segmentace.
 +  * Ideálně by to chtělo nějaký načítací blok do Treexu.
 +  * Wikiodkazy teď asi zahazovat, ale později je možná ještě budeme chtít využít, abychom lépe odhalili koncovky, rozsah víceslovných výrazů apod.

[ Back to the navigation ] [ Back to the content ]