[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Turecká morfologie

Poznámky k nástrojům a pokusům s tureckou morfologií. Momentálně jde také o poznámky k diplomce Sibel Ciddi (akademický rok 2012-2013).

Úkoly:

Pak se musíme rozhodnout, jaký bude konečný cíl:

Tree Tagger

cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc|Punc|_'
bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt

Turecká Wikipedie

cd /net/data/wikipedia/tr
wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
unzip.pl trwiki-20130606-pages-articles.xml.bz2
DUMP=trwiki-20130606-pages-articles
wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
bunzip2 $DUMP.xml.bz2
gzip $DUMP.xml
treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
# Note that zip has problems with UTF8 characters in filenames.
find texts -name '*.txt' -print | zip -m trwiki -@
 
find texts -name '*.txt' -print > filelist.txt
tar czf trwiki.tgz --files-from filelist.txt

212476 článků (dokumentů, souborů)

Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.


[ Back to the navigation ] [ Back to the content ]