Turecká morfologie

Poznámky k nástrojům a pokusům s tureckou morfologií. Momentálně jde také o poznámky k diplomce Sibel Ciddi (akademický rok 2012-2013).

Úkoly:

Sehnat, rozchodit, natrénovat a otestovat turecký tagger (do 16.6.2013). Možná se dá sehnat tagger s již natrénovaným modelem. Možná nás ale víc zajímá trénovatelný tagger (např. TreeTagger), který bychom si sami natrénovali na treebanku METU, který máme k dispozici. I tak budeme muset řešit nekompatibilitu značek METU se značkami produkovanými TRmorphem.
Natrénovat a otestovat parser. Propojit ho s taggerem, abychom byli schopni zpracovávat nový turecký text.
Dan: Stáhnout data z turecké Wikipedie a dát je Sibel, aby na nich otestovala pokrytí TRmorphem. Předpokládáme, že se tu najde spousta nepokrytých pojmenovaných entit, pro které pak budeme vyvíjet guesser.
Dan: Možná bych se mohl pokusit rozchodit TRmorph v Treexu, abych si ho mohl zkoušet i sám. Po Sibel každopádně nic takového vyžadovat nebudu.

Pak se musíme rozhodnout, jaký bude konečný cíl:

Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno… (mohla by to být i předložka, ale ty asi všechny pokrývá TRmorph)))
Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser.

Tree Tagger

cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type train > train.tr.txt
cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type lexicon > lexicon.tr.txt
cat /net/data/conll/2007/tr/train.conll | prepare_lexicon_from_conll.pl --type openclass > openclass.tr.txt
cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type test > test.tr.txt
cat /net/data/conll/2007/tr/test.conll | prepare_lexicon_from_conll.pl --type train > gold.tr.txt
bin/train-tree-tagger lexicon.tr.txt openclass.tr.txt train.tr.txt tr.par -st 'Punc|Punc|_'
bin/tree-tagger -token -lemma tr.par < test.tr.txt > tagged.tr.txt

Výsledky na tureckém treebanku CoNLL 2007 jsou následující:

3610 total tokens.
1221 unknown tokens (33.822715 %).
2656 correct tags (73.573407 %).
2200 correct tags of known words (92.088740 %).
456 correct tags of unknown words (37.346437 %).
3200 correct parts of speech (88.642659 %).
2270 correct parts of speech of known words (95.018836 %).
930 correct parts of speech of unknown words (76.167076 %).

Turecká Wikipedie

cd /net/data/wikipedia/tr
wget http://dumps.wikimedia.org/trwiki/20130606/trwiki-20130606-pages-articles.xml.bz2
unzip.pl trwiki-20130606-pages-articles.xml.bz2

DUMP=trwiki-20130606-pages-articles
wget http://dumps.wikimedia.org/trwiki/20130606/$DUMP.xml.bz2
bunzip2 $DUMP.xml.bz2
gzip $DUMP.xml
treex -Ltr Read::WikiDump from=$DUMP.xml.gz Write::Text path=texts to=.
# Note that zip has problems with UTF8 characters in filenames.
find texts -name '*.txt' -print | zip -m trwiki -@
 
find texts -name '*.txt' -print > filelist.txt
tar czf trwiki.tgz --files-from filelist.txt

212476 článků (dokumentů, souborů)

Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB.

Určitě už někde mám kód, který odstraňuje syntaxi MediaWiki a nechává jen prostý text.
Kromě toho bude potřeba tokenizace a větná segmentace.
Ideálně by to chtělo nějaký načítací blok do Treexu.
Wikiodkazy teď asi zahazovat, ale později je možná ještě budeme chtít využít, abychom lépe odhalili koncovky, rozsah víceslovných výrazů apod.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Turecká morfologie

Tree Tagger

Turecká Wikipedie