Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:turecka-morfologie [2013/06/12 15:31] zeman Aktuální úkoly s tureckou Wikipedií. |
user:zeman:turecka-morfologie [2013/06/20 11:01] (current) zeman RF Tagger. |
||
---|---|---|---|
Line 12: | Line 12: | ||
* Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, | * Guesser na slova nepokrytá TRmorphem. (Nápady: pozorovat koncovky, něco na způsob neřízené morfematické segmentace; použít parser a zkoumat kontext ve stromu (visí to na slovesu? Tak to bude podstatné jméno... (mohla by to být i předložka, | ||
* Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser. | * Rozpoznávač víceslovných výrazů (MWE), pojmenovaných entit (NE) apod. Opět bychom mohli využít i parser. | ||
+ | |||
+ | ===== Tree Tagger ===== | ||
+ | |||
+ | <code bash> | ||
+ | cat / | ||
+ | cat / | ||
+ | cat / | ||
+ | cat / | ||
+ | cat / | ||
+ | bin/ | ||
+ | bin/ | ||
+ | eval_tree_tagger.pl tagged.tr.txt gold.tr.txt | ||
+ | </ | ||
+ | |||
+ | Výsledky na tureckém treebanku CoNLL 2007 jsou následující: | ||
+ | |||
+ | 3610 total tokens. | ||
+ | 1221 unknown tokens (33.822715 %). | ||
+ | 2656 correct tags (73.573407 %). | ||
+ | 2200 correct tags of known words (92.088740 %). | ||
+ | 456 correct tags of unknown words (37.346437 %). | ||
+ | 3199 correct parts of speech (88.614958 %). | ||
+ | 2270 correct parts of speech of known words (95.018836 %). | ||
+ | 929 correct parts of speech of unknown words (76.085176 %). | ||
+ | |||
+ | ===== RF Tagger ===== | ||
+ | |||
+ | Stejně jako Tree Tagger je to dílo Helmuta Schmida a dá se zadarmo stáhnout z jeho stránek. Prý je vhodnější pro sady značek, které se skládají z morfologických rysů. Formát trénovacích dat je obdobný jako u Tree Taggeru, ale je potřeba upravit morfologické značky, aby se dal odlišit slovní druh a rysy a aby všechny značky pro jeden slovní druh měly stejný počet rysů. Upravil jsem rovnou skripty, kterými připravuju data pro Tree Tagger, takže nyní stačí převzít trénovací data od něj. | ||
+ | |||
+ | RF Tagger neumí lematizovat a také na výstupu neoznačuje neznámá slova (Tree Tagger je označoval právě pomocí zvláštního lemmatu). Je ale možné vzít značky od RF Taggeru a lemmata od Tree Taggeru. | ||
+ | |||
+ | <code bash> | ||
+ | man -l src/ | ||
+ | man -l src/ | ||
+ | bin/ | ||
+ | bin/ | ||
+ | ../ | ||
+ | ../ | ||
+ | </ | ||
+ | |||
+ | Výsledky na tureckém treebanku CoNLL 2007 jsou následující: | ||
+ | |||
+ | 3611 total tokens. | ||
+ | 1221 unknown tokens (33.813348 %). | ||
+ | 2856 correct tags (79.091664 %). | ||
+ | 2182 correct tags of known words (91.297071 %). | ||
+ | 674 correct tags of unknown words (55.200655 %). | ||
+ | 3339 correct parts of speech (92.467461 %). | ||
+ | 2256 correct parts of speech of known words (94.393305 %). | ||
+ | 1083 correct parts of speech of unknown words (88.697789 %). | ||
===== Turecká Wikipedie ===== | ===== Turecká Wikipedie ===== | ||
Line 18: | Line 68: | ||
wget http:// | wget http:// | ||
unzip.pl trwiki-20130606-pages-articles.xml.bz2</ | unzip.pl trwiki-20130606-pages-articles.xml.bz2</ | ||
+ | |||
+ | <code bash> | ||
+ | DUMP=trwiki-20130606-pages-articles | ||
+ | wget http:// | ||
+ | bunzip2 $DUMP.xml.bz2 | ||
+ | gzip $DUMP.xml | ||
+ | treex -Ltr Read:: | ||
+ | # Note that zip has problems with UTF8 characters in filenames. | ||
+ | find texts -name ' | ||
+ | |||
+ | find texts -name ' | ||
+ | tar czf trwiki.tgz --files-from filelist.txt | ||
+ | </ | ||
+ | |||
+ | 212476 článků (dokumentů, | ||
Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB. | Zabalený soubor má necelých 300 MB, rozbalený má 1,4 GB. |