Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:morpho-challenge-2008 [2008/05/06 10:30] zeman Převod dat do formátu CSTS. |
user:zeman:morpho-challenge-2008 [2008/06/27 15:18] zeman Úprava výstupu před odesláním. |
||
---|---|---|---|
Line 21: | Line 21: | ||
< | < | ||
foreach l (ar de en fi tr) | foreach l (ar de en fi tr) | ||
- | mc2csts.pl < data/ | + | mc2csts.pl < data/ |
end</ | end</ | ||
- | ===== Zbytek této stránky je zatím pouhá kopie z roku 2007 ===== | + | ===== Trénování morfologických vzorů |
- | Dostali jsme pro každý jazyk (angličtinu, | + | Pro některé jazyky (zejména pro finštinu) trvá zpracování déle, než by se chtělo čekat, a vyplatí |
- | Moje zpracování se skládá ze dvou částí: | + | < |
- | - Rozebrat slova na vstupu, získat seznam vzorů, kmenů a koncovek. | + | cd $MC |
- | | + | foreach l (ar de en fi tr) |
+ | | ||
+ | end</ | ||
- | Nijak nevyužívám informaci o četnosti slovních tvarů ani o kontextu slov v korpusu. Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, | + | Během trénování pro každý jazyk l vzniknou následující soubory: |
- | Potřebné skripty | + | * '' |
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky): | Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky): | ||
Line 41: | Line 47: | ||
vzorfiltr.pl < en.vzor > en1.vzor</ | vzorfiltr.pl < en.vzor > en1.vzor</ | ||
Skript '' | Skript '' | ||
+ | |||
+ | ===== Morfematická segmentace ===== | ||
+ | |||
+ | Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. | ||
+ | |||
+ | Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, | ||
Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | ||
< | < | ||
- | Turečtinu je pak ještě nutné prohnat skriptem '' | ||
- | ===== Nové seznamy slov pro soutěž v získávání informací | + | < |
+ | foreach l (ar de en fi tr) | ||
+ | $MC/ | ||
+ | end</ | ||
+ | |||
+ | ===== Úprava výstupu před odesláním ===== | ||
+ | |||
+ | Ve výstupních souborech musí být první slovo (tvar, který jsme měli rozebrat) identické s& | ||
+ | |||
+ | < | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | |||
+ | ===== Zbývá udělat | ||
- | Organizátoři dodatečně poskytli seznamy nových slov, která se neobjevila v původních trénovacích datech, ale vyskytují se v datech, nad kterými | + | * Vzít testovací data a mnou natrénované kmeny a koncovky a provést morfematickou segmentaci testovacích dat. Jedno slovo může být rozebráno |
+ | * Vyzkoušet skórování. | ||
+ | * Pustit celý algoritmus na převrácená slova a získat předpony. | ||
+ | * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit | ||
+ | * Stáhnout doplňující seznamy slov pro soutěž 2 (information retrieval) | ||
+ | * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | ||
+ | * Odeslat výsledky Mikkovi. | ||
- | < | ||
- | iconv -f iso-8859-1 -t utf8 < combined.eng | mctr2csts.pl > entrain1.csts | ||
- | csts2kmkon.pl < entrain1.csts > en1.kmkon | ||
- | kmkon2vzor.pl < en1.kmkon > en1.vzor | ||
- | vzorfiltr.pl < en1.vzor > en1.filtr.vzor | ||
- | mv kmeny.txt en1kmeny.txt | ||
- | mv koncovky.txt en1koncovky.txt | ||
- | mchallenge.pl en1kmeny.txt en1koncovky.txt < new-wordlist.eng > en1.dz.txt</ |