Differences

This shows you the differences between two versions of the page.

--- user:zeman:morpho-challenge-2008 [2008/06/27 12:49]
zeman Stáhnout rozšířená data pro information retrieval.
+++ user:zeman:morpho-challenge-2008 [2008/06/27 14:01]
zeman Oprava cesty ke skriptu.
@@ Line 47: / Line 47: @@
 vzorfiltr.pl < en.vzor > en1.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
+===== Morfematická segmentace =====
+Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce.
+Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, zda rozpoznáme alespoň koncovky (aniž bychom znali kmen).
+Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto:
+<code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code>
+<code>cd $MC/data/2008
+foreach l (ar de en fi tr)
+  $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt
+end</code>
 ===== Zbývá udělat =====
@@ Line 57: / Line 71: @@
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.
-==== Morfematická segmentace ====
-Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce.
-Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, zda rozpoznáme alespoň koncovky (aniž bychom znali kmen).
-Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto:
-<code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code>

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences