Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:giza [2009/06/02 11:34] zeman Lowercasing. |
user:zeman:giza [2009/06/02 13:15] zeman Oprava cesty k jazykovému modelu. |
||
---|---|---|---|
Line 31: | Line 31: | ||
Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), | Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), | ||
- | < | + | < |
+ | cd / | ||
cp $DATA/ | cp $DATA/ | ||
cp $DATA/ | cp $DATA/ | ||
Line 37: | Line 38: | ||
$MOSES/ | $MOSES/ | ||
+ | Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno " | ||
+ | |||
+ | K tomu Gauravův komentář: Tam, kde se vyskytne celá posloupnost latinských znaků (opravdu asi stačí 2 a více za sebou), jde o nějakou divnou, často pro normálního Hinda nečitelnou romanizaci, kterou někdo nezkonvertoval zpátky. Tohle bude nejlepší prostě vyhodit. Pak se také občas objevuje samotné písmeno, přilepené nebo vložené do slova v dévanágarí. Viděli jsme Z, L a Q, ale mohou být i další. Je možné, že jsou to také nezkonvertované znaky. Z jsme viděli většinou na kraji slova, mohla by to být nějaká interpunkce. Q jsme viděli uprostřed slova a Gaurava nenapadá, co by to mohlo být - prostým vymazáním prý vznikne správné slovo. L jsme viděli taky uprostřed slova a u něj bylo možné vysledovat nějaký význam. Nepochopil jsem přesně jaký, ale to, co mi Gaurav namaloval, vypadalo na samohlásku " | ||
+ | |||
+ | Další krok je čištění korpusu od vět delších než 40 tokenů. Zatím k tomu použiju skript, který se mi kdysi vygeneroval u Mosese v rámci nějakého časovaného pokusu: | ||
+ | |||
+ | < | ||
+ | |||
+ | Ohlásilo to, že z 50000 vět zbylo 42737. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Volání Gizy ===== | ||
+ | |||
+ | Než zavoláme Gizu, musíme mít z nějakého důvodu hotový [[SRILM|jazykový model]]< | ||
+ | |||
+ | Moses obsahuje skript, který hezky obaluje volání mkcls a Gizy++ a generuje frázové a přeskládávací tabulky, které potřebuje dekodér. Volá se takhle: | ||
+ | |||
+ | < | ||
+ | -scripts-root-dir $MOSES/ | ||
+ | -root-dir work \ | ||
+ | -corpus ./ | ||
+ | -alignment grow-diag-final-and \ | ||
+ | -reordering msd-bidirectional-fe \ | ||
+ | -lm 0: | ||
+ | >& work/ | ||
+ | </ |