[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:srilm [2009/06/01 21:16]
zeman vytvořeno
user:zeman:srilm [2009/06/02 12:34] (current)
zeman Výsledek.
Line 83: Line 83:
 Tentokrát test běží bez chyb! Tentokrát test běží bez chyb!
  
 +
 +===== Výroba jazykového modelu =====
 +
 +Pro strojový překlad potřebujeme jazykový model cílového jazyka. Např. pro hindštinu ho vyrobíme následovně. Vyrobíme ho pro data převedená na malá písmena, protože ta budeme také používat při trénování překladu. Vyrobíme trigram (''-order 3'').
 +
 +<code>cd $HINDSTINA
 +mkdir lm
 +$SRILM/bin/i686/ngram-count -order 3 -interpolate -kndiscount -unk \
 +    -text data/train.lowercased.hi \
 +    -lm   lm/train.lowercased.hi.lm</code>
 +
 +Pro 50000 hindských vět je to rychlá práce (pár vteřin) i na slabém stroji. Takhle zjistíme, jak velký model vznikl:
 +
 +<code>head -5 lm/train.lowercased.hi.lm
 +
 +\data\
 +ngram 1=67924
 +ngram 2=488352
 +ngram 3=98876</code>

[ Back to the navigation ] [ Back to the content ]