Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
user:zeman:moses-na-questu [2014/02/06 11:33] zeman |
user:zeman:moses-na-questu [2014/02/06 15:37] zeman |
||
---|---|---|---|
Line 3: | Line 3: | ||
Toto jsou moje poznámky, jak obalit Mosese a Emana webovou aplikací. Varování ministra informatiky: | Toto jsou moje poznámky, jak obalit Mosese a Emana webovou aplikací. Varování ministra informatiky: | ||
- | Někde na vnitřní síti mám hřiště pro Emana. Cestu k němu označím PLAY. Na questu mám připravenou podsložku ve složce pro CGI skripty (např. ''/ | + | Někde na vnitřní síti mám hřiště pro Emana. Cestu k němu označím PLAY. Na questu mám připravenou podsložku ve složce pro CGI skripty (např. ''/ |
+ | |||
+ | Na hřišti PLAY si najdu kroky s modely, které chci na questu zpřístupnit. Můžu se např. podívat do harvest.txt a vypsat kroky evaluator, které mě zajímají; potom pomocí est tb najít jim odpovídající kroky translate a mert. Z nějakého důvodu mi pro en-cs stačily tyto dva kroky, ale pro ostatní jazykové páry nestačí, protože krok mert neobsahuje jazykový ani překladový model, jsou tam jen symbolické odkazy. Takže musím přidat i kroky lm a tm. Cílový jazyk je u mých pokusů vždy čeština, čili jazykové modely jsou vždy stejné a můžu dokonce převzít ty, které už jsem získal v kroku mert pro en-cs. Vybral jsem tyto kroky: | ||
+ | |||
+ | | Jazyky | BLEU | Evaluator | Translate | Mert | Tm | Lm | | ||
+ | | de-cs | 0.1532 | s.evaluator.91754 | s.translate.b83a4 | s.mert.fb673 | s.tm.c45f4 | s.lm.9e583 s.lm.51815 | | ||
+ | | es-cs | 0.1614 | s.evaluator.75a32 | s.translate.5ad59 | s.mert.ebae4 | s.tm.f0b0d | s.lm.9e583 s.lm.51815 | | ||
+ | | fr-cs | 0.1441 | s.evaluator.1e6bb | s.translate.32442 | s.mert.dfbd0 | s.tm.78273 | s.lm.9e583 s.lm.51815 | | ||
+ | |||
+ | Vybrané kroky je třeba zkopírovat na quest: | ||
+ | |||
+ | <code bash>ssh zen | ||
+ | cd $PLAY | ||
+ | zip -ry pro_quest.zip všechny_výše_vybrané_kroky | ||
+ | ssh quest | ||
+ | cd $QPLAY | ||
+ | scp zen: | ||
+ | unzip pro_quest.zip</ | ||
+ | |||
+ | Zkopírované kroky jsou plné symbolických odkazů na jazykové a překladové modely, ale tyto odkazy na questu nefungují. Musíme je opravit: | ||
+ | |||
+ | <code bash># de-cs | ||
+ | cd s.translate.b83a43c4.20131223-0735 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd .. | ||
+ | # es-cs | ||
+ | cd s.translate.5ad5995f.20131223-0739 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd .. | ||
+ | # fr-cs | ||
+ | cd s.translate.32442a28.20131223-0742 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd ..</ | ||
+ | |||
+ | Frázová tabulka je pro quest příliš velká. Její filtrování pro konkrétní test set trvá nepřijatelně dlouho (klidně přes čtvrt hodiny) a výsledná tabulka je stejně tak velká, že se nevejde do paměti. Proto je potřeba ji prořezat. Samozřejmě bychom měli fráze na vyhození vybírat nějak inteligentně a u těch zbývajících přepočítat pravděpodobnosti. Rychlá metoda hrubé síly je tato: Pokud mají zdrojová a cílová fráze dohromady větší než předem stanovený počet tokenů, vyhodit. Dlouhý příkaz níže stanovuje maximální počet tokenů na 7. | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | O spuštění Mosese se správným modelem se stará skript $QCGI/ | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | Sahá se tam do složky '' | ||
+ | |||
+ | <code bash>cd filtered-for-eval | ||
+ | cat moses.ini | sed ' | ||
+ | mv moses1.ini moses.ini | ||
+ | mv phrase-table.0-0.1.1.gz xxl-phrase-table.0-0.1.1.gz | ||
+ | ln -s ../ | ||
+ | cd ..</ |