Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:moses-na-questu [2014/02/06 11:33] zeman |
user:zeman:moses-na-questu [2014/02/07 11:30] (current) zeman |
||
---|---|---|---|
Line 3: | Line 3: | ||
Toto jsou moje poznámky, jak obalit Mosese a Emana webovou aplikací. Varování ministra informatiky: | Toto jsou moje poznámky, jak obalit Mosese a Emana webovou aplikací. Varování ministra informatiky: | ||
- | Někde na vnitřní síti mám hřiště pro Emana. Cestu k němu označím PLAY. Na questu mám připravenou podsložku ve složce pro CGI skripty (např. ''/ | + | Někde na vnitřní síti mám hřiště pro Emana. Cestu k němu označím PLAY. Na questu mám připravenou podsložku ve složce pro CGI skripty (např. ''/ |
+ | |||
+ | Na hřišti PLAY si najdu kroky s modely, které chci na questu zpřístupnit. Můžu se např. podívat do harvest.txt a vypsat kroky evaluator, které mě zajímají; potom pomocí est tb najít jim odpovídající kroky translate a mert. Z nějakého důvodu mi pro en-cs stačily tyto dva kroky, ale pro ostatní jazykové páry nestačí, protože krok mert neobsahuje jazykový ani překladový model, jsou tam jen symbolické odkazy. Takže musím přidat i kroky lm a tm. Cílový jazyk je u mých pokusů vždy čeština, čili jazykové modely jsou vždy stejné a můžu dokonce převzít ty, které už jsem získal v kroku mert pro en-cs. Vybral jsem tyto kroky: | ||
+ | |||
+ | | Jazyky | BLEU | Evaluator | Translate | Mert | Tm | Lm | | ||
+ | | de-cs | 0.1532 | s.evaluator.91754 | s.translate.b83a4 | s.mert.fb673 | s.tm.c45f4 | s.lm.9e583 s.lm.51815 | | ||
+ | | es-cs | 0.1614 | s.evaluator.75a32 | s.translate.5ad59 | s.mert.ebae4 | s.tm.f0b0d | s.lm.9e583 s.lm.51815 | | ||
+ | | fr-cs | 0.1441 | s.evaluator.1e6bb | s.translate.32442 | s.mert.dfbd0 | s.tm.78273 | s.lm.9e583 s.lm.51815 | | ||
+ | |||
+ | Vybrané kroky je třeba zkopírovat na quest: | ||
+ | |||
+ | <code bash>ssh zen | ||
+ | cd $PLAY | ||
+ | zip -ry pro_quest.zip všechny_výše_vybrané_kroky | ||
+ | ssh quest | ||
+ | cd $QPLAY | ||
+ | scp zen: | ||
+ | unzip pro_quest.zip</ | ||
+ | |||
+ | Zkopírované kroky jsou plné symbolických odkazů na jazykové a překladové modely, ale tyto odkazy na questu nefungují. Musíme je opravit: | ||
+ | |||
+ | <code bash># de-cs | ||
+ | cd s.translate.b83a43c4.20131223-0735 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd .. | ||
+ | # es-cs | ||
+ | cd s.translate.5ad5995f.20131223-0739 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd .. | ||
+ | # fr-cs | ||
+ | cd s.translate.32442a28.20131223-0742 | ||
+ | rm lmodel-file.1.gz lmodel-file.2.gz ttable-file.1.gz moses | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s ../ | ||
+ | ln -s moses.hardlink moses | ||
+ | cd ..</ | ||
+ | |||
+ | Frázová tabulka je pro quest příliš velká. Její filtrování pro konkrétní test set trvá nepřijatelně dlouho (klidně přes čtvrt hodiny) a výsledná tabulka je stejně tak velká, že se nevejde do paměti. Proto je potřeba ji prořezat. Samozřejmě bychom měli fráze na vyhození vybírat nějak inteligentně a u těch zbývajících přepočítat pravděpodobnosti. Rychlá metoda hrubé síly je tato: Pokud mají zdrojová a cílová fráze dohromady větší než předem stanovený počet tokenů, vyhodit. Dlouhý příkaz níže stanovuje maximální počet tokenů na 7. | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | O spuštění Mosese se správným modelem se stará skript $QCGI/ | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | Sahá se tam do složky '' | ||
+ | |||
+ | <code bash>cd filtered-for-eval | ||
+ | cat moses.ini | sed ' | ||
+ | mv moses1.ini moses.ini | ||
+ | mv phrase-table.0-0.1.1.gz xxl-phrase-table.0-0.1.1.gz | ||
+ | ln -s ../ | ||
+ | cd ..</ | ||
+ | |||
+ | ===== Pokusný německý text ===== | ||
+ | |||
+ | Frankfurter Allgemeine Zeitung (http:// | ||
+ | |||
+ | Es ist eine schwarze, eine traurige Woche für die Demokratiebewegung in der Türkei. Denn nie zuvor ist die Meinungsfreiheit dort so umfassend beschnitten worden wie jetzt und noch nie die Gewaltenteilung so einfach aufgehoben worden. In der Türkei herrschen bald chinesische Verhältnisse. Nur einen Tag nachdem Tayyip Erdogan im Berliner Tempodrom großspurig behauptet hatte, seine Regierung habe die Beschränkung der Meinungsfreiheit aufgehoben, hat das türkische Parlament in der Nacht von Mittwoch auf Donnerstag ein Gesetz verabschiedet, | ||
+ | |||
+ | ===== Pokusný španělský text ===== | ||
+ | |||
+ | El País (http:// | ||
+ | |||
+ | Vivir al pie de una montaña de 8.000 metros en invierno es vivir fuera del tiempo común. No solo es la soledad, ni siquiera el frío enloquecedor, | ||
+ | |||
+ | ===== Pokusný francouzský text ===== | ||
+ | |||
+ | Le Figaro (http:// | ||
+ | |||
+ | En renonçant, en novembre 2013, abruptement et au dernier moment, sous la pression de la Russie, à signer un accord commercial d' |