[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:eman [2012/03/30 17:10]
zeman Úplné cesty k dílčím korpusům.
user:zeman:eman [2013/01/23 15:39] (current)
zeman harvest.pl
Line 1: Line 1:
 ====== Eman ====== ====== Eman ======
  
-Ondrův e-mail z 4.2.2011:+===== Instalace =====
  
-musim se pochlubit, ze (az na jeste par muchmam ukazku pouziti emana pro preklad i pro tykdo to jeste vubec nezkouseli:+<code bash>git clone https://daniel.zeman@redmine.ms.mff.cuni.cz/eman.git eman 
 +git clone https://daniel.zeman@redmine.ms.mff.cuni.cz/ufal-smt-playground.git statmt 
 +export PATH=$PATH:`pwd`/eman/bin 
 +cd statmt/playground</code> 
 + 
 +Mělo by to jít vybalit i bez toho uživatelského jména (''daniel.zeman@'' apod., vyžaduje samozřejmě heslo), ale bude to pak bez práva ukládat změny zpět na server pomocí ''git push''
 + 
 +Příkaz ''<nowiki>eman --man</nowiki>'' ukáže příručku s&nbsp;nápovědou. 
 + 
 +Ondrův příklad pro rychlý start (říjen 2012): 
 +<code bash>eman clone (--dry-run) < eman.samples/cs-en-mini.traceback</code> 
 + 
 +==== Archiv ==== 
 + 
 +Eman z SVN dle Ondrova e-mailu z&nbsp;4.2.2011:
  
 <code bash>svn co https://svn.ms.mff.cuni.cz/svn/statmt/trunk statmt <code bash>svn co https://svn.ms.mff.cuni.cz/svn/statmt/trunk statmt
Line 14: Line 28:
 SKIP_IRSTLM=yes eman clone --start < eman.samples/cs-en-mini.traceback</code> SKIP_IRSTLM=yes eman clone --start < eman.samples/cs-en-mini.traceback</code>
  
-Prikaz: +[[Přechod z SVN/Trac na Git/Redmine]] (podzim 2012)
- +
-eman --man +
- +
-ukaze manualovou stranku+
  
 ===== Tvorba šablon (nové druhy kroků, seeds) ===== ===== Tvorba šablon (nové druhy kroků, seeds) =====
Line 274: Line 284:
   TAKE_FROM_COMMAND=$COMMAND \   TAKE_FROM_COMMAND=$COMMAND \
   eman init corpus --start   eman init corpus --start
 +# Problém: Takto založený krok zaregistruje pouze zarovnání se symetrizací gdfa, navíc pro všechny sloupce souboru.
 +# Opíšeme tedy popis sloupců od jednoho z dílčích korpusů. Musíme to ale dělat až po dokončení spojeného korpusu.
 +NEWSTEP=(`corpman news-euro-un.fr-en/gdfa-fr-lemma-en-lemma+ali`)
 +mv ${NEWSTEP[0]}/corpus.txt.gz ${NEWSTEP[0]}/alignment.gz
 +perl -e 'my $i = 1; foreach my $sym qw(gdf revgdf gdfa revgdfa left right int union) { print("alignment.gz\t$i\tnews-euro-un.fr-en\t$sym-fr-lemma-en-lemma\tali\t'$LINES'\n"); $i++ }' > ${NEWSTEP[0]}/corpman.info
 +corpman reindex
 ALISTEPNEWSEURO=(`corpman news-europarl-v7.fr-en/gdfa-en-lemma-fr-lemma+ali`) ALISTEPNEWSEURO=(`corpman news-europarl-v7.fr-en/gdfa-en-lemma-fr-lemma+ali`)
 ALISTEPUNCORPUS=(`corpman un.fr-en/gdfa-en-lemma-fr-lemma+ali`) ALISTEPUNCORPUS=(`corpman un.fr-en/gdfa-en-lemma-fr-lemma+ali`)
Line 312: Line 328:
 V&nbsp;současnosti je k&nbsp;dispozici několik různých šablon pro vyhodnocení výsledků překladu na testovacích datech. Šablona ''eval'' pouští Ondrův program ''testbleu'', šablona ''evaluator'' pouští vyhodnocovací program Mosese upravený Matoušem Macháčkem, který umí několik různých metrik včetně BLEU, šablona ''daneval'' spolupracuje s&nbsp;Joshuou. V&nbsp;současnosti je k&nbsp;dispozici několik různých šablon pro vyhodnocení výsledků překladu na testovacích datech. Šablona ''eval'' pouští Ondrův program ''testbleu'', šablona ''evaluator'' pouští vyhodnocovací program Mosese upravený Matoušem Macháčkem, který umí několik různých metrik včetně BLEU, šablona ''daneval'' spolupracuje s&nbsp;Joshuou.
  
-Eman umí projít všechny kroky s&nbsp;výsledky a spojit je v&nbsp;jednom výstupu. K&nbsp;tomu slouží příkaz **''eman collect''**, který na základě ''eman.results.conf'' vyrobí ''eman.results''. Ukázkový a funkční konfigurační soubor je ''eman.results.conf.sample-wmt12''Výstup ''eman.results'' lze pak ještě dále vylepšit pomocí ''make bleu'' (make bleu vlastně ten collect samo volá). +Eman umí projít všechny kroky s&nbsp;výsledky a spojit je v&nbsp;jednom výstupu. K&nbsp;tomu slouží příkaz **''eman collect''**, který na základě ''eman.results.conf'' vyrobí ''eman.results''. Ukázkový a funkční konfigurační soubor je ''eman.results.conf.sample''Já používám jako obálku skript **''harvest.pl > harvest.txt''**, který výsledky zformátuje tak, jak chci (seskupí podle jazykových párů a seřadí podle skóre).
- +
-(Podle Ondřeje make bleu ještě možná závisí na skriptu ./sitename, který je tam pro konsolidaci výsledků z&nbsp;mnoha hřišť.)+
  
 ===== Kombinace dvou a více hřišť ===== ===== Kombinace dvou a více hřišť =====
Line 339: Line 353:
  
 Jestliže stěhujete kroky, které jsou ve stavu FAILED, na novém hřišti je pravděpodobně nebudete moci spustit pomocí ''eman continue'', protože jejich ''eman.command'' (který už se znova nepřegeneruje) nejspíš obsahuje cesty na staré hřiště (a např. když zavoláte corpman starého hřiště, bude vám hledat korpusy tam, ne tady). Můžete ale použít ''eman redo --start'', čímž se na novém hřišti vytvoří kopie kroku s&nbsp;novým ''eman.command'', bez přegenerování všech kroků, na kterých krok závisí. Jestliže stěhujete kroky, které jsou ve stavu FAILED, na novém hřišti je pravděpodobně nebudete moci spustit pomocí ''eman continue'', protože jejich ''eman.command'' (který už se znova nepřegeneruje) nejspíš obsahuje cesty na staré hřiště (a např. když zavoláte corpman starého hřiště, bude vám hledat korpusy tam, ne tady). Můžete ale použít ''eman redo --start'', čímž se na novém hřišti vytvoří kopie kroku s&nbsp;novým ''eman.command'', bez přegenerování všech kroků, na kterých krok závisí.
 +

[ Back to the navigation ] [ Back to the content ]