[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/01/29 22:18]
zeman obo-max-test2011
user:zeman:wmt [2012/02/01 10:02]
zeman en-fr doběhlo, fr-en nějak havarovalo.
Line 71: Line 71:
  
 Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).
 +
 +UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky z loňského WMT (Makefilem se tam primárně myslí Makefile dat pro WMT, tedy ''/net/work/people/zeman/wmt/Makefile''):
 +
 +
 +---------------------------------------
 +Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou.
 +Potřebuju je označkovat, abych mohl pouštět experimenty s faktory lemma a stc.
 +cd /net/work/people/zeman/wmt
 +# Přidat do Makefile nově upravené korpusy mající v názvu ".v6b.", např.:
 +EUROPARL = $(foreach pair,es-en/es es-en/en,europarl-v6b.$(pair))
 +NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair))
 +# Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit!
 +# Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu!
 +make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr
 +# Teď použijeme TectoMT a cluster k označkování nových korpusů.
 +cd /net/work/people/zeman/tectomt/applications/reordering/actag
 +nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log &
 +nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log &
 +nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log &
 +nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &
 +# No a nyní již můžeme naklonovat nové pokusy.
 +# I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare".
 +$STATMT/joshua-scripts/clonex.pl fren-stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011 fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 +cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 +$STATMT/joshua-scripts/resetex_scripts.pl
 +vi scripts/setexp.pl
 +$ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';
 +
 +Výsledky:
 +Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011.
 +Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011.
 +Vylaďovací ani testovací data zatím nijak upravována nebyla.
 +Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem.
 +
 +es-en: dříve 0.2452, nyní 0.2428
 +en-es: dříve 0.2590, nyní 0.2542
 +
  
 ===== Inventura 16.1.2012 ===== ===== Inventura 16.1.2012 =====
Line 103: Line 140:
 | en-es | 0.2542 | 0.2542 | 0.2531 | | en-es | 0.2542 | 0.2542 | 0.2531 |
 | es-en | 0.2428 | FAILED | 0.2375 | | es-en | 0.2428 | FAILED | 0.2375 |
-| en-fr | 0.2586 | 0.2628 | |+| en-fr | 0.2586 | 0.2628 | 0.2619 |
 | fr-en | 0.2294 | 0.2294 | | | fr-en | 0.2294 | 0.2294 | |
  

[ Back to the navigation ] [ Back to the content ]