[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/01/29 22:18]
zeman obo-max-test2011
user:zeman:wmt [2012/01/29 22:33]
zeman Záznam o tom, jak se v datech upravují uvozovky.
Line 71: Line 71:
  
 Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).
 +
 +UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky z loňského WMT (Makefilem se tam primárně myslí Makefile dat pro WMT, tedy ''/net/work/people/zeman/wmt/Makefile''):
 +
 +
 +---------------------------------------
 +Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou.
 +Potřebuju je označkovat, abych mohl pouštět experimenty s faktory lemma a stc.
 +cd /net/work/people/zeman/wmt
 +# Přidat do Makefile nově upravené korpusy mající v názvu ".v6b.", např.:
 +EUROPARL = $(foreach pair,es-en/es es-en/en,europarl-v6b.$(pair))
 +NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair))
 +# Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit!
 +# Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu!
 +make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr
 +# Teď použijeme TectoMT a cluster k označkování nových korpusů.
 +cd /net/work/people/zeman/tectomt/applications/reordering/actag
 +nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log &
 +nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log &
 +nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log &
 +nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &
 +# No a nyní již můžeme naklonovat nové pokusy.
 +# I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare".
 +$STATMT/joshua-scripts/clonex.pl fren-stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011 fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 +cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 +$STATMT/joshua-scripts/resetex_scripts.pl
 +vi scripts/setexp.pl
 +$ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';
 +
 +Výsledky:
 +Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011.
 +Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011.
 +Vylaďovací ani testovací data zatím nijak upravována nebyla.
 +Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem.
 +
 +es-en: dříve 0.2452, nyní 0.2428
 +en-es: dříve 0.2590, nyní 0.2542
 +
  
 ===== Inventura 16.1.2012 ===== ===== Inventura 16.1.2012 =====

[ Back to the navigation ] [ Back to the content ]