[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/03 18:15]
zeman Poznámky o Ondrových datech a o pokusech s Emanem.
user:zeman:wmt [2012/02/04 16:34]
zeman Úklid.
Line 66: Line 66:
 ===== Pokusy s uvozovkami ===== ===== Pokusy s uvozovkami =====
  
-Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najítŠlo úpravu trénovacích korpusůVýsledkem měla být "v6b(verze 6b) všech korpusů, na nich se měly všechny pokusy pustit znova. Asi.+Paralelní datakterá máme k dispozici, používají velmi různorodou směs znaků pro uvozovkyČasto také není poznat, zda jde počáteční, nebo koncové uvozovkyNapsal jsem skript, který se tohle pokusí rozpoznat (je jazykově závislý), a znaky pro uvozovky sjednotit. Všechny korpusy jsem tímto skriptem protáhl a vznikly verze označené ''v6b'' (včetně vývojových a testovacích dat). Nyní je třeba pustit všechny pokusy znova a zjistit, zda to nějak ovlivní skóre.
  
-''$STATMT/scripts/specchar.pl'' +<code bash>$STATMT/scripts/specchar.pl</code>
-a co historie loňských commitů?+
  
-Podle časových značek u korpusů v ''augmented_corpora'' se zdáže poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).+Takhle se upraví korpus v&nbsp;''augmented_corpora'', aby vznikla verze v6b (korpus musíme také označkovatprotože budeme potřebovat faktory lemma a stc):
  
-UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky z loňského WMT (Makefilem se tam primárně myslí Makefile dat pro WMT, tedy ''/net/work/people/zeman/wmt/Makefile''):+<code bash>cd /net/work/people/zeman/wmt</code>
  
 +Do Makefile přidáme nově upravené korpusy, mající v&nbsp;názvu ".v6b.", např.:
  
---------------------------------------- +<code bash>EUROPARL = $(foreach pair,es-en/es es-en/en,europarl-v6b.$(pair)) 
-Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou. +NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair))</code> 
-Potřebuju je označkovat, abych mohl pouštět experimenty s faktory lemma a stc. + 
-cd /net/work/people/zeman/wmt +Ale pozor! Jestliže jsme už předtím zpracovali jiný jazykový pár, musíme ho z&nbsp;Makefile alespoň dočasně vyhodit! Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu! 
-# Přidat do Makefile nově upravené korpusy mající v názvu ".v6b.", např.: + 
-EUROPARL = $(foreach pair,es-en/es es-en/en,europarl-v6b.$(pair)) +<code bash>make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr</code> 
-NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair)) + 
-Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit! +Teď použijeme TectoMT/Treex a cluster k&nbsp;označkování nových korpusů. Původní aplikace se nachází v&nbsp;''$TMT_ROOT/applications/reordering/actag'', ale už v&nbsp;ní přestala fungovat němčina, protože ze sdílené složky zmizel natrénovaný model pro TreeTagger. Nová aplikace se nachází v&nbsp;''$TMT_ROOT/treex/devel/reordering/actag'', ale zatím v&nbsp;ní funguje pouze němčina. 
-Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu! + 
-make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr +<code bash>cd $TMT_ROOT/treex/devel/reordering/actag
-Teď použijeme TectoMT a cluster k označkování nových korpusů. +
-cd /net/work/people/zeman/tectomt/applications/reordering/actag+
 nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log &
 nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log &
 nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log &
-nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & +nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</code> 
-No a nyní již můžeme naklonovat nové pokusy. + 
-I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare"+No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare"
-$STATMT/joshua-scripts/clonex.pl fren-stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011 fren-stc-allemma-tmv6b-lmv6b-lm6-test2011+ 
 +<code bash>$STATMT/joshua-scripts/clonex.pl fren-stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011 fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011
 $STATMT/joshua-scripts/resetex_scripts.pl $STATMT/joshua-scripts/resetex_scripts.pl
-vi scripts/setexp.pl +vim scripts/setexp.pl 
-$ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';+$ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';</code>
  
-Výsledky: +Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Výsledky: Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. Vylaďovací ani testovací data zatím nijak upravována nebyla. Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem.
-Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. +
-Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. +
-Vylaďovací ani testovací data zatím nijak upravována nebyla. +
-Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem.+
  
 es-en: dříve 0.2452, nyní 0.2428 es-en: dříve 0.2452, nyní 0.2428

[ Back to the navigation ] [ Back to the content ]