Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:zeman:wmt [2012/02/03 18:15] zeman Poznámky o Ondrových datech a o pokusech s Emanem. |
user:zeman:wmt [2012/02/04 16:34] zeman Úklid. |
||
---|---|---|---|
Line 66: | Line 66: | ||
===== Pokusy s uvozovkami ===== | ===== Pokusy s uvozovkami ===== | ||
- | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být "v6b" | + | Paralelní data, která máme k& |
- | '' | + | <code bash>$STATMT/ |
- | a co historie loňských commitů? | + | |
- | Podle časových značek u korpusů v '' | + | Takhle se upraví |
- | UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky z loňského WMT (Makefilem se tam primárně myslí Makefile dat pro WMT, tedy '' | + | <code bash> |
+ | Do Makefile přidáme nově upravené korpusy, mající v& | ||
- | --------------------------------------- | + | <code bash>EUROPARL = $(foreach pair, |
- | Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou. | + | NEWSCOMM = $(foreach pair, |
- | Potřebuju je označkovat, | + | |
- | cd / | + | Ale pozor! Jestliže |
- | # Přidat do Makefile nově upravené korpusy mající v názvu " | + | |
- | EUROPARL = $(foreach pair, | + | <code bash>make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr</ |
- | NEWSCOMM = $(foreach pair, | + | |
- | # Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit! | + | Teď použijeme TectoMT/ |
- | # Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu! | + | |
- | make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr | + | <code bash>cd $TMT_ROOT/ |
- | # Teď použijeme TectoMT a cluster k označkování nových korpusů. | + | |
- | cd /net/work/people/zeman/tectomt/applications/ | + | |
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | ||
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
- | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & | + | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</ |
- | # No a nyní již můžeme naklonovat nové pokusy. | + | |
- | # I když můžeme naklonovat oba směry (např. " | + | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " |
- | $STATMT/ | + | |
+ | <code bash>$STATMT/ | ||
cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | ||
$STATMT/ | $STATMT/ | ||
- | vi scripts/ | + | vim scripts/ |
- | $ac_tmtrain | + | $ac_tmtrain |
- | Výsledky: | + | Podle časových značek u korpusů v '' |
- | Skóre " | + | |
- | Skóre " | + | |
- | Vylaďovací ani testovací data zatím nijak upravována nebyla. | + | |
- | Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. | + | |
es-en: dříve 0.2452, nyní 0.2428 | es-en: dříve 0.2452, nyní 0.2428 |