Differences

This shows you the differences between two versions of the page.

--- user:zeman:wmt [2010/03/09 16:53]
zeman
+++ user:zeman:wmt [2012/01/18 15:26]
zeman Code.
@@ Line 1: / Line 1: @@
-====== Danovy pokusy s Joshuou na WMT 2010 ======
+====== Danovy pokusy s Joshuou na WMT 2012 ======
 http://matrix.statmt.org/
-http://www.statmt.org/wmt10/translation-task.html
+http://www.statmt.org/wmt11/translation-task.html
 http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
 <code>/net/work/people/zeman/wmt</code>
 ===== Aktuální úkoly =====
-  * Převést všechny pokusy pod Joshuu 1.3.
+  * Udělat pořádek v záznamech.
+  * Najít a oživit loňské pokusy s interpunkcí, zejména s uvozovkami.
+  * Převést všechny pokusy pod aktuální verzi Joshuy.
+  * Konečně převést Joshuu pod Emana.
   * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština).
   * Dotáhnout do konce obo-max.
   * Při klonování experimentu se musí kopírovat mert/decoder-config.txt.ZMERT.final a změnit v něm cesty! Pozor, mohla se změnit i cesta ke glue gramatice, pokud se změnila cesta k Joshuovi.
-  * Upravit test.pl, aby před počítáním BLEU skóre odstraňoval přípony "_OOV". Otázka je, zda nemá totéž dělat i mert.pl (resp. zda se to odstraňování nemá zabudovat do parcoderu.pl).
+  * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny páry získat nové baseliny.
-  * Vyrobit end-to-end skript, abych mohl pouštět pokusy s menšími nároky na babysitting.
-===== Příprava korpusů =====
+===== Data =====
 Vývojová data (''news-test'') jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků ''<seg>''. Výsledek strčit do ''augmented_corpora''.
-===== Náročnost =====
+==== Ondřejova data ====
-==== obo-base1 ====
+Ondřejovy augmented corpora se nacházejí v&nbsp;''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora'' (což vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora''). Za baseline se považuje trénování na zpravodajské části Czengu, tj. ''czeng092-ne''. Uvnitř jsou různé podjazyky podle úrovně analýzy. Zdá se, že baseline by mohly být např. ''enNa'' a ''csNa'', ale Ondřej prý pro WMT 2010 používal ''enNa2+stc'' a ''csN[ma]+stc'' (''csNa'' a ''csNm'' jsou prý identické). Faktor ''stc'' znamená //supervised truecasing,// čili truecasováno podle lemat. Ondřej korpus zarovnával podle lemat, tj. ''enNa-lemma-csNa-lemma-gdfa''. Český jazykový model Ondřej vyráběl z&nbsp;''wmt10mono2'', a to šestigramový.
-První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží.
+Vysvětlení Ondrových pseudojazyků:
+  * Znaky za ''cs'', resp. ''en'', označují anotaci, kterou data prošla v&nbsp;TectoMT (Ondra na to má scénář v&nbsp;adresáři ''augmented_corpora'', ale možná to není commitnuté).
+  * ''Nm'' značí s&nbsp;normalizací (jako uvozovky, //'ll// apod.) a jen po morfologickou rovinu.
+  * ''Na'' je s&nbsp;normalizací až po t-rovinu, ale uloženo jako analytická, tj. co token, to analytický uzel, a některé mají kolonku t-lematu a formému neproškrtnutou.
+  * ''Na2'' je jako ''Na'', ale Ondra nějak měnil ten normalizační blok. Do soutěže šlo právě ''Na2''.
+  * ''Nt'' je linearizovaná t-rovina.
+  * ''X1'' je Ondrův pokus o frázovou interlingvu, tj. sice stále lineární, ale některé věci (jako zvratná zájmena nebo v&nbsp;angličtině další součástky slovesa) pravidlově přemístěny blíž ke slovesu. Neúspěšné, tak neví přesně.
+  * ''_txt'' je prostý text bez tokenizace, začátek všeho, odpovídá releasnutému CzEngovému plaintextu.
-==== obo-base2 ====
+Ondřejův maximální paralelní korpus navíc obsahuje další části Czengu a korpus Emea: ''czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2'' (alignment ''csNm-lemma-enNm-lemma-gdfa'').
-Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram.
+Pro český jazykový model chtěl Ondřej později ještě přidat korpusy ''wmt09mono'', ''webcoll'' a ''syn200x''.
-Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel).
+Testovací data by měl mít stejná jako já, tj. ''wmt102.test08'' pro MERT a ''wmt102.test09'' pro testování.
-==== obo-base3 ====
+===== Náročnost =====
-Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT.
 ==== obo-max ====
@@ Line 41: / Line 47: @@
 Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů!
 ===== Výsledky =====
@@ Line 57: / Line 54: @@
 | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** |
 | encs-allcstem4-tmnews-lmnews | 0.0918 | 0.0905 | | | 24.2.2010 |
+| encs-clean | 0.0913 | 0.0897 | | Joshua 1.1, z trénovacích dat odstraněny věty o 100 a více slovech. | 21.3.2010 |
+| encs-josh13 | 0.0878 | 0.0869 | | | 9.3.2010 |
+| encs-the | 0.0901 | 0.0863 | | Pokus: ze zdrojové (anglické) strany trénovacích dat byly odstraněny všechny výskyty slova "the". Jinak je tento běh identický s encs-josh13. | 10.3.2010 |
+| decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 |
+| escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 |
+| frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 |
 | csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | 0.1518 (14.2/10.5) | | 26.2.2010 |
+| csen-clean | 0.1441 | 0.1458 | | | 21.3.2010 |
 | csen-josh13 | 0.1420 | 0.1455 | | | 9.3.2010 |
 | ende-allcstem4-tmnews-lmnews | 0.1168 | 0.1114 | 0.1199 (11.5/4.3) | | 26.2.2010 |
+| ende-clean | 0.1162 | 0.1118 | | | 21.3.2010 |
+| ende-josh13 | 0.1161 | 0.1096 | | | 9.3.2010 |
 | deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | 0.1728 (16.1/11.4) | | 26.2.2010 |
+| deen-clean | 0.1718 | 0.1624 | | | 21.3.2010 |
+| deen-josh13 | 0.1703 | 0.1616 | | | 9.3.2010 |
 | enes-allcstem4-tmnews-lmnews | 0.1954 | 0.1966 | 0.2150 (21.1/16.5) | Pokus s WMT 2010 bez úspěšného MERTu, váhy jsem si vypůjčil z en-fr. | 6.3.2010 |
+| enes-clean | 0.1953 | 0.1979 | | | 21.3.2010 |
+| enes-josh13 | 0.1969 | 0.1978 | | | 9.3.2010 |
 | esen-allcstem4-tmnews-lmnews | 0.1945 | 0.2025 | 0.2268 (21.7/16.1) | | 8.3.2010 |
+| esen-clean | 0.1945 | 0.2023 | | | 21.3.2010 |
+| esen-josh13 | 0.1335 | 0.1411 | | Tady je pokles při přechodu na Joshuu 1.3 výraznější než jinde. | 10.3.2010 |
 | enfr-allcstem4-tmnews-lmnews | 0.1991 | 0.2001 | 0.2034 (15.7/12.2) | | 26.2.2010 |
+| enfr-clean | 0.1979 | 0.1990 | | | 21.3.2010 |
+| enfr-josh13 | 0.1982 | 0.1999 | | | 9.3.2010 |
 | fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | 0.1991 (18.9/13.7) | | 26.2.2010 |
+| fren-clean | 0.1873 | 0.2008 | | | 21.3.2010 |
+| fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 |
-ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.
+Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli?
 | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** |
@@ Line 75: / Line 91: @@
 | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 |
-===== Ondřej =====
+Na konci srpna 2010 oživuju pokusy s&nbsp;Joshuou 1.1. Začínám s&nbsp;Czengem 092-ne, alignment a překlad z&nbsp;''enNa2+stc'' do ''csN[ma]+stc'', jak je napsáno výše, trigramový LM jen na jeho cílové straně. Až na ten jazykový model by to mělo odpovídat některému obo-base pokusu z&nbsp;února nebo března.
+| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** |
+| encs:tmtrain-czeng092ne-lmtrain-czeng092ne-lm3 | 0.1053 | 0.0962 | | Ondrovo párování na lematech, trigram LM pouze z&nbsp;cílové strany paralelního korpusu. | 29.8.2010 |
+| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm3 | 0.1266 | 0.1150 | | Jako předchozí, ale LM trigram na ''wmt10mono2''. | 29.8.2010 |
+| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm4 | 0.1278 | 0.1198 | | Jako předchozí, ale LM je tetragram. | 29.8.2010 |
+| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm5 | 0.1286 | 0.1179 | | Jako předchozí, ale LM je pentagram. | 29.8.2010 |
+| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm6 | 0.1299 | 0.1176 | | Jako předchozí, ale LM je hexagram. | 29.8.2010 |
+| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm3 | 0.1399 | 0.1346 | | Velký paralelní korpus (Czeng+Emea). | 6.9.2010 |
+| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm4 | 0.1425 | 0.1372 | | Jako předchozí, ale LM je tetragram. | 6.9.2010 |
+| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm5 | 0.1437 | 0.1368 | | Jako předchozí, ale LM je pentagram. | 6.9.2010 |
+| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm6 | 0.1435 | 0.1368 | | Jako předchozí, ale LM je hexagram. | 7.9.2010 |
-Ahoj.
+===== Pokusy s uvozovkami =====
-S podobnymi podminkami souhlasim, aspon se dozvime vic.
+Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být "v6b" (verze 6b) všech korpusů, na nich se měly všechny pokusy pustit znova. Asi.
-Cili do WMT by mohl jit:
+''$STATMT/scripts/specchar.pl''
+a co historie loňských commitů?
-- muj moses
+Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).
-- Tvuj joshua
-- TectoMT
-Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/
+===== Infrastruktura a zarovnání =====
-baseline korpus je
+Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční.
-czeng092-ne
-(alignment enNa-lemma-csNa-lemma-gdfa)
-maximalni paralelni korpus je
+===== Inventura 16.1.2012 =====
-czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
-(alignment csNm-lemma-enNm-lemma-gdfa)
-korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:
+.1.2012 21:12: Pouštím znova pokus ''encs-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011''. Zřejmě to neobsahuje opravené uvozovky (v6b), ale potřebuju zjistit, zda se to vůbec rozběhne.
-wmt10mono2
+===== Eman =====
-pozdeji budou pouzitelne wmt09mono, webcoll a syn200x
+Ondrův e-mail z&nbsp;4.2.2011:
-development korpus je wmt102.test08
+musim se pochlubit, ze (az na jeste par much) mam ukazku pouziti emana pro preklad i pro ty, kdo to jeste vubec nezkouseli:
-test korpus je        wmt102.test09
+<code bash>svn co https://svn.ms.mff.cuni.cz/svn/statmt/trunk statmt
+cd statmt/playground
+# podivejte se na README
+export PATH=$PATH:$(pwd)/../scripts
+eman init binaries
+  # to jen proto, abyste mohla potvrdit certifikat sourceforge
+# a pak uz podle readme spustit mikropokus
+SKIP_IRSTLM=yes eman clone --start < eman.samples/cs-en-mini.traceback</code>
-Zdrojovy jazyk  je pro mne enNa2+stc.
+Prikaz:
-Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)
-'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.
+eman --man
-O.
+ukaze manualovou stranku

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences