Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2010/03/08 14:02] zeman Doběhl opravný MERT enes. |
user:zeman:wmt [2012/01/18 10:34] zeman Eman. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy s Joshuou na WMT 2010 ====== | + | ====== Danovy pokusy s Joshuou na WMT 2012 ====== |
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Přeložit ostrá testovací data všeho kromě '' | + | * Udělat pořádek v záznamech. |
- | * Přeložit ostrá testovací data '' | + | |
- | * Paralelizovat extrakci gramatiky, abych měl šanci se jí u obo-max někdy dočkat. | + | * Převést všechny pokusy pod aktuální verzi Joshuy. |
+ | | ||
+ | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | ||
* Dotáhnout do konce obo-max. | * Dotáhnout do konce obo-max. | ||
* Při klonování experimentu se musí kopírovat mert/ | * Při klonování experimentu se musí kopírovat mert/ | ||
+ | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny páry získat nové baseliny. | ||
- | ===== Příprava korpusů | + | ===== Data ===== |
Vývojová data ('' | Vývojová data ('' | ||
- | ===== Náročnost ===== | + | ==== Ondřejova data ==== |
- | ==== obo-base1 ==== | + | Ondřejovy augmented corpora se nacházejí v& |
- | První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží. | + | Vysvětlení Ondrových pseudojazyků: |
+ | * Znaky za '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
- | ==== obo-base2 ==== | + | Ondřejův maximální paralelní korpus navíc obsahuje další části Czengu a korpus Emea: '' |
- | Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram. | + | Pro český jazykový model chtěl Ondřej později ještě přidat korpusy '' |
- | Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel). | + | Testovací data by měl mít stejná jako já, tj. '' |
- | ==== obo-base3 | + | ===== Náročnost ===== |
- | + | ||
- | Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT. | + | |
==== obo-max ==== | ==== obo-max ==== | ||
Line 39: | Line 47: | ||
Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů! | Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů! | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
===== Výsledky ===== | ===== Výsledky ===== | ||
- | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, | + | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, |
| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
| encs-allcstem4-tmnews-lmnews | 0.0918 | 0.0905 | | | 24.2.2010 | | | encs-allcstem4-tmnews-lmnews | 0.0918 | 0.0905 | | | 24.2.2010 | | ||
- | | csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | | | 26.2.2010 | | + | | encs-clean | 0.0913 | 0.0897 | | Joshua 1.1, z trénovacích dat odstraněny věty o 100 a více slovech. | 21.3.2010 | |
- | | ende-allcstem4-tmnews-lmnews | 0.1168 | 0.1114 | | | 26.2.2010 | | + | | encs-josh13 | 0.0878 | 0.0869 | | | 9.3.2010 | |
- | | deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | | | 26.2.2010 | | + | | encs-the | 0.0901 | 0.0863 | | Pokus: ze zdrojové (anglické) strany trénovacích dat byly odstraněny všechny výskyty slova " |
- | | enes-allcstem4-tmnews-lmnews | 0.1742 | | 0.2268 | | 6.3.2010 | | + | | decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | |
- | | esen-allcstem4-tmnews-lmnews | extrakce havarovala | + | | escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | |
- | | enfr-allcstem4-tmnews-lmnews | 0.1991 | 0.2001 | | | 26.2.2010 | | + | | frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | |
- | | fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | | | 26.2.2010 | | + | | csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | 0.1518 (14.2/ |
+ | | csen-clean | 0.1441 | 0.1458 | | | 21.3.2010 | | ||
+ | | csen-josh13 | 0.1420 | 0.1455 | | | 9.3.2010 | | ||
+ | | ende-allcstem4-tmnews-lmnews | 0.1168 | 0.1114 | 0.1199 (11.5/ | ||
+ | | ende-clean | 0.1162 | 0.1118 | | | 21.3.2010 | | ||
+ | | ende-josh13 | 0.1161 | 0.1096 | | | 9.3.2010 | | ||
+ | | deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | 0.1728 (16.1/ | ||
+ | | deen-clean | 0.1718 | 0.1624 | | | 21.3.2010 | | ||
+ | | deen-josh13 | 0.1703 | 0.1616 | | | 9.3.2010 | | ||
+ | | enes-allcstem4-tmnews-lmnews | 0.1954 | 0.1966 | ||
+ | | enes-clean | 0.1953 | 0.1979 | | | 21.3.2010 | | ||
+ | | enes-josh13 | 0.1969 | 0.1978 | | | 9.3.2010 | | ||
+ | | esen-allcstem4-tmnews-lmnews | 0.1945 | ||
+ | | esen-clean | 0.1945 | 0.2023 | | | 21.3.2010 | | ||
+ | | esen-josh13 | 0.1335 | 0.1411 | | Tady je pokles při přechodu na Joshuu 1.3 výraznější než jinde. | 10.3.2010 | | ||
+ | | enfr-allcstem4-tmnews-lmnews | 0.1991 | 0.2001 | 0.2034 (15.7/ | ||
+ | | enfr-clean | 0.1979 | 0.1990 | | | 21.3.2010 | | ||
+ | | enfr-josh13 | 0.1982 | 0.1999 | | | 9.3.2010 | | ||
+ | | fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | 0.1991 (18.9/ | ||
+ | | fren-clean | 0.1873 | 0.2008 | | | 21.3.2010 | | ||
+ | | fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 | | ||
- | ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť. | + | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? |
| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
Line 73: | Line 88: | ||
| obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 použit šestigramový jazykový model místo třígramového. Výsledek je velmi podezřelý (velmi podezřele podobný tomu třígramovému), | | obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 použit šestigramový jazykový model místo třígramového. Výsledek je velmi podezřelý (velmi podezřele podobný tomu třígramovému), | ||
| obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát už dekodér snad ví, že máme šestigram. | 5.3.2010 | | | obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát už dekodér snad ví, že máme šestigram. | 5.3.2010 | | ||
- | | obo-max (encs) | 0.1344 | 0.1300 | | Ondrův maximální paralelní korpus a třígramový jazykový model. | 8.3.2010 | | + | | obo-max(-final) |
| obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | ||
- | ===== Ondřej ===== | + | Na konci srpna 2010 oživuju pokusy s& |
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
- | Ahoj. | + | ===== Pokusy s uvozovkami ===== |
- | S podobnymi podminkami souhlasim, aspon se dozvime vic. | + | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být " |
- | Cili do WMT by mohl jit: | + | '' |
+ | a co historie loňských commitů? | ||
- | - muj moses | + | Podle časových značek u korpusů v '' |
- | - Tvuj joshua | + | |
- | - TectoMT | + | |
- | Moje augmented corpora jsou ~bojar/ | + | ===== Infrastruktura a zarovnání ===== |
- | baseline korpus je | + | Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční. |
- | czeng092-ne | + | |
- | (alignment enNa-lemma-csNa-lemma-gdfa) | + | |
- | maximalni paralelni korpus je | + | ===== Inventura 16.1.2012 ===== |
- | czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2 | + | |
- | (alignment csNm-lemma-enNm-lemma-gdfa) | + | |
- | korpusy pro LM mam zatim rozhrabane a pouzivam zejmena: | + | 16.1.2012 21:12: Pouštím znova pokus '' |
- | wmt10mono2 | + | ===== Eman ===== |
- | pozdeji budou pouzitelne wmt09mono, webcoll a syn200x | + | Ondrův e-mail z& |
- | development korpus je wmt102.test08 | + | musim se pochlubit, ze (az na jeste par much) mam ukazku pouziti emana pro preklad i pro ty, kdo to jeste vubec nezkouseli: |
- | test korpus je wmt102.test09 | + | |
+ | svn co https:// | ||
+ | cd statmt/ | ||
+ | # podivejte se na README | ||
+ | export PATH=$PATH: | ||
+ | eman init binaries | ||
+ | # to jen proto, abyste mohla potvrdit certifikat sourceforge | ||
+ | # a pak uz podle readme spustit mikropokus | ||
+ | SKIP_IRSTLM=yes eman clone --start < eman.samples/ | ||
- | Zdrojovy jazyk je pro mne enNa2+stc. | + | Prikaz: |
- | Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno) | + | |
- | ' | + | eman --man |
- | O. | + | ukaze manualovou stranku |