Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2010/03/22 07:48] zeman Výsledky *-clean (Joshua 1.1, maxPhraseLength=5, vyřazeny věty o 100 a více slovech) |
user:zeman:wmt [2012/01/19 08:40] zeman Eman odstěhován. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy s Joshuou na WMT 2010 ====== | + | ====== Danovy pokusy s Joshuou na WMT 2012 ====== |
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
- | |||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Převést všechny pokusy pod Joshuu 1.3. | + | |
+ | * Najít a oživit loňské pokusy s interpunkcí, | ||
+ | | ||
+ | * Konečně převést Joshuu pod Emana. | ||
* Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | ||
* Dotáhnout do konce obo-max. | * Dotáhnout do konce obo-max. | ||
* Při klonování experimentu se musí kopírovat mert/ | * Při klonování experimentu se musí kopírovat mert/ | ||
- | * Upravit test.pl, aby před počítáním BLEU skóre odstraňoval přípony " | + | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat |
- | * Vyrobit end-to-end skript, abych mohl pouštět pokusy s menšími nároky na babysitting. | + | |
- | ===== Příprava korpusů | + | ===== Data ===== |
Vývojová data ('' | Vývojová data ('' | ||
- | ===== Náročnost ===== | + | ==== Ondřejova data ==== |
- | ==== obo-base1 ==== | + | Ondřejovy augmented corpora se nacházejí v& |
- | První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží. | + | Vysvětlení Ondrových pseudojazyků: |
+ | * Znaky za '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
- | ==== obo-base2 ==== | + | Ondřejův maximální paralelní korpus navíc obsahuje další části Czengu a korpus Emea: '' |
- | Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram. | + | Pro český jazykový model chtěl Ondřej později ještě přidat korpusy '' |
- | Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel). | + | Testovací data by měl mít stejná jako já, tj. '' |
- | ==== obo-base3 | + | ===== Náročnost ===== |
- | + | ||
- | Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT. | + | |
==== obo-max ==== | ==== obo-max ==== | ||
Line 41: | Line 47: | ||
Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů! | Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů! | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
===== Výsledky ===== | ===== Výsledky ===== | ||
Line 101: | Line 91: | ||
| obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | ||
- | ===== Ondřej ===== | + | Na konci srpna 2010 oživuju pokusy s& |
- | Ahoj. | + | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | |
- | + | | encs: | |
- | S podobnymi podminkami souhlasim, aspon se dozvime vic. | + | | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm3 | 0.1266 | 0.1150 | | Jako předchozí, |
- | + | | encs: | |
- | Cili do WMT by mohl jit: | + | | encs: |
- | + | | encs: | |
- | - muj moses | + | | encs: |
- | - Tvuj joshua | + | | encs: |
- | - TectoMT | + | | encs: |
- | + | | encs: | |
- | Moje augmented corpora jsou ~bojar/ | + | |
- | + | ||
- | baseline | + | |
- | czeng092-ne | + | |
- | (alignment enNa-lemma-csNa-lemma-gdfa) | + | |
- | maximalni paralelni korpus je | + | ===== Pokusy s uvozovkami ===== |
- | czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2 | + | |
- | (alignment csNm-lemma-enNm-lemma-gdfa) | + | |
- | korpusy pro LM mam zatim rozhrabane | + | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit |
- | wmt10mono2 | + | '' |
+ | a co historie loňských commitů? | ||
- | pozdeji budou pouzitelne wmt09mono, webcoll a syn200x | + | Podle časových značek u korpusů v '' |
- | development korpus je wmt102.test08 | + | ===== Infrastruktura a zarovnání ===== |
- | test korpus je wmt102.test09 | + | |
+ | Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční. | ||
- | Zdrojovy jazyk je pro mne enNa2+stc. | + | ===== Inventura 16.1.2012 ===== |
- | Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno) | + | |
- | ' | + | 16.1.2012 21:12: Pouštím znova pokus ''encs-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011''. Zřejmě to neobsahuje opravené uvozovky (v6b), ale potřebuju zjistit, zda se to vůbec rozběhne. |
- | O. |