Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2010/08/29 18:01] zeman Výsledek. |
user:zeman:wmt [2012/01/22 21:17] zeman Paralelizovaná Giza už mi funguje. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy s Joshuou na WMT 2010 ====== | + | ====== Danovy pokusy s Joshuou na WMT 2012 ====== |
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Převést všechny pokusy pod Joshuu 1.3. | + | |
+ | * Najít a oživit loňské pokusy s interpunkcí, | ||
+ | | ||
+ | * Konečně převést Joshuu pod Emana. | ||
* Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | ||
* Dotáhnout do konce obo-max. | * Dotáhnout do konce obo-max. | ||
* Při klonování experimentu se musí kopírovat mert/ | * Při klonování experimentu se musí kopírovat mert/ | ||
- | * Upravit | + | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny páry získat nové baseliny. |
- | * Vyrobit end-to-end skript, abych mohl pouštět pokusy s menšími nároky | + | |
+ | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3 ===== | ||
+ | |||
+ | 21.1.2012 se vracím k pokusu '' | ||
+ | |||
+ | 22.1.2012 obdobně pouštím také '' | ||
+ | |||
+ | 22.1.2012 '' | ||
+ | |||
+ | ==== Staré záznamy ==== | ||
+ | |||
+ | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? | ||
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
+ | | obo-base1 (encs) | 0.1084 | 0.0990 | | | 3.3.2010 | | ||
+ | | obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 | ||
+ | | obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát už dekodér snad ví, že máme šestigram. | 5.3.2010 | | ||
+ | | obo-max(-final) (encs) | 0.1344 | 0.1300 | 0.1357 (13.4/12.6) | Ondrův maximální paralelní korpus a třígramový jazykový model. | 7.3.2010 | | ||
+ | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | ||
+ | |||
+ | Na konci srpna 2010 oživuju | ||
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
===== Data ===== | ===== Data ===== | ||
Line 39: | Line 73: | ||
===== Náročnost ===== | ===== Náročnost ===== | ||
- | |||
- | ==== obo-base1 ==== | ||
- | |||
- | První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží. | ||
- | |||
- | ==== obo-base2 ==== | ||
- | |||
- | Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram. | ||
- | |||
- | Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel). | ||
- | |||
- | ==== obo-base3 ==== | ||
- | |||
- | Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT. | ||
==== obo-max ==== | ==== obo-max ==== | ||
Line 94: | Line 114: | ||
| fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 | | | fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 | | ||
- | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? | + | ===== Pokusy s uvozovkami ===== |
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | + | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být " |
- | | obo-base1 (encs) | 0.1084 | 0.0990 | | | 3.3.2010 | | + | |
- | | obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 použit | + | |
- | | obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát | + | |
- | | obo-max(-final) (encs) | 0.1344 | 0.1300 | 0.1357 (13.4/12.6) | Ondrův maximální paralelní | + | |
- | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | + | |
- | Na konci srpna 2010 oživuju pokusy s& | + | '' |
+ | a co historie | ||
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | + | Podle časových značek u korpusů v '' |
- | | encs:tmtrain-czeng092ne-lmtrain-czeng092ne-lm3 | 0.1053 | 0.0962 | | Ondrovo párování na lematech, trigram LM pouze z& | + | |
- | | encs: | + | ===== Inventura 16.1.2012 ===== |
+ | |||
+ | 16.1.2012 21:12: Pouštím znova pokus '' | ||
+ | |||
+ | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' | ||
+ | |||
+ | ^ Jazyky ^ BLEU ^ | ||
+ | | en-cs | 0.1191 | | ||
+ | | cs-en | 0.1692 | | ||
+ | | en-de | 0.1337 | | ||
+ | | de-en | 0.1885 | | ||
+ | | en-es | 0.2573 | | ||
+ | | es-en | 0.2446 | | ||
+ | | en-fr | | | ||
+ | | fr-en | 0.2243 | | ||
+ | |||
+ | Od jara mám vytvořené také pokusy s korpusy, ve kterých jsou upravené uvozovky (verze 6b), takže je teď taky pustím. Je to spíš | ||
+ | |||
+ | '' |