Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2010/08/30 09:53] zeman Pokus obo-base3 už nemá smysl schovávat. |
user:zeman:wmt [2012/01/19 21:28] zeman Inventurní výsledky. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy s Joshuou na WMT 2010 ====== | + | ====== Danovy pokusy s Joshuou na WMT 2012 ====== |
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Převést všechny pokusy pod Joshuu 1.3. | + | |
+ | * Najít a oživit loňské pokusy s interpunkcí, | ||
+ | | ||
+ | * Konečně převést Joshuu pod Emana. | ||
* Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | ||
* Dotáhnout do konce obo-max. | * Dotáhnout do konce obo-max. | ||
* Při klonování experimentu se musí kopírovat mert/ | * Při klonování experimentu se musí kopírovat mert/ | ||
- | * Upravit test.pl, aby před počítáním BLEU skóre odstraňoval přípony " | + | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat |
- | * Vyrobit end-to-end skript, abych mohl pouštět pokusy s menšími nároky na babysitting. | + | |
===== Data ===== | ===== Data ===== | ||
Line 97: | Line 99: | ||
| encs: | | encs: | ||
| encs: | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | | encs: | ||
+ | |||
+ | ===== Pokusy s uvozovkami ===== | ||
+ | |||
+ | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být " | ||
+ | |||
+ | '' | ||
+ | a co historie loňských commitů? | ||
+ | |||
+ | Podle časových značek u korpusů v '' | ||
+ | |||
+ | ===== Infrastruktura a zarovnání ===== | ||
+ | |||
+ | Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční. | ||
+ | |||
+ | ===== Inventura 16.1.2012 ===== | ||
+ | |||
+ | 16.1.2012 21:12: Pouštím znova pokus '' | ||
+ | |||
+ | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' | ||
+ | |||
+ | ^ Jazyky ^ BLEU ^ | ||
+ | | en-cs | 0.1191 | | ||
+ | | cs-en | 0.1692 | | ||
+ | | en-de | 0.1337 | | ||
+ | | de-en | 0.1885 | | ||
+ | | en-es | 0.2573 | | ||
+ | | es-en | 0.2446 | | ||
+ | | en-fr | | | ||
+ | | fr-en | 0.2243 | | ||
+ |