[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/04 17:25]
zeman Odkaz na WMT 2012.
user:zeman:wmt [2012/02/04 18:16]
zeman Čeština s němčinou, španělštinou a francouzštinou.
Line 54: Line 54:
  
 Testovací data by měl mít stejná jako já, tj. ''wmt102.test08'' pro MERT a ''wmt102.test09'' pro testování. Testovací data by měl mít stejná jako já, tj. ''wmt102.test08'' pro MERT a ''wmt102.test09'' pro testování.
- 
-===== Výsledky ===== 
- 
-Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model. U testu WMT 2010 se jako základní uvádí BLEU skóre, které mi spočítal Joshua, v závorce pak skóre, které mi spočítali organizátoři, lowercase / truecase. Hodnoty se někdy výrazně liší, zřejmě kvůli odlišné tokenizaci. 
- 
-| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | 
-| decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | 
-| escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | 
-| frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | 
  
 ===== Pokusy s uvozovkami ===== ===== Pokusy s uvozovkami =====
Line 168: Line 159:
 (Ondřej měl s Mosesem asi 0.1230.) (Ondřej měl s Mosesem asi 0.1230.)
 Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre.
 +
 +===== Čeština s němčinou, španělštinou a francouzštinou =====
 +
 +Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v dotyčných jazycích v páru s angličtinou.
 +
 +Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model. U testu WMT 2010 se jako základní uvádí BLEU skóre, které mi spočítal Joshua, v závorce pak skóre, které mi spočítali organizátoři, lowercase / truecase. Hodnoty se někdy výrazně liší, zřejmě kvůli odlišné tokenizaci.
 +
 +| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** |
 +| decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 |
 +| escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 |
 +| frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 |
  

[ Back to the navigation ] [ Back to the content ]