Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:tsd2010 [2010/05/04 11:10] zeman verbparticle |
user:zeman:tsd2010 [2010/05/31 16:47] zeman enhi-articles nic nezměnilo. |
| |
4.5.2010 pouštím další pokus ''verbparticle'', kde se slovesná částice přisunuje ke slovesu, např. "wake him up" -> "wake up him". Kvůli odlišné tokenizaci ale parser dělá chyby, když později ve větě vidí slovo, které by mohlo fungovat jako slovesná částice, bezhlavě ho připojí ke slovesu, i když by mohl poznat, že je to předložka nebo částice od něčeho jiného (třeba je tam rozdělený výraz "spin - off", on vezme to "off" a zavěsí ho na sloveso, které se nachází nalevo od spin-offu). Zachování odlišné tokenizace skrz parsing je skoro námět na článek :-). Zatím běží strojový překlad s přisunutými částicemi. Mohl bych ještě zkusit úplně slepit částici se slovesem (např. pomocí podtržítka). | 4.5.2010 pouštím další pokus ''verbparticle'', kde se slovesná částice přisunuje ke slovesu, např. "wake him up" -> "wake up him". Kvůli odlišné tokenizaci ale parser dělá chyby, když později ve větě vidí slovo, které by mohlo fungovat jako slovesná částice, bezhlavě ho připojí ke slovesu, i když by mohl poznat, že je to předložka nebo částice od něčeho jiného (třeba je tam rozdělený výraz "spin - off", on vezme to "off" a zavěsí ho na sloveso, které se nachází nalevo od spin-offu). Zachování odlišné tokenizace skrz parsing je skoro námět na článek :-). Zatím běží strojový překlad s přisunutými částicemi. Mohl bych ještě zkusit úplně slepit částici se slovesem (např. pomocí podtržítka). |
| |
| 30.5.2010: verbparticle, Joshua 1.1: devbleu = 0.0880, testbleu = 0.0864. |
| |
| Nové pokusy před odesláním konečné verze článku. Joshua verze 1.1, ale čištění od dlouhých vět už probíhá jako u verze 1.3. |
| |
| | **Pokus** | **Dev WMT08** | **Test WMT09** | **Poznámka** | **Datum** | |
| | encs | 0.0916 | 0.0891 | | 31.5.2010 | |
| | encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | |
| | enhi | 0.1116 | 0.1230 | | 31.5.2010 | |
| | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | |
| |