[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:tsd2010 [2010/03/23 08:01]
zeman Předcházející pokusy zopakujeme s Joshuou 1.1.
user:zeman:tsd2010 [2010/06/01 11:59]
zeman encs-verbparticle do tabulky.
Line 17: Line 17:
 | **Pokus** | **Dev WMT08** | **Test WMT09** | **Poznámka** | **Datum** | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Poznámka** | **Datum** |
 | encs-clean | 0.0913 | 0.0897 | | 21.3.2010 | | encs-clean | 0.0913 | 0.0897 | | 21.3.2010 |
-| encs-articles | | | Z anglické strany vypuštěny určité i neurčité členy. | | +| encs-articles | 0.0921 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. | 23.3.2010 
-| encs-subject1 | | | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/Sb''. | | +| encs-subject1 | 0.0891 0.0880 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/Sb''. | | 
-| encs-adjective | | | K anglickým přídavným jménům se připojuje ''/JJ''. Mohli bychom zkusit ještě třetí věc, značkovat atributy, ale pouze ty, které leží před podstatným jménem a samy nemají žádné děti. | |+| encs-adjective | 0.0913 0.0893 | K anglickým přídavným jménům se připojuje ''/JJ''. Mohli bychom zkusit ještě třetí věc, značkovat atributy, ale pouze ty, které leží před podstatným jménem a samy nemají žádné děti. | 
 + 
 +4.5.2010 pouštím další pokus ''verbparticle'', kde se slovesná částice přisunuje ke slovesu, např. "wake him up" -> "wake up him". Kvůli odlišné tokenizaci ale parser dělá chyby, když později ve větě vidí slovo, které by mohlo fungovat jako slovesná částice, bezhlavě ho připojí ke slovesu, i když by mohl poznat, že je to předložka nebo částice od něčeho jiného (třeba je tam rozdělený výraz "spin - off", on vezme to "off" a zavěsí ho na sloveso, které se nachází nalevo od spin-offu). Zachování odlišné tokenizace skrz parsing je skoro námět na článek :-). Zatím běží strojový překlad s přisunutými částicemi. Mohl bych ještě zkusit úplně slepit částici se slovesem (např. pomocí podtržítka). 
 + 
 +30.5.2010: verbparticle, Joshua 1.1: devbleu = 0.0880, testbleu = 0.0864. 
 + 
 +Nové pokusy před odesláním konečné verze článku. Joshua verze 1.1, ale čištění od dlouhých vět už probíhá jako u verze 1.3. 
 + 
 +| **Pokus** | **Dev WMT08** | **Test WMT09** | **Poznámka** | **Datum** | 
 +| encs | 0.0916 | 0.0891 | | 31.5.2010 | 
 +| encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | 
 +| encs-subject | 0.0891 | 0.0864 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/Sb''. U starších experimentů jsem tohle označoval jako ''subject1'', ale tehdejší ''subject'' bez indexu už je stejně zapomenut. | 31.5.2010 | 
 +| encs-articles-subject | 0.0859 | 0.0851 | Kombinace transformací ''articles'' a ''subject''. | 31.5.2010 | 
 +| encs-verbparticle | 0.0880 | 0.0864 | Viz výše. | 30.5.2010 | 
 +| enhi | 0.1116 | 0.1230 | | 31.5.2010 | 
 +| enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | 
 +| enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 |
  

[ Back to the navigation ] [ Back to the content ]