[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:deltacorpus [2016/05/10 21:19]
zeman Plán nové verze Deltacorpusu.
user:zeman:deltacorpus [2016/06/01 18:05]
zeman TODO
Line 11: Line 11:
 ===== TODO ===== ===== TODO =====
  
-  * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na slovanskérespgermánské nebo románské jazyky. Vyhodnotit úspěšnost na testovacích datech a vydat opravený DeltacorpusPokud možno ještě pred LRECem+  * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): 
-  * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3Rovněž pokud možno ed LRECem+    * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků. 
-  * Posunout se k parsingu (nový článek na PACLIC).+    * Opustit HamleDT 2.0přejít na Universal Dependencies (zatím verzi 1.2 kvůli kompatibilitě s dalšími projekty). 
 +    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech. 
 +  * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/)
 +  * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). 
 +    * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílůtakže mohl označkovat trénovací i testovací data modelem, který nebyl ímo na těch datech natrénovaný.
 +    * Trénovací i testovací treebank obsahuje deltaznačky, žádné rysy, žádná slova ani lemmata. 
 +    * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala. 
 +    * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, i zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.) 
 +  * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde. 
 +  * Obdobně je zajímavá rychloanotace u značek, viz Cucerzan and Yarowsky 2002. Vybrat 100 nejčastějších slov, dát jim značky. 
 +  * Článek
 +    * Citovat Loganathana (použil delex na indické jazyky)
 +    * Citovat Teresu Lynn (použila to přímo k urychlení tvorby irského treebanku). 
 +    * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru). 
 +    * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé.
  
 ===== Deltacorpus ===== ===== Deltacorpus =====

[ Back to the navigation ] [ Back to the content ]