[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:deltacorpus [2016/05/10 21:19]
zeman Plán nové verze Deltacorpusu.
user:zeman:deltacorpus [2016/06/01 18:06]
zeman
Line 11: Line 11:
 ===== TODO ===== ===== TODO =====
  
-  * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na slovanskérespgermánské nebo románské jazyky. Vyhodnotit úspěšnost na testovacích datech a vydat opravený DeltacorpusPokud možno ještě pred LRECem+  * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): 
-  * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3Rovněž pokud možno ed LRECem+    * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků. 
-  * Posunout se k parsingu (nový článek na PACLIC).+    * Opustit HamleDT 2.0přejít na Universal Dependencies (zatím verzi 1.2 kvůli kompatibilitě s dalšími projekty). 
 +    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech. 
 +  * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/)
 +  * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). 
 +    * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílůtakže mohl označkovat trénovací i testovací data modelem, který nebyl ímo na těch datech natrénovaný.
 +    * Trénovací i testovací treebank obsahuje deltaznačky, žádné rysy, žádná slova ani lemmata. 
 +    * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala. 
 +    * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, i zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.) 
 +  * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků. 
 +  * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde. 
 +  * Obdobně je zajímavá rychloanotace u značek, viz Cucerzan and Yarowsky 2002. Vybrat 100 nejčastějších slov, dát jim značky. 
 +  * Článek
 +    * Citovat Loganathana (použil delex na indické jazyky)
 +    * Citovat Teresu Lynn (použila to přímo k urychlení tvorby irského treebanku). 
 +    * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru). 
 +    * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé.
  
 ===== Deltacorpus ===== ===== Deltacorpus =====

[ Back to the navigation ] [ Back to the content ]