[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:deltacorpus [2016/06/01 18:14]
zeman TODO
user:zeman:deltacorpus [2016/06/30 08:46] (current)
zeman
Line 13: Line 13:
 ===== TODO ===== ===== TODO =====
  
-  * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): 
-    * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků. 
-    * Opustit HamleDT 2.0, přejít na Universal Dependencies (zatím verzi 1.2 kvůli kompatibilitě s dalšími projekty). 
-    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech. 
-  * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/). 
   * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016).   * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016).
     * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílů, takže mohl označkovat trénovací i testovací data modelem, který nebyl přímo na těch datech natrénovaný.)     * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílů, takže mohl označkovat trénovací i testovací data modelem, který nebyl přímo na těch datech natrénovaný.)
Line 27: Line 22:
     * Technická delexikalizace: interpunkci částečně nechat (jen trochu sjednotit) a čísla převést na 000.     * Technická delexikalizace: interpunkci částečně nechat (jen trochu sjednotit) a čísla převést na 000.
     * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich.     * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich.
 +    * Tagger, který má k dispozici 50 nejčastějších slov rozhodnutých ručně (šlo by nasimulovat tím, že je prostě řekneme správně podle zlatého standardu).
   * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků.   * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků.
   * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde.   * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde.

[ Back to the navigation ] [ Back to the content ]