[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:deltacorpus [2016/06/01 18:06]
zeman
user:zeman:deltacorpus [2016/06/09 10:41]
zeman Hotovo.
Line 2: Line 2:
  
 Delexicalized tagging and parsing. Delexicalized tagging and parsing.
 +
 +https://github.com/ufal/deltacorpus
  
 Cesty na disku: Cesty na disku:
Line 13: Line 15:
   * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu):   * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu):
     * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků.     * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků.
-    * Opustit HamleDT 2.0, přejít na Universal Dependencies (zatím verzi 1.2 kvůli kompatibilitě s dalšími projekty). +    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech (zatím to mám na vývojových datech).
-    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech.+
   * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/).   * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/).
   * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016).   * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016).
Line 21: Line 22:
     * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala.     * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala.
     * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, při zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.)     * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, při zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.)
 +    * Zkusit delexikalizovaný parsing bez jazykově závislých relací, tj. vyhodit dvojtečku a vše za ní. Měříme sice UAS, ale nějakou roli to může hrát při trénování.
 +    * Zkusit delexikalizovaný parsing zcela bez rysů. U deltaznaček už to tak máme, ale u Milanem predikovaných a u zlatých dat ještě ne.
 +    * Technická delexikalizace: interpunkci částečně nechat (jen trochu sjednotit) a čísla převést na 000.
 +    * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich.
   * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků.   * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků.
   * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde.   * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde.
Line 29: Line 34:
     * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru).     * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru).
     * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé.     * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé.
 +    * Analýza chyb (u deltaznaček zopakovat, protože máme nová data; u delparsingu jsme ji zatím nedělali).
  
 ===== Deltacorpus ===== ===== Deltacorpus =====

[ Back to the navigation ] [ Back to the content ]