Differences

This shows you the differences between two versions of the page.

--- user:zeman:deltacorpus [2016/06/01 18:06]
zeman
+++ user:zeman:deltacorpus [2016/06/09 10:41]
zeman Hotovo.
@@ Line 2: / Line 2: @@
 Delexicalized tagging and parsing.
+https://github.com/ufal/deltacorpus
 Cesty na disku:
@@ Line 13: / Line 15: @@
   * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu):
     * Kromě ''c7'' natrénovat ještě další kombinované modely cílené na konkrétní skupiny jazyků.
-    * Opustit HamleDT 2.0, přejít na Universal Dependencies (zatím verzi 1.2 kvůli kompatibilitě s dalšími projekty).
+    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech (zatím to mám na vývojových datech).
-    * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech.
   * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, http://github.com/ckirov/UniMorph/).
   * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016).
@@ Line 21: / Line 22: @@
     * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala.
     * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, při zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.)
+    * Zkusit delexikalizovaný parsing bez jazykově závislých relací, tj. vyhodit dvojtečku a vše za ní. Měříme sice UAS, ale nějakou roli to může hrát při trénování.
+    * Zkusit delexikalizovaný parsing zcela bez rysů. U deltaznaček už to tak máme, ale u Milanem predikovaných a u zlatých dat ještě ne.
+    * Technická delexikalizace: interpunkci částečně nechat (jen trochu sjednotit) a čísla převést na 000.
+    * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich.
   * Bude-li to vypadat smysluplně, vydat parsebank těch 107 jazyků.
   * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, ale bez značek (protože nemáme tagger). Klidně s pomocí Google Translate tam, kde to jde.
@@ Line 29: / Line 34: @@
     * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru).
     * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé.
+    * Analýza chyb (u deltaznaček zopakovat, protože máme nová data; u delparsingu jsme ji zatím nedělali).
 ===== Deltacorpus =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences