Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
user:zeman:deltacorpus [2016/06/01 18:06] zeman |
user:zeman:deltacorpus [2016/06/09 10:41] zeman Hotovo. |
||
---|---|---|---|
Line 2: | Line 2: | ||
Delexicalized tagging and parsing. | Delexicalized tagging and parsing. | ||
+ | |||
+ | https:// | ||
Cesty na disku: | Cesty na disku: | ||
Line 13: | Line 15: | ||
* Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): | * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): | ||
* Kromě '' | * Kromě '' | ||
- | | + | * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech |
- | | + | |
* Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, | * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, | ||
* Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). | * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). | ||
Line 21: | Line 22: | ||
* Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala. | * Pro každý jazyk je třeba rozhodnout, kterému deltamodelu věříme. A samozřejmě potřebujeme vždy takovou modifikaci, aby trénovací data deltamodelu neobsahovala dotyčný jazyk. Na tom už se pracuje. c7 pro všechny už jsem vyzkoušel a dopadlo to katastrofálně. Ale je možné, že jsem použil značky z HamleDTa a nasadil je na UD, tím by se část katastrofy vysvětlovala. | ||
* I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, při zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.) | * I u parsingu vyzkoušet multi-source transfer, tj. na zdrojové straně je směs několika jazyků vybraných podle různých kritérií. (Pozor, při zkoumání učicí křivky beru prvních N vět, tak aby u té směsi nebyly všechny ze stejného jazyka, musela by být směs nějak pravidelně prokládaná.) | ||
+ | * Zkusit delexikalizovaný parsing bez jazykově závislých relací, tj. vyhodit dvojtečku a vše za ní. Měříme sice UAS, ale nějakou roli to může hrát při trénování. | ||
+ | * Zkusit delexikalizovaný parsing zcela bez rysů. U deltaznaček už to tak máme, ale u Milanem predikovaných a u zlatých dat ještě ne. | ||
+ | * Technická delexikalizace: | ||
+ | * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich. | ||
* Bude-li to vypadat smysluplně, | * Bude-li to vypadat smysluplně, | ||
* Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, | * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, | ||
Line 29: | Line 34: | ||
* Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru). | * Citovat Rudu Rosu (algoritmus výběru vhodného zdrojového jazyka; váhy v MST parseru). | ||
* Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé. | * Vůbec by neškodilo vyhodnotit to na více parserech. Nebo alespoň přidat nivreeager + liblinear, je to rychlé. | ||
+ | * Analýza chyb (u deltaznaček zopakovat, protože máme nová data; u delparsingu jsme ji zatím nedělali). | ||
===== Deltacorpus ===== | ===== Deltacorpus ===== |