Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
| user:zeman:deltacorpus [2016/06/09 10:41] zeman Hotovo. | user:zeman:deltacorpus [2016/06/30 08:46] (current) zeman | ||
|---|---|---|---|
| Line 13: | Line 13: | ||
| ===== TODO ===== | ===== TODO ===== | ||
| - | * Vydat novou verzi Deltacorpusu (mj. jsem ji slíbil v prezentaci na LRECu): | ||
| - | * Kromě '' | ||
| - | * Vyhodnotit úspěšnost nových kombinovaných modelů na testovacích datech (zatím to mám na vývojových datech). | ||
| - | * Ozvat se Vladovi Benkovi s gruzínštinou (k té by se mohl hodit i UniMorph Christo Kirova a Davida Yarowského, | ||
| * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). | * Posunout se k parsingu (nový článek na PACLIC, odložený deadline 12.6.2016). | ||
| * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílů, takže mohl označkovat trénovací i testovací data modelem, který nebyl přímo na těch datech natrénovaný.) | * U parsingu se zatím musíme držet UD 1.2 a nemůžeme přejít na UD 1.3, pokud si sami nenatrénujeme UDPIPE na 1.3. Potřebujeme se umět srovnat s parsingem nad značkami predikovanými supervizovaným modelem, a takové značky máme od Milana k dispozici pro UD 1.2. (Dělal to stylem 9+1 dílů, takže mohl označkovat trénovací i testovací data modelem, který nebyl přímo na těch datech natrénovaný.) | ||
| Line 26: | Line 22: | ||
| * Technická delexikalizace: | * Technická delexikalizace: | ||
| * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich. | * K delexikalizovanému parsingu na deltaznačkách přidat ty jazykově nezávislé meta-rysy, třeba se parser něco naučí na nich. | ||
| + | * Tagger, který má k dispozici 50 nejčastějších slov rozhodnutých ručně (šlo by nasimulovat tím, že je prostě řekneme správně podle zlatého standardu). | ||
| * Bude-li to vypadat smysluplně, | * Bude-li to vypadat smysluplně, | ||
| * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, | * Srovnat se s rychloanotací cílového jazyka. Třeba 20 vět, lexikalizovaných, | ||
