Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 20:20] zeman Obecné poznámky. |
user:zeman:deltacorpus [2016/05/10 21:19] zeman Plán nové verze Deltacorpusu. |
||
---|---|---|---|
Line 14: | Line 14: | ||
* Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | ||
* Posunout se k parsingu (nový článek na PACLIC). | * Posunout se k parsingu (nový článek na PACLIC). | ||
+ | |||
+ | ===== Deltacorpus ===== | ||
+ | |||
+ | Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, | ||
+ | |||
+ | Více než polovina jazyků v Deltacorpusu je indoevropských, | ||
+ | * Pro baltoslovanské jazyky bulharštinu, | ||
+ | * Pro germánské jazyky němčinu, angličtinu a švédštinu. | ||
+ | * Pro románské jazyky katalánštinu, | ||
+ | * Lze ještě uvažovat o tom, že | ||
+ | * pro ostatní indoevropské jazyky, pro semitské jazyky, svahilštinu a také pro všechny umělé jazyky použijeme směs indoevropských jazyků, tj. z původního c7 vyhodíme maďarštinu a turečtinu a nahradíme je třeba češtinou a portugalštinou; | ||
+ | * pro aglutinační jazyky (uralské, turkické, altajské, drávidské, | ||
+ | * zbývající jazyky (nevarština, | ||
+ | |||
+ | Tyhle nové trénovací směsi bychom samozřejmě měli opět vyhodnotit na testovacích jazycích, které máme k dispozici. V článku bylo 19 testovacích jazyků, ale vynechal bych bengálštinu a telugštinu, | ||
===== Obecné poznámky ===== | ===== Obecné poznámky ===== |