Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 20:31] zeman Deltacorpus. |
user:zeman:deltacorpus [2016/05/10 21:19] zeman Plán nové verze Deltacorpusu. |
||
---|---|---|---|
Line 18: | Line 18: | ||
Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, | Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, | ||
+ | |||
+ | Více než polovina jazyků v Deltacorpusu je indoevropských, | ||
+ | * Pro baltoslovanské jazyky bulharštinu, | ||
+ | * Pro germánské jazyky němčinu, angličtinu a švédštinu. | ||
+ | * Pro románské jazyky katalánštinu, | ||
+ | * Lze ještě uvažovat o tom, že | ||
+ | * pro ostatní indoevropské jazyky, pro semitské jazyky, svahilštinu a také pro všechny umělé jazyky použijeme směs indoevropských jazyků, tj. z původního c7 vyhodíme maďarštinu a turečtinu a nahradíme je třeba češtinou a portugalštinou; | ||
+ | * pro aglutinační jazyky (uralské, turkické, altajské, drávidské, | ||
+ | * zbývající jazyky (nevarština, | ||
+ | |||
+ | Tyhle nové trénovací směsi bychom samozřejmě měli opět vyhodnotit na testovacích jazycích, které máme k dispozici. V článku bylo 19 testovacích jazyků, ale vynechal bych bengálštinu a telugštinu, | ||
===== Obecné poznámky ===== | ===== Obecné poznámky ===== |