[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:deltacorpus [2016/05/10 20:20]
zeman Obecné poznámky.
user:zeman:deltacorpus [2016/05/10 20:31]
zeman Deltacorpus.
Line 14: Line 14:
   * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem.   * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem.
   * Posunout se k parsingu (nový článek na PACLIC).   * Posunout se k parsingu (nový článek na PACLIC).
 +
 +===== Deltacorpus =====
 +
 +Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, katalánštině, němčině, řečtině, hindštině, maďarštině a turečtině; z trénovacích dat každého z těchto jazyků jsme použili prvních 50000 tokenů.
  
 ===== Obecné poznámky ===== ===== Obecné poznámky =====

[ Back to the navigation ] [ Back to the content ]