Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 20:15] zeman Jak natrénovat a pustit tagger. |
user:zeman:deltacorpus [2016/05/10 20:31] zeman Deltacorpus. |
||
---|---|---|---|
Line 14: | Line 14: | ||
* Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | ||
* Posunout se k parsingu (nový článek na PACLIC). | * Posunout se k parsingu (nový článek na PACLIC). | ||
+ | |||
+ | ===== Deltacorpus ===== | ||
+ | |||
+ | Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, | ||
+ | |||
+ | ===== Obecné poznámky ===== | ||
+ | |||
+ | Zhiweiův kód je v Pythonu a používá jeden nestandardní modul, '' | ||
===== Jak spočítat hodnoty rysů ===== | ===== Jak spočítat hodnoty rysů ===== |