Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 18:48] zeman created |
user:zeman:deltacorpus [2016/05/10 20:31] zeman Deltacorpus. |
||
---|---|---|---|
Line 6: | Line 6: | ||
* ''/ | * ''/ | ||
* ''/ | * ''/ | ||
+ | * ''/ | ||
* ''/ | * ''/ | ||
Line 13: | Line 14: | ||
* Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | ||
* Posunout se k parsingu (nový článek na PACLIC). | * Posunout se k parsingu (nový článek na PACLIC). | ||
+ | |||
+ | ===== Deltacorpus ===== | ||
+ | |||
+ | Verze 1.0 (2016-03-17) obsahuje 107 jazyků vybraných z W2C. V každém je první milión tokenů (nebo méně, pokud jich W2C neobsahuje milión). Všechny jsou označkované stejným modelem, a to tím, který se při našich pokusech choval v průměru nejlépe: klasifikátor SVM se 17 rysy natrénovaný na směsi c7, tedy na bulharštině, | ||
+ | |||
+ | ===== Obecné poznámky ===== | ||
+ | |||
+ | Zhiweiův kód je v Pythonu a používá jeden nestandardní modul, '' | ||
===== Jak spočítat hodnoty rysů ===== | ===== Jak spočítat hodnoty rysů ===== | ||
- | Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na struktury | + | Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur |
+ | |||
+ | ===== Jak natrénovat a pustit tagger ===== | ||
+ | Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, |