Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 20:09] zeman |
user:zeman:deltacorpus [2016/05/10 20:20] zeman Obecné poznámky. |
||
---|---|---|---|
Line 14: | Line 14: | ||
* Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | * Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem. | ||
* Posunout se k parsingu (nový článek na PACLIC). | * Posunout se k parsingu (nový článek na PACLIC). | ||
+ | |||
+ | ===== Obecné poznámky ===== | ||
+ | |||
+ | Zhiweiův kód je v Pythonu a používá jeden nestandardní modul, '' | ||
===== Jak spočítat hodnoty rysů ===== | ===== Jak spočítat hodnoty rysů ===== | ||
Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné. | Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné. | ||
+ | |||
+ | ===== Jak natrénovat a pustit tagger ===== | ||
+ | |||
+ | Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, |