Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:deltacorpus [2016/05/10 18:49] zeman |
user:zeman:deltacorpus [2016/05/10 20:15] zeman Jak natrénovat a pustit tagger. |
||
---|---|---|---|
Line 6: | Line 6: | ||
* ''/ | * ''/ | ||
* ''/ | * ''/ | ||
+ | * ''/ | ||
* ''/ | * ''/ | ||
Line 18: | Line 19: | ||
Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné. | Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné. | ||
+ | ===== Jak natrénovat a pustit tagger ===== | ||
+ | |||
+ | Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, |