[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:deltacorpus [2016/05/10 18:49]
zeman
user:zeman:deltacorpus [2016/05/10 20:15]
zeman Jak natrénovat a pustit tagger.
Line 6: Line 6:
   * ''/home/zhiwai/pos'' ... zde zůstal Zhiweiův kód   * ''/home/zhiwai/pos'' ... zde zůstal Zhiweiův kód
   * ''/home/marecek/listr/delex_pos'' ... zde to dále rozvíjí David   * ''/home/marecek/listr/delex_pos'' ... zde to dále rozvíjí David
 +    * ''/home/marecek/listr/ud_delex_pos'' ... vylepšené makefily a data z Universal Dependencies 1.2
   * ''/net/work/people/zeman/delextag'' ... zde to dále rozvíjí Dan   * ''/net/work/people/zeman/delextag'' ... zde to dále rozvíjí Dan
  
Line 18: Line 19:
 Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné. Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.
  
 +===== Jak natrénovat a pustit tagger =====
 +
 +Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, nikam ho neukládal a hned ho aplikoval na testovací data. Klasifikátorů měl několik různých (např. SVM nebo KNN), ale žádný z nich nebral v úvahu kontext. Klasickým taggerům posloupností se to tedy moc nepodobalo. Slova by mohla být klidně seřazená abecedně jako ve slovníku a každé by dostalo právě jednu značku.

[ Back to the navigation ] [ Back to the content ]