[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:deltacorpus [2016/05/10 18:48]
zeman created
user:zeman:deltacorpus [2016/05/10 20:15]
zeman Jak natrénovat a pustit tagger.
Line 6: Line 6:
   * ''/home/zhiwai/pos'' ... zde zůstal Zhiweiův kód   * ''/home/zhiwai/pos'' ... zde zůstal Zhiweiův kód
   * ''/home/marecek/listr/delex_pos'' ... zde to dále rozvíjí David   * ''/home/marecek/listr/delex_pos'' ... zde to dále rozvíjí David
 +    * ''/home/marecek/listr/ud_delex_pos'' ... vylepšené makefily a data z Universal Dependencies 1.2
   * ''/net/work/people/zeman/delextag'' ... zde to dále rozvíjí Dan   * ''/net/work/people/zeman/delextag'' ... zde to dále rozvíjí Dan
  
Line 16: Line 17:
 ===== Jak spočítat hodnoty rysů ===== ===== Jak spočítat hodnoty rysů =====
  
-Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na struktury rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.+Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.
  
 +===== Jak natrénovat a pustit tagger =====
 +
 +Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, nikam ho neukládal a hned ho aplikoval na testovací data. Klasifikátorů měl několik různých (např. SVM nebo KNN), ale žádný z nich nebral v úvahu kontext. Klasickým taggerům posloupností se to tedy moc nepodobalo. Slova by mohla být klidně seřazená abecedně jako ve slovníku a každé by dostalo právě jednu značku.

[ Back to the navigation ] [ Back to the content ]