Deltacorpus

Delexicalized tagging and parsing.

Cesty na disku:

/home/zhiwai/pos … zde zůstal Zhiweiův kód
/home/marecek/listr/delex_pos … zde to dále rozvíjí David
- /home/marecek/listr/ud_delex_pos … vylepšené makefily a data z Universal Dependencies 1.2
/net/work/people/zeman/delextag … zde to dále rozvíjí Dan

TODO

Kromě c7 natrénovat ještě další kombinované modely cílené na slovanské, resp. germánské nebo románské jazyky. Vyhodnotit úspěšnost na testovacích datech a vydat opravený Deltacorpus. Pokud možno ještě pred LRECem.
Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem.
Posunout se k parsingu (nový článek na PACLIC).

Obecné poznámky

Zhiweiův kód je v Pythonu a používá jeden nestandardní modul, regex. Lze ho doinstalovat pomocí pythonovského nástroje pip; ten lze zase nainstalovat jako balíček pro Ubuntu. Při instalaci pipem lze přidat volbu –user, která způsobí, že modul se nainstaluje do domovské složky aktuálního uživatele, nevyžaduje tedy přístup do systémových oblastí disku.

Jak spočítat hodnoty rysů

Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.

Jak natrénovat a pustit tagger

Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, nikam ho neukládal a hned ho aplikoval na testovací data. Klasifikátorů měl několik různých (např. SVM nebo KNN), ale žádný z nich nebral v úvahu kontext. Klasickým taggerům posloupností se to tedy moc nepodobalo. Slova by mohla být klidně seřazená abecedně jako ve slovníku a každé by dostalo právě jednu značku.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Deltacorpus

TODO

Obecné poznámky

Jak spočítat hodnoty rysů

Jak natrénovat a pustit tagger