This is an old revision of the document!
Table of Contents
Deltacorpus
Delexicalized tagging and parsing.
Cesty na disku:
/home/zhiwai/pos
… zde zůstal Zhiweiův kód/home/marecek/listr/delex_pos
… zde to dále rozvíjí David/home/marecek/listr/ud_delex_pos
… vylepšené makefily a data z Universal Dependencies 1.2
/net/work/people/zeman/delextag
… zde to dále rozvíjí Dan
TODO
- Kromě
c7
natrénovat ještě další kombinované modely cílené na slovanské, resp. germánské nebo románské jazyky. Vyhodnotit úspěšnost na testovacích datech a vydat opravený Deltacorpus. Pokud možno ještě pred LRECem. - Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem.
- Posunout se k parsingu (nový článek na PACLIC).
Obecné poznámky
Zhiweiův kód je v Pythonu a používá jeden nestandardní modul, regex
. Lze ho doinstalovat pomocí pythonovského nástroje pip
; ten lze zase nainstalovat jako balíček pro Ubuntu. Při instalaci pipem lze přidat volbu –user
, která způsobí, že modul se nainstaluje do domovské složky aktuálního uživatele, nevyžaduje tedy přístup do systémových oblastí disku.
Jak spočítat hodnoty rysů
Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.
Jak natrénovat a pustit tagger
Zhiwei dělal obojí v jednom kroku. Prošel trénovací data, natrénoval klasifikátor, nikam ho neukládal a hned ho aplikoval na testovací data. Klasifikátorů měl několik různých (např. SVM nebo KNN), ale žádný z nich nebral v úvahu kontext. Klasickým taggerům posloupností se to tedy moc nepodobalo. Slova by mohla být klidně seřazená abecedně jako ve slovníku a každé by dostalo právě jednu značku.