Deltacorpus

Delexicalized tagging and parsing.

Cesty na disku:

/home/zhiwai/pos … zde zůstal Zhiweiův kód
/home/marecek/listr/delex_pos … zde to dále rozvíjí David
/net/work/people/zeman/delextag … zde to dále rozvíjí Dan

TODO

Kromě c7 natrénovat ještě další kombinované modely cílené na slovanské, resp. germánské nebo románské jazyky. Vyhodnotit úspěšnost na testovacích datech a vydat opravený Deltacorpus. Pokud možno ještě pred LRECem.
Místo HamleDTu 3.0 to celé vyzkoušet na Universal Dependencies 1.2, případně dokonce 1.3. Rovněž pokud možno před LRECem.
Posunout se k parsingu (nový článek na PACLIC).

Jak spočítat hodnoty rysů

Rysy se získávají z velkého neanotovaného korpusu, v našem případě typicky z W2C. Výstupem je slovník, který pro každé slovo (typ) dodá hodnoty rysů. Na základě tohoto slovníku můžeme převést libovolný nový text daného jazyka na posloupnost struktur rysů. Některá slova budou OOV a nedostanou žádné rysy. Alternativně bychom je mohli přilepit k W2C a spočítat rysy i s nimi, ale to by bylo náročné.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Deltacorpus

TODO

Jak spočítat hodnoty rysů