Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser [2007/03/28 12:47] zeman Udělat - CoNLL 2007. |
user:zeman:dz-parser [2007/03/28 13:30] zeman |
||
---|---|---|---|
Line 9: | Line 9: | ||
* CoNLL 2007 | * CoNLL 2007 | ||
* Napsat program, který na základě závislostí (ručních nebo naučených), | * Napsat program, který na základě závislostí (ručních nebo naučených), | ||
+ | * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL. | ||
+ | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
* Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | ||
* Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. | * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. | ||
Line 14: | Line 16: | ||
* Totéž, ale navíc rys pád. | * Totéž, ale navíc rys pád. | ||
* Učit se na morfologických značkách překódovaných do sady PDT. | * Učit se na morfologických značkách překódovaných do sady PDT. | ||
+ | * Kombinace parserů (Brown, McDonald, Stanford). | ||
* Angličtina (větev adaptace na novou doménu)? | * Angličtina (větev adaptace na novou doménu)? | ||
* Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
+ | * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako & | ||
* Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | ||
* Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. |