[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser [2007/03/28 12:52]
zeman Udělat - technické programy.
user:zeman:dz-parser [2007/03/28 14:59]
zeman Model syntaktických značek.
Line 19: Line 19:
     * Angličtina (větev adaptace na novou doménu)?     * Angličtina (větev adaptace na novou doménu)?
     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
 +  * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako |.
   * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.   * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
Line 75: Line 76:
  
 A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.
 +
 +Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách.
 +
 +<code>atrain.pl < /net/data/conll/2007/czech/pdt/csdtrain.csts > cs.astat</code>
  
 ==== Čínština ==== ==== Čínština ====

[ Back to the navigation ] [ Back to the content ]