[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:dz-parser [2007/05/15 10:42]
zeman Odkazy na cizí parsery z To Do Listu.
user:zeman:dz-parser [2007/05/18 16:24] (current)
zeman To do: neztrácet atributy slova ze vstupu.
Line 5: Line 5:
 <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code> <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
  
-  * [[user:zeman:dz-parser:atrain-a-aclass|atrain a aclass]] +Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře. 
-  * [[user:zeman:dz-parser:csts.pm|csts.pm]] + 
-  * [[user:zeman:dz-parser:vystupy.pm|vystupy.pm]]+  * [[user:zeman:dz-parser:programatorska-dokumentace|Programátorská dokumentace]] 
 +  * [[user:zeman:dz-parser:vstup-a-vystup|Vstup a výstup]]
   * [[user:zeman:dz-parser:vysledky|Výsledky]]   * [[user:zeman:dz-parser:vysledky|Výsledky]]
 +  * [[user:zeman:dz-parser:atrain-a-aclass|Přiřazování syntaktických značek (analytických funkcí)]]
   * [[user:zeman:dz-parser:conll|CoNLL]]   * [[user:zeman:dz-parser:conll|CoNLL]]
  
 ===== To do ===== ===== To do =====
  
 +  * Na začátku čtení slova si zapamatovat pole všech SGML prvků na jeho řádku (prvek, atributy, hodnota; v podstatě asi stačí tohle všechno v jednom řetězci). Při vypisování slova to tam všechno netknuté vypsat! Jediné, co ke slovu přidává DZ Parser, je značka <MDg src="dz">. (Tu případně na vstupu umazat.) Pak ještě <MDA src="dz">, pokud pouštíme aclass.pl.
   * CoNLL 2007   * CoNLL 2007
     * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.     * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
Line 23: Line 26:
     * Angličtina (větev adaptace na novou doménu)?     * Angličtina (větev adaptace na novou doménu)?
     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
-  * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to můžuškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako &verbar;+  * Následující už je asi vyřeno, ale je třeba to zdokumentovat: Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
-  * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.+
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.

[ Back to the navigation ] [ Back to the content ]