Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser [2007/03/28 16:38]
zeman Odkazy na podstránky.
+++ user:zeman:dz-parser [2007/05/18 16:24] (current)
zeman To do: neztrácet atributy slova ze vstupu.
@@ Line 5: / Line 5: @@
 <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
-  * [[user:zeman:dz-parser:vystupy.pm|vystupy.pm]]
+Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře.
+  * [[user:zeman:dz-parser:programatorska-dokumentace|Programátorská dokumentace]]
+  * [[user:zeman:dz-parser:vstup-a-vystup|Vstup a výstup]]
   * [[user:zeman:dz-parser:vysledky|Výsledky]]
+  * [[user:zeman:dz-parser:atrain-a-aclass|Přiřazování syntaktických značek (analytických funkcí)]]
+  * [[user:zeman:dz-parser:conll|CoNLL]]
 ===== To do =====
+  * Na začátku čtení slova si zapamatovat pole všech SGML prvků na jeho řádku (prvek, atributy, hodnota; v podstatě asi stačí tohle všechno v jednom řetězci). Při vypisování slova to tam všechno netknuté vypsat! Jediné, co ke slovu přidává DZ Parser, je značka <MDg src="dz">. (Tu případně na vstupu umazat.) Pak ještě <MDA src="dz">, pokud pouštíme aclass.pl.
   * CoNLL 2007
-    * Napsat program, který na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti).
-    * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL.
     * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
     * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.
@@ Line 19: / Line 23: @@
     * Totéž, ale navíc rys pád.
     * Učit se na morfologických značkách překódovaných do sady PDT.
-    * Kombinace parserů (Brown, McDonald, Stanford).
+    * Kombinace parserů ([[:Parsery|Brown]], [[:MST|McDonald]], [[:Parsery|Stanford]]).
     * Angličtina (větev adaptace na novou doménu)?
     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
-  * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako &verbar;.
+  * Následující už je asi vyřešeno, ale je třeba to zdokumentovat: Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
-  * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.
@@ Line 34: / Line 37: @@
   * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT).

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences