Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser [2007/03/28 12:34]
zeman Přeuspořádání.
+++ user:zeman:dz-parser [2007/03/28 15:14]
zeman Úspěšnost na testovacích datech.
@@ Line 3: / Line 3: @@
 DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky.
-<code>
+<code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
-svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser
-</code>
 ===== To do =====
+  * CoNLL 2007
+    * Napsat program, který na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti).
+    * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL.
+    * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
+    * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.
+    * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.
+    * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit.
+    * Totéž, ale navíc rys pád.
+    * Učit se na morfologických značkách překódovaných do sady PDT.
+    * Kombinace parserů (Brown, McDonald, Stanford).
+    * Angličtina (větev adaptace na novou doménu)?
+    * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
+  * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako &verbar;.
   * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
@@ Line 40: / Line 51: @@
 ===== Výsledky CoNLL 2007 =====
+Viz též [[internal:data-conll|Data CoNLL]].
+==== Arabština ====
+<code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts
+parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code>
+G 3591 - P = <html><span style='background:yellow'>61,1</span></html> %
 ==== Baskičtina ====
@@ Line 56: / Line 76: @@
 A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.
+Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách.
+<code>atrain.pl < /net/data/conll/2007/czech/pdt/csdtrain.csts > cs.astat</code>
+Při nasazení modelu na trénovací (!) data je úspěšnost 85 %: A 451536 - G 385252 - B 66284 - P 0.853203288331384. Překvapivé je, že na testovacích datech to není horší, ale dokonce nepatrně lepší: A 6124 - G 5237 - B 887 - P 0.855160026126715.
 ==== Čínština ====
@@ Line 98: / Line 124: @@
 A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences