[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:dz-parser [2007/03/28 12:47]
zeman Udělat - CoNLL 2007.
user:zeman:dz-parser [2007/05/16 10:24]
zeman Programátorská dokumentace.
Line 4: Line 4:
  
 <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code> <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
 +
 +Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře.
 +
 +  * [[user:zeman:dz-parser:programatorska-dokumentace|Programátorská dokumentace]]
 +  * [[user:zeman:dz-parser:vstup-a-vystup|Vstup a výstup]]
 +  * [[user:zeman:dz-parser:vysledky|Výsledky]]
 +  * [[user:zeman:dz-parser:atrain-a-aclass|Přiřazování syntaktických značek (analytických funkcí)]]
 +  * [[user:zeman:dz-parser:conll|CoNLL]]
  
 ===== To do ===== ===== To do =====
  
   * CoNLL 2007   * CoNLL 2007
-    * Napsat programkterý na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti).+    * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
     * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.     * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.
     * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.     * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.
Line 14: Line 22:
     * Totéž, ale navíc rys pád.     * Totéž, ale navíc rys pád.
     * Učit se na morfologických značkách překódovaných do sady PDT.     * Učit se na morfologických značkách překódovaných do sady PDT.
 +    * Kombinace parserů ([[:Parsery|Brown]], [[:MST|McDonald]], [[:Parsery|Stanford]]).
     * Angličtina (větev adaptace na novou doménu)?     * Angličtina (větev adaptace na novou doménu)?
     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
-  * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.+  * Následující už je asi vyřešeno, ale je třeba to zdokumentovat: Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.
Line 27: Line 36:
  
   * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT).   * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT).
- 
-===== Výsledky ===== 
- 
-==== Čeština PDT 2.0 ==== 
- 
-<code>train.pl -i parser-pdt.ini 
-parse.pl -i parser-pdt.ini</code> 
- 
-A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. 
- 
-===== Výsledky CoNLL 2006 ===== 
- 
-==== Arabština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts 
-parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code> 
- 
-G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. 
- 
-===== Výsledky CoNLL 2007 ===== 
- 
-Viz též [[internal:data-conll|Data CoNLL]]. 
- 
-==== Arabština ==== 
- 
-<code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts 
-parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code> 
- 
-G 3591 - P = <html><span style='background:yellow'>61,1</span></html> % 
- 
-==== Baskičtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts 
-parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts</code> 
- 
-A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>. 
- 
-==== Čeština ==== 
- 
-Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. 
- 
-<code>train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts</code> 
- 
-A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. 
- 
-==== Čínština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtest.csts</code> 
- 
-A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>. 
- 
-==== Italština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/italian/isst/itdtest.csts</code> 
- 
-A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. 
- 
-==== Katalánština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts 
-parse.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtest.csts</code> 
- 
-A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. 
- 
-==== Maďarština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts 
-parse.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtest.csts</code> 
- 
-A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. 
- 
-==== Řečtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts 
-parse.pl < /net/data/CoNLL/2007/greek/gdt/eldtest.csts</code> 
- 
-A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>. 
- 
-==== Turečtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/turkish/metu/trdtest.csts</code> 
- 
-A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>. 

[ Back to the navigation ] [ Back to the content ]