[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:dz-parser [2007/03/28 12:47]
zeman Udělat - CoNLL 2007.
user:zeman:dz-parser [2007/05/18 16:24] (current)
zeman To do: neztrácet atributy slova ze vstupu.
Line 4: Line 4:
  
 <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code> <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
 +
 +Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře.
 +
 +  * [[user:zeman:dz-parser:programatorska-dokumentace|Programátorská dokumentace]]
 +  * [[user:zeman:dz-parser:vstup-a-vystup|Vstup a výstup]]
 +  * [[user:zeman:dz-parser:vysledky|Výsledky]]
 +  * [[user:zeman:dz-parser:atrain-a-aclass|Přiřazování syntaktických značek (analytických funkcí)]]
 +  * [[user:zeman:dz-parser:conll|CoNLL]]
  
 ===== To do ===== ===== To do =====
  
 +  * Na začátku čtení slova si zapamatovat pole všech SGML prvků na jeho řádku (prvek, atributy, hodnota; v podstatě asi stačí tohle všechno v jednom řetězci). Při vypisování slova to tam všechno netknuté vypsat! Jediné, co ke slovu přidává DZ Parser, je značka <MDg src="dz">. (Tu případně na vstupu umazat.) Pak ještě <MDA src="dz">, pokud pouštíme aclass.pl.
   * CoNLL 2007   * CoNLL 2007
-    * Napsat programkterý na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti).+    * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
     * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.     * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.
     * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.     * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.
Line 14: Line 23:
     * Totéž, ale navíc rys pád.     * Totéž, ale navíc rys pád.
     * Učit se na morfologických značkách překódovaných do sady PDT.     * Učit se na morfologických značkách překódovaných do sady PDT.
 +    * Kombinace parserů ([[:Parsery|Brown]], [[:MST|McDonald]], [[:Parsery|Stanford]]).
     * Angličtina (větev adaptace na novou doménu)?     * Angličtina (větev adaptace na novou doménu)?
     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.     * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
-  * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.+  * Následující už je asi vyřešeno, ale je třeba to zdokumentovat: Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.   * Odstranit závislost parseru na konfiguračním souboru ''parser.ini''.
Line 27: Line 37:
  
   * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT).   * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT).
- 
-===== Výsledky ===== 
- 
-==== Čeština PDT 2.0 ==== 
- 
-<code>train.pl -i parser-pdt.ini 
-parse.pl -i parser-pdt.ini</code> 
- 
-A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. 
- 
-===== Výsledky CoNLL 2006 ===== 
- 
-==== Arabština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts 
-parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code> 
- 
-G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. 
- 
-===== Výsledky CoNLL 2007 ===== 
- 
-Viz též [[internal:data-conll|Data CoNLL]]. 
- 
-==== Arabština ==== 
- 
-<code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts 
-parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code> 
- 
-G 3591 - P = <html><span style='background:yellow'>61,1</span></html> % 
- 
-==== Baskičtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts 
-parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts</code> 
- 
-A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>. 
- 
-==== Čeština ==== 
- 
-Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. 
- 
-<code>train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts</code> 
- 
-A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. 
- 
-==== Čínština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtest.csts</code> 
- 
-A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>. 
- 
-==== Italština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/italian/isst/itdtest.csts</code> 
- 
-A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. 
- 
-==== Katalánština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts 
-parse.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtest.csts</code> 
- 
-A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. 
- 
-==== Maďarština ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts 
-parse.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtest.csts</code> 
- 
-A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. 
- 
-==== Řečtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts 
-parse.pl < /net/data/CoNLL/2007/greek/gdt/eldtest.csts</code> 
- 
-A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>. 
- 
-==== Turečtina ==== 
- 
-<code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts 
-parse.pl < /net/data/CoNLL/2007/turkish/metu/trdtest.csts</code> 
- 
-A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>. 

[ Back to the navigation ] [ Back to the content ]