[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser [2007/03/28 12:01]
zeman Řečtina.
user:zeman:dz-parser [2007/03/28 15:13]
zeman Úspěšnost na trénovacích datech.
Line 3: Line 3:
 DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky. DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky.
  
-<code> +<code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
-svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser +
-</code>+
  
 ===== To do ===== ===== To do =====
  
 +  * CoNLL 2007
 +    * Napsat program, který na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti).
 +    * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL.
 +    * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje.
 +    * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ.
 +    * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat.
 +    * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit.
 +    * Totéž, ale navíc rys pád.
 +    * Učit se na morfologických značkách překódovaných do sady PDT.
 +    * Kombinace parserů (Brown, McDonald, Stanford).
 +    * Angličtina (větev adaptace na novou doménu)?
 +    * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky.
 +  * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako &verbar;.
   * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.   * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit.
     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.     * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů.
Line 23: Line 34:
 ===== Výsledky ===== ===== Výsledky =====
  
-==== Arabština CoNLL 2006 ====+==== Čeština PDT 2.0 ====
  
-<code> +<code>train.pl -i parser-pdt.ini 
-train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts +parse.pl -i parser-pdt.ini</code> 
-parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts + 
-</code>+A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. 
 + 
 +===== Výsledky CoNLL 2006 ===== 
 + 
 +==== Arabština ==== 
 + 
 +<code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts 
 +parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code>
  
 G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde.
  
-==== Baskičtina CoNLL 2007 ====+===== Výsledky CoNLL 2007 =====
  
-<code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts +Viz též [[internal:data-conll|Data CoNLL]].
-parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts</code>+
  
-A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>.+==== Arabština ====
  
-==== Čeština PDT 2.0 ====+<code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts 
 +parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code>
  
-<code> +G 3591 - P = <html><span style='background:yellow'>61,1</span></html%
-train.pl -i parser-pdt.ini +
-parse.pl -i parser-pdt.ini +
-</code>+
  
-A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8.+==== Baskičtina ====
  
-==== Čeština CoNLL 2007 ====+<code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts 
 +parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts</code> 
 + 
 +A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>
 + 
 +==== Čeština ====
  
 Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu.
Line 57: Line 77:
 A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.
  
-==== Čínština CoNLL 2007 ====+Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách. 
 + 
 +<code>atrain.pl < /net/data/conll/2007/czech/pdt/csdtrain.csts > cs.astat</code> 
 + 
 +Při nasazení modelu na trénovací (!) data je úspěšnost 85 %: A 451536 - G 385252 - B 66284 - P 0.853203288331384. 
 + 
 +==== Čínština ====
  
 <code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts <code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts
Line 64: Line 90:
 A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>. A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>.
  
-==== Italština CoNLL 2007 ====+==== Italština ====
  
 <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts
Line 71: Line 97:
 A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>.
  
-==== Katalánština CoNLL 2007 ====+==== Katalánština ====
  
 <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts
Line 78: Line 104:
 A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>.
  
-==== Maďarština CoNLL 2007 ====+==== Maďarština ====
  
 <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts
Line 85: Line 111:
 A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>.
  
-==== Řečtina CoNLL 2007 ====+==== Řečtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts <code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts
Line 92: Line 118:
 A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>. A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>.
  
-==== Turečtina CoNLL 2007 ====+==== Turečtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts
Line 98: Line 124:
  
 A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>. A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>.
- 

[ Back to the navigation ] [ Back to the content ]