[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser [2007/03/28 12:01]
zeman Řečtina.
user:zeman:dz-parser [2007/03/28 12:34]
zeman Přeuspořádání.
Line 23: Line 23:
 ===== Výsledky ===== ===== Výsledky =====
  
-==== Arabština CoNLL 2006 ====+==== Čeština PDT 2.0 ====
  
-<code> +<code>train.pl -i parser-pdt.ini 
-train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts +parse.pl -i parser-pdt.ini</code> 
-parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts + 
-</code>+A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. 
 + 
 +===== Výsledky CoNLL 2006 ===== 
 + 
 +==== Arabština ==== 
 + 
 +<code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts 
 +parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code>
  
 G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde.
  
-==== Baskičtina CoNLL 2007 ====+===== Výsledky CoNLL 2007 ===== 
 + 
 +==== Baskičtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts <code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts
Line 39: Line 48:
 A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>. A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>.
  
-==== Čeština PDT 2.0 ==== +==== Čeština ====
- +
-<code> +
-train.pl -i parser-pdt.ini +
-parse.pl -i parser-pdt.ini +
-</code> +
- +
-A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. +
- +
-==== Čeština CoNLL 2007 ====+
  
 Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu.
Line 57: Line 57:
 A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.
  
-==== Čínština CoNLL 2007 ====+==== Čínština ====
  
 <code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts <code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts
Line 64: Line 64:
 A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>. A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>.
  
-==== Italština CoNLL 2007 ====+==== Italština ====
  
 <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts
Line 71: Line 71:
 A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>.
  
-==== Katalánština CoNLL 2007 ====+==== Katalánština ====
  
 <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts
Line 78: Line 78:
 A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>.
  
-==== Maďarština CoNLL 2007 ====+==== Maďarština ====
  
 <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts
Line 85: Line 85:
 A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>.
  
-==== Řečtina CoNLL 2007 ====+==== Řečtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts <code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts
Line 92: Line 92:
 A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>. A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>.
  
-==== Turečtina CoNLL 2007 ====+==== Turečtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts

[ Back to the navigation ] [ Back to the content ]