[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:dz-parser [2007/03/27 17:53]
zeman Baskičtina.
user:zeman:dz-parser [2007/03/28 12:38]
zeman Arabština.
Line 3: Line 3:
 DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky. DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky.
  
-<code> +<code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code>
-svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser +
-</code>+
  
 ===== To do ===== ===== To do =====
Line 23: Line 21:
 ===== Výsledky ===== ===== Výsledky =====
  
-==== Arabština CoNLL 2006 ====+==== Čeština PDT 2.0 ==== 
 + 
 +<code>train.pl -i parser-pdt.ini 
 +parse.pl -i parser-pdt.ini</code> 
 + 
 +A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. 
 + 
 +===== Výsledky CoNLL 2006 ===== 
 + 
 +==== Arabština ====
  
-<code> +<code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts 
-train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts +parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code>
-parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts +
-</code>+
  
 G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde.
  
-==== Baskičtina CoNLL 2007 ====+===== Výsledky CoNLL 2007 ===== 
 + 
 +Viz též [[internal:data-conll|Data CoNLL]]. 
 + 
 +==== Arabština ==== 
 + 
 +<code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts 
 +parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code> 
 + 
 +G 3591 - P = <html><span style='background:yellow'>61,1</span></html>
 + 
 +==== Baskičtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts <code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts
Line 39: Line 55:
 A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>. A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>.
  
-==== Čeština PDT 2.0 ====+==== Čeština ====
  
-<code> +Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu.
-train.pl -i parser-pdt.ini +
-parse.pl -i parser-pdt.ini +
-</code>+
  
-A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>Tato úspěšnost je nižší než dřívePodle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8.+<code>train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts 
 +parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts</code>
  
-==== Čeština CoNLL 2007 ====+A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.
  
-Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu.+==== Čínština ====
  
-<code> +<code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts 
-train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts +parse.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtest.csts</code>
-parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts +
-</code>+
  
-5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>.+2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>.
  
-==== Italština CoNLL 2007 ====+==== Italština ====
  
 <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts
Line 66: Line 78:
 A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>.
  
-==== Katalánština CoNLL 2007 ====+==== Katalánština ====
  
 <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts
Line 73: Line 85:
 A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>.
  
-==== Maďarština CoNLL 2007 ====+==== Maďarština ====
  
 <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts
Line 80: Line 92:
 A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>.
  
-==== Turečtina CoNLL 2007 ====+==== Řečtina ==== 
 + 
 +<code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts 
 +parse.pl < /net/data/CoNLL/2007/greek/gdt/eldtest.csts</code> 
 + 
 +A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>
 + 
 +==== Turečtina ====
  
 <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts

[ Back to the navigation ] [ Back to the content ]