Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:dz-parser [2007/03/27 16:58] zeman |
user:zeman:dz-parser [2007/03/28 15:13] zeman Úspěšnost na trénovacích datech. |
DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky. | DZ Parser má svoji stránku na adrese http://ufal.mff.cuni.cz/~zeman/projekty/parser/index.html. To, co je zde, jsou pracovní poznámky. |
| |
<code> | <code>svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser</code> |
svn checkout file:///net/work/public/SVN/dzparser/trunk dzparser | |
</code> | |
| |
===== To do ===== | ===== To do ===== |
| |
| * CoNLL 2007 |
| * Napsat program, který na základě závislostí (ručních nebo naučených), morfologických značek (dítěte, rodiče, prarodiče, sourozenců, sousedů), popř. koncovek (téhož) přiřadí syntaktickou značku (druh závislosti). |
| * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL. |
| * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. |
| * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. |
| * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. |
| * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit. |
| * Totéž, ale navíc rys pád. |
| * Učit se na morfologických značkách překódovaných do sady PDT. |
| * Kombinace parserů (Brown, McDonald, Stanford). |
| * Angličtina (větev adaptace na novou doménu)? |
| * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. |
| * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako |. |
* Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit. | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, slovech, heslech) se považuje za oddělovač alternativních anotací. Přinejmenším v arabských datech (přepsaných podle Tima Buckwaltera) se může objevit jako normální písmeno! I pokud se nesprávně interpretuje jako oddělovač, neměla by se funkce ud() zacyklit. |
* Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. |
===== Výsledky ===== | ===== Výsledky ===== |
| |
==== Arabština CoNLL 2006 ==== | ==== Čeština PDT 2.0 ==== |
| |
| <code>train.pl -i parser-pdt.ini |
| parse.pl -i parser-pdt.ini</code> |
| |
| A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. |
| |
| ===== Výsledky CoNLL 2006 ===== |
| |
| ==== Arabština ==== |
| |
<code> | <code>train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts |
train.pl < /net/data/CoNLL/2006/arabic/padt/artrain.02.csts | parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts</code> |
parse.pl < /net/data/CoNLL/2006/arabic/padt/artest.02.csts | |
</code> | |
| |
G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. | G 3086 - B 2287 - P <html><span style='background:yellow'>57,44</span></html> %. Ruční značky (jiné nemáme) převedené z CoNLL do PDT. Slova a hesla obsahují za podtržítkem Buckwalterovu transliteraci tak jako v CoNLL. Ta je ovšem převedena na malá písmena, což můj parser dělá i jinde. |
| |
==== Čeština PDT 2.0 ==== | ===== Výsledky CoNLL 2007 ===== |
| |
<code> | Viz též [[internal:data-conll|Data CoNLL]]. |
train.pl -i parser-pdt.ini | |
parse.pl -i parser-pdt.ini | |
</code> | |
| |
A 158962 - G 118894 - B 40068 - P <html><span style='background:yellow'>0.74793975918773</span></html>. Tato úspěšnost je nižší než dříve. Podle záznamů na stránce o českém parsingu jsem už dříve na d-testu PDT 2.0 dosáhl 75 %. SVN revize 3 ale dává stejné výsledky jako teď (P 74,8, G 118894). Uvidíme, co udělá revize 1, která ale není zvyklá pracovat s daty zakódovanými v UTF-8. | ==== Arabština ==== |
| |
==== Čeština CoNLL 2007 ==== | <code>train.pl < /net/data/conll/2007/arabic/padt/ardtrain.csts |
| parse.pl < /net/data/conll/2007/arabic/padt/ardtest.csts</code> |
| |
| G 3591 - P = <html><span style='background:yellow'>61,1</span></html> % |
| |
| ==== Baskičtina ==== |
| |
| <code>train.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtrain.csts |
| parse.pl < /net/data/CoNLL/2007/basque/3lbBasque/eudtest.csts</code> |
| |
| A 4334 - G 2630 - B 1704 - P <html><span style='background:yellow'>0.606829718504845</span></html>. |
| |
| ==== Čeština ==== |
| |
Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. | Nastavení: stejné jako pro ostatní jazyky, podle výchozího ''parser.ini''. Zvláštní zpracování koordinací je vypnuté. Značky se sice upravují, ale z tvaru CoNLL, v důsledku čehož parser nemá k dispozici informaci o pádu. |
| |
<code> | <code>train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts |
train.pl < /net/data/CoNLL/2007/czech/pdt/csdtrain.csts | parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts</code> |
parse.pl < /net/data/CoNLL/2007/czech/pdt/csdtest.csts | |
</code> | |
| |
A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. | A 5760 - G 3067 - B 2693 - P <html><span style='background:yellow'>0.532465277777778</span></html>. |
| |
==== Italština CoNLL 2007 ==== | Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách. |
| |
| <code>atrain.pl < /net/data/conll/2007/czech/pdt/csdtrain.csts > cs.astat</code> |
| |
| Při nasazení modelu na trénovací (!) data je úspěšnost 85 %: A 451536 - G 385252 - B 66284 - P 0.853203288331384. |
| |
| ==== Čínština ==== |
| |
| <code>train.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtrain.csts |
| parse.pl < /net/data/CoNLL/2007/chinese/sinica/zhdtest.csts</code> |
| |
| A 2277 - G 1513 - B 764 - P <html><span style='background:yellow'>0.664470794905577</span></html>. |
| |
| ==== Italština ==== |
| |
<code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts | <code>train.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts |
parse.pl < /net/data/CoNLL/2007/italian/isst/itdtrain.csts</code> | parse.pl < /net/data/CoNLL/2007/italian/isst/itdtest.csts</code> |
| |
A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. | A 7643 - G 4866 - B 2777 - P <html><span style='background:yellow'>0.63666099699071</span></html>. |
| |
==== Katalánština CoNLL 2007 ==== | ==== Katalánština ==== |
| |
<code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts | <code>train.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts |
parse.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtrain.csts</code> | parse.pl < /net/data/CoNLL/2007/catalan/cess-cat/cadtest.csts</code> |
| |
A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. | A 10971 - G 6768 - B 4203 - P <html><span style='background:yellow'>0.616899097621001</span></html>. |
| |
==== Maďarština CoNLL 2007 ==== | ==== Maďarština ==== |
| |
<code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts | <code>train.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts |
parse.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtrain.csts</code> | parse.pl < /net/data/CoNLL/2007/hungarian/szeged/hudtest.csts</code> |
| |
A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. | A 5995 - G 3164 - B 2831 - P <html><span style='background:yellow'>0.527773144286906</span></html>. |
| |
| ==== Řečtina ==== |
| |
| <code>train.pl < /net/data/CoNLL/2007/greek/gdt/eldtrain.csts |
| parse.pl < /net/data/CoNLL/2007/greek/gdt/eldtest.csts</code> |
| |
| A 4874 - G 3122 - B 1752 - P <html><span style='background:yellow'>0.640541649569142</span></html>. |
| |
| ==== Turečtina ==== |
| |
| <code>train.pl < /net/data/CoNLL/2007/turkish/metu/trdtrain.csts |
| parse.pl < /net/data/CoNLL/2007/turkish/metu/trdtest.csts</code> |
| |
| A 6210 - G 4037 - B 2173 - P <html><span style='background:yellow'>0.650080515297907</span></html>. |