Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser [2007/03/27 17:14] zeman Turečtina. |
user:zeman:dz-parser [2007/03/28 15:14] zeman Úspěšnost na testovacích datech. |
||
---|---|---|---|
Line 3: | Line 3: | ||
DZ Parser má svoji stránku na adrese http:// | DZ Parser má svoji stránku na adrese http:// | ||
- | < | + | < |
- | svn checkout file:/// | + | |
- | </ | + | |
===== To do ===== | ===== To do ===== | ||
+ | * CoNLL 2007 | ||
+ | * Napsat program, který na základě závislostí (ručních nebo naučených), | ||
+ | * Napsat program pro převod stromů z CSTS zpět do formátu CoNLL. | ||
+ | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
+ | * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | ||
+ | * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. | ||
+ | * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit. | ||
+ | * Totéž, ale navíc rys pád. | ||
+ | * Učit se na morfologických značkách překódovaných do sady PDT. | ||
+ | * Kombinace parserů (Brown, McDonald, Stanford). | ||
+ | * Angličtina (větev adaptace na novou doménu)? | ||
+ | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
+ | * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako & | ||
* Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | ||
* Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | ||
Line 23: | Line 34: | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
- | ==== Arabština | + | ==== Čeština |
- | < | + | < |
- | train.pl < / | + | parse.pl -i parser-pdt.ini</ |
- | parse.pl < / | + | |
- | </ | + | A 158962 - G 118894 - B 40068 - P < |
+ | |||
+ | ===== Výsledky CoNLL 2006 ===== | ||
+ | |||
+ | ==== Arabština ==== | ||
+ | |||
+ | < | ||
+ | parse.pl < / | ||
G 3086 - B 2287 - P < | G 3086 - B 2287 - P < | ||
- | ==== Čeština PDT 2.0 ==== | + | ===== Výsledky CoNLL 2007 ===== |
- | < | + | Viz též [[internal: |
- | train.pl -i parser-pdt.ini | + | |
- | parse.pl -i parser-pdt.ini | + | |
- | </ | + | |
- | A 158962 - G 118894 - B 40068 - P < | + | ==== Arabština ==== |
- | ==== Čeština | + | < |
+ | parse.pl < / | ||
+ | |||
+ | G 3591 - P = < | ||
+ | |||
+ | ==== Baskičtina ==== | ||
+ | |||
+ | < | ||
+ | parse.pl < / | ||
+ | |||
+ | A 4334 - G 2630 - B 1704 - P < | ||
+ | |||
+ | ==== Čeština ==== | ||
Nastavení: stejné jako pro ostatní jazyky, podle výchozího '' | Nastavení: stejné jako pro ostatní jazyky, podle výchozího '' | ||
- | < | + | < |
- | train.pl < / | + | parse.pl < / |
- | parse.pl < / | + | |
- | </ | + | |
A 5760 - G 3067 - B 2693 - P < | A 5760 - G 3067 - B 2693 - P < | ||
- | ==== Italština CoNLL 2007 ==== | + | Zkouším primitivní model přiřazení syntaktických značek závislostem. Model přiřazuje nejčetnější syntaktickou značku pro danou dvojici morfologických značek rodiče a dítěte. Trénuje se na ručně přiřazených značkách. |
+ | |||
+ | < | ||
+ | |||
+ | Při nasazení modelu na trénovací (!) data je úspěšnost 85 %: A 451536 - G 385252 - B 66284 - P 0.853203288331384. Překvapivé je, že na testovacích datech to není horší, ale dokonce nepatrně lepší: A 6124 - G 5237 - B 887 - P 0.855160026126715. | ||
+ | |||
+ | ==== Čínština | ||
+ | |||
+ | < | ||
+ | parse.pl < / | ||
+ | |||
+ | A 2277 - G 1513 - B 764 - P < | ||
+ | |||
+ | ==== Italština | ||
< | < | ||
Line 59: | Line 97: | ||
A 7643 - G 4866 - B 2777 - P < | A 7643 - G 4866 - B 2777 - P < | ||
- | ==== Katalánština | + | ==== Katalánština ==== |
< | < | ||
Line 66: | Line 104: | ||
A 10971 - G 6768 - B 4203 - P < | A 10971 - G 6768 - B 4203 - P < | ||
- | ==== Maďarština | + | ==== Maďarština ==== |
< | < | ||
Line 73: | Line 111: | ||
A 5995 - G 3164 - B 2831 - P < | A 5995 - G 3164 - B 2831 - P < | ||
- | ==== Turečtina CoNLL 2007 ==== | + | ==== Řečtina |
+ | |||
+ | < | ||
+ | parse.pl < / | ||
+ | |||
+ | A 4874 - G 3122 - B 1752 - P < | ||
+ | |||
+ | ==== Turečtina | ||
< | < | ||
Line 79: | Line 124: | ||
A 6210 - G 4037 - B 2173 - P < | A 6210 - G 4037 - B 2173 - P < | ||
- |