Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:dz-parser [2007/03/27 14:46] zeman Maďarština. |
user:zeman:dz-parser [2007/05/18 16:24] (current) zeman To do: neztrácet atributy slova ze vstupu. |
||
|---|---|---|---|
| Line 3: | Line 3: | ||
| DZ Parser má svoji stránku na adrese http:// | DZ Parser má svoji stránku na adrese http:// | ||
| - | < | + | < |
| - | svn checkout file:/// | + | |
| - | </ | + | Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře. |
| + | |||
| + | * [[user: | ||
| + | * [[user: | ||
| + | * [[user: | ||
| + | * [[user: | ||
| + | * [[user: | ||
| ===== To do ===== | ===== To do ===== | ||
| - | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | + | * Na začátku čtení slova si zapamatovat pole všech SGML prvků na jeho řádku (prvek, atributy, hodnota; v podstatě asi stačí tohle všechno v jednom řetězci). Při vypisování slova to tam všechno netknuté vypsat! Jediné, co ke slovu přidává DZ Parser, je značka <MDg src=" |
| + | * CoNLL 2007 | ||
| + | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
| + | * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | ||
| + | * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. | ||
| + | * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit. | ||
| + | * Totéž, ale navíc rys pád. | ||
| + | * Učit se na morfologických značkách překódovaných do sady PDT. | ||
| + | * Kombinace parserů ([[: | ||
| + | * Angličtina (větev adaptace na novou doménu)? | ||
| + | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
| + | * Následující už je asi vyřešeno, ale je třeba to zdokumentovat: | ||
| * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | ||
| * Odstranit závislost parseru na konfiguračním souboru '' | * Odstranit závislost parseru na konfiguračním souboru '' | ||
| Line 20: | Line 37: | ||
| * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT). | * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT). | ||
| - | |||
| - | ===== Výsledky ===== | ||
| - | |||
| - | ==== Arabština CoNLL 2006 ==== | ||
| - | |||
| - | < | ||
| - | train.pl < / | ||
| - | parse.pl < / | ||
| - | </ | ||
| - | |||
| - | G 3086 - B 2287 - P < | ||
| - | |||
| - | ==== Čeština PDT 2.0 ==== | ||
| - | |||
| - | < | ||
| - | train.pl -i parser-pdt.ini | ||
| - | parse.pl -i parser-pdt.ini | ||
| - | </ | ||
| - | |||
| - | A 158962 - G 118894 - B 40068 - P < | ||
| - | |||
| - | ==== Čeština CoNLL 2007 ==== | ||
| - | |||
| - | Nastavení: stejné jako pro ostatní jazyky, podle výchozího '' | ||
| - | |||
| - | < | ||
| - | train.pl < / | ||
| - | parse.pl < / | ||
| - | </ | ||
| - | |||
| - | A 5760 - G 3067 - B 2693 - P < | ||
| - | |||
| - | ==== Katalánština CoNLL 2007 ==== | ||
| - | |||
| - | < | ||
| - | parse.pl < / | ||
| - | |||
| - | A 10971 - G 6768 - B 4203 - P < | ||
| - | |||
| - | ==== Maďarština CoNLL 2007 ==== | ||
| - | |||
| - | < | ||
| - | parse.pl < / | ||
| - | |||
| - | A 5995 - G 3164 - B 2831 - P < | ||
| - | |||
