Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser [2007/03/28 12:34] zeman Přeuspořádání. |
user:zeman:dz-parser [2007/05/15 11:25] zeman Vstupy a výstupy. |
||
---|---|---|---|
Line 3: | Line 3: | ||
DZ Parser má svoji stránku na adrese http:// | DZ Parser má svoji stránku na adrese http:// | ||
- | < | + | < |
- | svn checkout file:/// | + | |
- | </ | + | |
- | ===== To do ===== | + | * [[user: |
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
- | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | + | ===== Chování |
- | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | + | |
- | * Odstranit závislost parseru na konfiguračním souboru '' | + | |
- | * Nejdůležitější výchozí hodnoty dát přímo do zdrojáku '' | + | |
- | * Složka '' | + | |
- | * Parser si sám zjistí, zda na vstupu má ''< | + | |
- | * Převádění vstupních slov na malá písmena by mělo být volitelné. Např. u arabštiny přepsané podle Tima Buckwaltera by to mohlo i uškodit, protože tam velká písmena nemají s odpovídajícími malými nic společného. | + | |
- | ===== Výchozí nastavení ===== | + | V posledním roce jsem vnesl zmatek do chování vstupu a výstupu DZ Parseru. Jak by se tedy měl chovat a jak se momentálně chová? |
- | * koordinace | + | ==== Vstup ==== |
- | ===== Výsledky ===== | + | Vstupem train.pl jsou trénovací data a případně konfigurační soubor. |
+ | Vstupem parse.pl je natrénovaná statistika, testovací data a případně konfigurační soubor. | ||
- | ==== Čeština PDT 2.0 ==== | + | Malou část konfigurace lze provést přepínači na příkazovém řádku. V budoucnosti by měla být možnost provést tady veškerou konfiguraci, |
- | < | + | Pokud konfigurace obsahuje cestu ke vstupním datům (trénovací korpus, testovací korpus, natrénovaná statistika), |
- | parse.pl -i parser-pdt.ini</ | + | |
- | A 158962 - G 118894 - B 40068 - P < | + | Pokud konfigurace (ani ta z příkazového řádku) neobsahuje cestu ke vstupním datům, ale na příkazovém řádku zbývají nevyužité argumenty, tyto argumenty se interpretují jako cesty ke vstupním souborům a ty se načtou. Pokud nezbývají ani argumenty, čte se standardní vstup. |
- | ===== Výsledky CoNLL 2006 ===== | + | Pokud konfigurace neobsahuje cestu k pracovní složce, považuje se za pracovní složka, ze které byl program spuštěn (" |
- | ==== Arabština | + | ==== Výstup |
- | < | + | Hlavním výstupem |
- | parse.pl | + | |
- | G 3086 - B 2287 - P < | + | V ladícím režimu |
- | ===== Výsledky CoNLL 2007 ===== | + | ===== To do ===== |
- | ==== Baskičtina | + | * CoNLL 2007 |
+ | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
+ | * Zkusit ještě jednou pustit parser na všechny jazyky s vypnutým rozepisováním alternativ. | ||
+ | * Totéž, ale vypnout úpravy morfologických značek, na ne-PDT značkách to nemůže fungovat. | ||
+ | * Totéž, ale učit se pouze na podrobných slovních druzích, hodnoty rysů zahodit. | ||
+ | * Totéž, ale navíc rys pád. | ||
+ | * Učit se na morfologických značkách překódovaných do sady PDT. | ||
+ | * Kombinace parserů ([[: | ||
+ | * Angličtina | ||
+ | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
+ | * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže to pomoct! Kromě toho není dobře, že neSGML znak na vstupu má zvláštní význam - vlastně by se měl zakódovat jako & | ||
+ | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | ||
+ | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | ||
+ | * Odstranit závislost parseru na konfiguračním souboru '' | ||
+ | * Nejdůležitější výchozí hodnoty dát přímo do zdrojáku '' | ||
+ | * Složka '' | ||
+ | * Parser si sám zjistí, zda na vstupu má ''< | ||
+ | * Převádění vstupních slov na malá písmena by mělo být volitelné. Např. u arabštiny přepsané podle Tima Buckwaltera by to mohlo i uškodit, protože tam velká písmena nemají s odpovídajícími malými nic společného. | ||
- | < | + | ===== Výchozí nastavení |
- | parse.pl < / | + | |
- | + | ||
- | A 4334 - G 2630 - B 1704 - P < | + | |
- | + | ||
- | ==== Čeština | + | |
- | + | ||
- | Nastavení: stejné jako pro ostatní jazyky, podle výchozího '' | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 5760 - G 3067 - B 2693 - P < | + | |
- | + | ||
- | ==== Čínština ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 2277 - G 1513 - B 764 - P < | + | |
- | + | ||
- | ==== Italština ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 7643 - G 4866 - B 2777 - P < | + | |
- | + | ||
- | ==== Katalánština ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 10971 - G 6768 - B 4203 - P < | + | |
- | + | ||
- | ==== Maďarština ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 5995 - G 3164 - B 2831 - P < | + | |
- | + | ||
- | ==== Řečtina ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 4874 - G 3122 - B 1752 - P < | + | |
- | + | ||
- | ==== Turečtina ==== | + | |
- | + | ||
- | < | + | |
- | parse.pl < / | + | |
- | + | ||
- | A 6210 - G 4037 - B 2173 - P < | + | |
+ | * koordinace = 0. Zvláštní zpracování koordinací předpokládá určité konkrétní syntaktické značky (Coord, _Co). Pokud tam nejsou, koordinace se nepoznají. Horší ale je, když tam jsou, ale nesplňují tatáž pravidla jako v PDT (např. v PADT). |