Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:dz-parser [2007/05/15 13:00] zeman |
user:zeman:dz-parser [2007/05/18 16:24] (current) zeman To do: neztrácet atributy slova ze vstupu. |
||
|---|---|---|---|
| Line 5: | Line 5: | ||
| < | < | ||
| - | | + | Následující části byly vyčleněny do samostatných stránek. Viz též obsah této stránky vpravo nahoře. |
| - | * [[user: | + | |
| - | * [[user: | + | |
| + | * [[user: | ||
| * [[user: | * [[user: | ||
| + | * [[user: | ||
| * [[user: | * [[user: | ||
| - | |||
| - | ===== Chování vstupu a výstupu ===== | ||
| - | |||
| - | V posledním roce jsem vnesl zmatek do chování vstupu a výstupu DZ Parseru. Jak by se tedy měl chovat a jak se momentálně chová? | ||
| - | |||
| - | ==== Vstup ==== | ||
| - | |||
| - | Vstupem train.pl jsou trénovací data a případně konfigurační soubor. | ||
| - | Vstupem parse.pl je natrénovaná statistika, testovací data a případně konfigurační soubor. | ||
| - | |||
| - | Malou část konfigurace lze provést přepínači na příkazovém řádku. V budoucnosti by měla být možnost provést tady veškerou konfiguraci, | ||
| - | |||
| - | Pokud konfigurace obsahuje cestu ke vstupním datům (trénovací korpus, testovací korpus, natrénovaná statistika), | ||
| - | |||
| - | Pokud konfigurace (ani ta z příkazového řádku) neobsahuje cestu ke vstupním datům, ale na příkazovém řádku zbývají nevyužité argumenty, tyto argumenty se interpretují jako cesty ke vstupním souborům a ty se načtou. Pokud nezbývají ani argumenty, čte se standardní vstup. (To neplatí o natrénované statistice na vstupu parse.pl, ta se čte vždy ze souboru. Pokud chybí určení cesty, postupuje se jako kdyby určení bylo " | ||
| - | |||
| - | Pokud konfigurace neobsahuje cestu k pracovní složce, považuje se za pracovní složka, ze které byl program spuštěn (" | ||
| - | |||
| - | ==== Výstup ==== | ||
| - | |||
| - | Hlavním výstupem train.pl je natrénovaná statistika. Hlavním výstupem parse.pl jsou rozebraná testovací data ve formátu CSTS. Hlavní výstupy se posílají na standardní výstup. | ||
| - | |||
| - | V ladícím režimu (lze ho zapnout v konfiguraci) se totéž loguje i do souboru. Případně lze vypnout standardní výstup a pouze logovat do souboru. | ||
| - | |||
| - | Každý program může navíc generovat různé vedlejší výstupy, které lze regulovat pomocí konfigurace. Tyto výstupy standardně směřují na standardní chybový výstup (STDERR), ale v konfiguraci lze zapnout jejich logování do souboru v pracovní složce. | ||
| ===== To do ===== | ===== To do ===== | ||
| + | * Na začátku čtení slova si zapamatovat pole všech SGML prvků na jeho řádku (prvek, atributy, hodnota; v podstatě asi stačí tohle všechno v jednom řetězci). Při vypisování slova to tam všechno netknuté vypsat! Jediné, co ke slovu přidává DZ Parser, je značka <MDg src=" | ||
| * CoNLL 2007 | * CoNLL 2007 | ||
| * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | * Otestovat mé výstupy oficiálním skriptem eval.pl, nebo jak se jmenuje. | ||
| Line 48: | Line 26: | ||
| * Angličtina (větev adaptace na novou doménu)? | * Angličtina (větev adaptace na novou doménu)? | ||
| * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | * Vše přetrénovat na celých trénovacích datech, rozebrat slepá testovací data a do soboty odeslat výsledky. | ||
| - | * Nová regrese na PDT 2.0 a commit (změny v ud.pm). Co je nového? Možnost vypnout rozepisování alternativ! U CoNLL to může uškodit, ale nemůže | + | * Následující už je asi vyřešeno, ale je třeba |
| - | * Vyřešit situaci, kdy svislítko ve vstupních datech (značkách, | + | |
| * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | * Půjde zřejmě o rozsáhlejší přestavbu funkce ud(), kterou bude potřeba pečlivě otestovat na parsingu PDT. Součástí přestavby by mělo být i to, že parametrem funkce už nebude jeden řetězec, ale pole, kde prvním prvkem bude typ události a další prvky budou její parametry. Pak bude jasné, že na alternativy se dělí každý parametr zvlášť a že je potřeba nakombinovat všechny alternativy všech parametrů. | ||
| * Odstranit závislost parseru na konfiguračním souboru '' | * Odstranit závislost parseru na konfiguračním souboru '' | ||
