[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

Chování vstupu a výstupu DZ Parseru

V posledním roce jsem vnesl zmatek do chování vstupu a výstupu DZ Parseru. Jak by se tedy měl chovat a jak se momentálně chová?

Vstup

Vstupem train.pl jsou trénovací data a případně konfigurační soubor.
Vstupem parse.pl je natrénovaná statistika, testovací data a případně konfigurační soubor.

Malou část konfigurace lze provést přepínači na příkazovém řádku. V budoucnosti by měla být možnost provést tady veškerou konfiguraci, pokud uživatel chce. Z příkazového řádku lze také říci, odkud se má načíst konfigurační soubor. Pokud nic neřekneme, neměl by se defaultně číst žádný konfigurační soubor. (A ty nejdefaultnější defaulty by měly být obsaženy přímo ve zdrojácích parseru.) Nevím, jak je to teď, ale po dlouhá léta se standardně načítal soubor parser.ini ve složce s parserem. Komplikovalo to pouštění parseru z jiných složek.

Pokud konfigurace obsahuje cestu ke vstupním datům (trénovací korpus, testovací korpus, natrénovaná statistika), použijí tato data. Pokud je tato cesta “-”, čte se standardní vstup. Pouze v případě natrénované statistiky se “-” interpretuje jinak: vleze se do pracovní složky (cesta k ní by měla být opět v konfiguraci), najde se soubor s nejvyšším číslem N, že jméno souboru je N.stat, a ten se načte.

Pokud konfigurace (ani ta z příkazového řádku) neobsahuje cestu ke vstupním datům, ale na příkazovém řádku zbývají nevyužité argumenty, tyto argumenty se interpretují jako cesty ke vstupním souborům a ty se načtou. Pokud nezbývají ani argumenty, čte se standardní vstup. (To neplatí o natrénované statistice na vstupu parse.pl, ta se čte vždy ze souboru. Pokud chybí určení cesty, postupuje se jako kdyby určení bylo “-”, tj. čte se z pracovní složky.)

Pokud konfigurace neobsahuje cestu k pracovní složce, považuje se za pracovní složka, ze které byl program spuštěn (“.”).

Výstup

Hlavním výstupem train.pl je natrénovaná statistika. Hlavním výstupem parse.pl jsou rozebraná testovací data ve formátu CSTS. Hlavní výstupy se posílají na standardní výstup.

V ladícím režimu (lze ho zapnout v konfiguraci) se totéž loguje i do souboru. Případně lze vypnout standardní výstup a pouze logovat do souboru.

Každý program může navíc generovat různé vedlejší výstupy, které lze regulovat pomocí konfigurace. Tyto výstupy standardně směřují na standardní chybový výstup (STDERR), ale v konfiguraci lze zapnout jejich logování do souboru v pracovní složce.


[ Back to the navigation ] [ Back to the content ]