[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:rizeni-pokusu-pomoci-makefilu [2009/03/26 12:05]
zeman .DELETE_ON_ERROR
user:zeman:rizeni-pokusu-pomoci-makefilu [2009/10/20 08:36]
zeman .md.fix
Line 51: Line 51:
 Soubory, které při zpracování vznikají, lze rozdělit podle následujících kritérií. Kritéria je vhodné zohlednit ve jménech souborů nebo složek, aby bylo možné zpracovávat skupinu souborů se stejným kritériem pomocí jednoho pravidla. Bohužel je často obtížné navrhnout optimální rozmístění kritérií v cestě k souboru, protože ''make'' umí v šablonových pravidlech pracovat pouze s jedním souvislým proměnným úsekem. Soubory, které při zpracování vznikají, lze rozdělit podle následujících kritérií. Kritéria je vhodné zohlednit ve jménech souborů nebo složek, aby bylo možné zpracovávat skupinu souborů se stejným kritériem pomocí jednoho pravidla. Bohužel je často obtížné navrhnout optimální rozmístění kritérií v cestě k souboru, protože ''make'' umí v šablonových pravidlech pracovat pouze s jedním souvislým proměnným úsekem.
  
-  * Fáze zpracování (train, trained-model, test-input, parsed...). Někdy je vyjádřená příponou souboru, protože řadě fází odpovídá konkrétní datový formát. Ale např. trénovací a testovací data bývají ve stejném formátu a bývá zvykem je rozlišit spíše ve jméně souboru než v příponě.+  * Fáze zpracování (train, trained-model, test-input, parsed...). Někdy je vyjádřená příponou souboru, protože řadě fází odpovídá konkrétní datový formát. Ale např. trénovací a testovací data bývají ve stejném formátu a bývá zvykem je rozlišit spíše ve jméně souboru než v příponě. Taky sem patří rozlišení testovacích dat na úplná (zahrnující i zlatý standard) a slepá (taková mají typicky k dispozici soutěžící před uzavřením soutěže).
   * Jazyk   * Jazyk
   * Datová sada (dev vs. eval, popř. nějaká další, třeba out-of-domain data)   * Datová sada (dev vs. eval, popř. nějaká další, třeba out-of-domain data)
Line 57: Line 57:
   * Různá nastavení parseru a dalších nástrojů, různá předzpracování dat (např. převedení morfologických značek do sady PDT)   * Různá nastavení parseru a dalších nástrojů, různá předzpracování dat (např. převedení morfologických značek do sady PDT)
  
 +
 +===== mdmake =====
 +
 +Tohle jsou Danovy poznámky k budoucímu nástroji, který by měl řadu problémů odstranit tím, že z šablony ''makefile.mdm'' vygeneruje Makefile pro normální gnu make. MD-make znamená „multidimenzionální make“.
 +
 +  * MD-makefile může obsahovat všechny syntaktické konstrukce, které obsahuje normální makefile. Konstrukce se opíší do vygenerovaného makefilu a za jejich zpracování bude zodpovědný až normální make. Je akorát nutné mít na paměti, že k jejich zpracování dojde po vygenerování makefilu. Pokud tedy např. vkládáme vnořené makefily pomocí include, musí to už být normální makefily, ne MD-makefily.
 +  * Vyjmenovat proměnné, které obsahují hodnoty v jednotlivých rozměrech. Současně dát najevo, jak se z nich poskládá jméno souboru. (Mezery se umažou, jsou tam proto, aby se poznalo, který oddělovač se má vynechat, když nějaký rozměr zcela chybí. Povolené oddělovače jsou lomítko, pomlčka a tečka.)
 +<code>.MDIMS: LANGUAGES/ DE TRAINTEST -PREPROCESSINGS .STATES</code>
 +  * Oddělovače nejsou povinné, ale MD-make zkontroluje, zda kvůli chybějícím oddělovačům nemůžou vzniknout nejednoznačnosti (např. LANGUAGES = hi him, DOMAINS = mix ix, .MDIMS: LANGUAGES DOMAINS by způsobovalo problémy).
 +  * Poslední rozměr v&nbsp;seznamu rozměrů má výlučné postavení. Nemusí se jmenovat STATES a nemusí být oddělen právě tečkou (i když se to doporučuje - v&nbsp;některých operačních systémech je vhodné, když má jméno souboru příponu, která definuje typ obsahu), ale nicméně hodnota v&nbsp;tomto rozměru se považuje za typ souboru, ze kterého mj. vyplývá, v&nbsp;jakých ostatních rozměrech se soubory tohoto typu pohybují. MD-make si to přečte u pravidla, které soubory tohoto typu generuje jako svůj cíl. Takové pravidlo musí být alespoň jedno pro každý typ. Teoreticky jich může být i více, pokud chceme dělat něco jiného třeba pro jednotlivé jazyky. V&nbsp;tom případě všechna taková pravidla musí uvádět shodný seznam rozměrů cíle. Nemusí ale dohromady pokrývat všechny hodnoty všech těchto rozměrů.
 +  * Příslušné proměnné s&nbsp;hodnotami jednotlivých rozměrů musí být obyčejné proměnné, obsahující seznam slov oddělených mezerami. MD-make v&nbsp;nich nehledá odkazy na jiné proměnné nebo dokonce makra. Pokud v&nbsp;nich narazí na dolar, hodí výjimku a odmítne pokračovat. Tyto proměnné zůstanou viditelné i ve vygenerovaném makefilu.
 +  * Žádná hodnota v&nbsp;žádném rozměru nesmí být totožná s&nbsp;nějakou hodnotou v&nbsp;jiném rozměru. Jinými slovy, máme-li hodnotu, můžeme z&nbsp;ní poznat i rozměr. (Tím se mimo jiné předchází nejednoznačnostem ve jménech souborů, která neobsahují všechny rozměry.)
 +  * Multidimenzionální šablonovité pravidlo lze označit jako takové a říct pro něj:
 +    * Ve kterých rozměrech se pohybuje cílový soubor. (Ostatní rozměry se ve jménu souboru vůbec neobjeví.)
 +    * Jaké jsou podmínky na hodnoty v&nbsp;jednotlivých rozměrech. (Standardně pomocí direktivy ''.md.if'', ale nějak zařídit, aby se podmínka pro rozměr ''.STATES'' (resp. poslední rozměr v&nbsp;seznamu) mohla defaultně vyjádřit přímo v&nbsp;pravidle.
 +    * MD-make rozgeneruje multidimenzionální pravidlo na řadu obyčejných pravidel, ve kterých se vystřídají všechny kombinace hodnot ve všech zúčastněných rozměrech. Tato pravidla už nejsou šablonovitá, takže nehrozí, že gnu make potom narazí na cyklické závislosti nebo jiné problémy.
 +    * Uvnitř příkazů lze použít nové proměnné ''$(*1)'', resp. místo jedničky jiné číslo, pro n-tou závislost. MD-make si najde pravidlo, kterým tato závislost vzniká, zjistí si z&nbsp;něj, v&nbsp;jakých rozměrech se pohybuje, a podle toho zkonstruuje jméno příslušného souboru, které na dané místo vloží. Totéž provede pro ''$<'' a ''$^'', avšak ignoruje ''$*''.
 +<code>.MDRULE # asi zbytečné, plyne z výskytu .md.for níže
 +%.mst.conll: %.blind.conll %.mst $(TOOLDIR)/runmst.pl
 +.md.for: LANGUAGES DE PREPROCESSINGS
 +.md.fix: TRAINTEST = test
 +.md.iff: .blind.conll.TRAINTEST = test # tady zbytečné, plyne už z .md.fix
 +        $(TOOLDIR)/runmst.pl -m $(*2) < $< > $@</code>
 +  * Je možné definovat vstupní soubory. Ty typicky leží úplně v&nbsp;jiné cestě, nebo se alespoň jmenují tak, aby se nepletly se soubory pojmenovanými pomocí hodnot rozměrů, a nehrozilo tudíž jejich smazání makem. Můžeme popsat jejich vlastnosti v&nbsp;jednotlivých rozměrech prostě tak, že vytvoříme obyčejné pravidlo, kde dotyčný vstupní soubor bude jako závislost, zatímco cíl bude soubor pojmenovaný příslušnými hodnotami rozměrů. Před pravidlo připíšeme ''.md.in:''. MD-make pak doplní příkaz pro zkopírování závislosti do cíle (''cp $< $@'') a navíc zkontroluje, že cílový soubor má hodnoty všech rozměrů, které soubor v&nbsp;daném stavu (hodnota posledního rozměru) má mít.
 +  * Vygenerovaný makefile by navíc mohl obsahovat pro každou hodnotu každého rozměru seznam souborů, v&nbsp;nichž je tato hodnota zafixovaná. Např. všechny cílové soubory v&nbsp;jazyce "hi". Kromě proměnné obsahující jména těchto souborů (HIFILES) by vygenerovaný makefile obsahoval cíl, který všechny tyto soubory vyrobí (hi), a cíl, který je smaže (clean_hi).
 +  * Podpora pro odesílání cílů na cluster:
 +    * Umět říct, který cíl chceme na clusteru, pokud to jde.
 +    * Detekce, že jsme na hlavě clusteru (HOSTNAME musí odpovídat nějaké proměnné).
 +    * Normální make bude puštěn paralelně (tuším -p 20 nebo tak nějak), aby dokázal řešit nezávislé další cíle, zatímco jeden cíl čeká na cluster.
 +    * K&nbsp;tomu je třeba novější verze mého ''qsub.csh'', která umí počkat, až odeslaný job skončí, a pokud skončí neúspěchem, umí ho navíc odeslat znova. (Musíme jí ale umět říct, jak se pozná neúspěch.)

[ Back to the navigation ] [ Back to the content ]