[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/05/06 09:03]
zeman vytvořeno
user:zeman:morpho-challenge-2008 [2008/05/06 12:53]
zeman Zpracování na clusteru.
Line 2: Line 2:
 Stránky soutěže jsou na http://www.cis.hut.fi/morphochallenge2008/. E-mailová adresa organizátorů je [[morphochallenge2007@james.hut.fi]]. Poznámky k mému loňskému řešení jsou na stránce [[Morpho Challenge 2007]]. Stránky soutěže jsou na http://www.cis.hut.fi/morphochallenge2008/. E-mailová adresa organizátorů je [[morphochallenge2007@james.hut.fi]]. Poznámky k mému loňskému řešení jsou na stránce [[Morpho Challenge 2007]].
  
-Data mám v ''~/data/morphochallenge/2008''. Programy mám v ''~/projekty/morphochallenge''.+Data mám v ''~/data/morphochallenge/2008''. Programy mám v ''~/projekty/morphochallenge'' (odkaz na data vede i odsud)Původně byly v ''~/zapoctaky/konc''
 + 
 +<code>setenv MC /home/zeman/projekty/morphochallenge</code>
  
 ===== Příprava dat ===== ===== Příprava dat =====
Line 9: Line 11:
  
 <code>cd ~/data/morphochallenge/2008 <code>cd ~/data/morphochallenge/2008
-gunzip -c wordlist.ara.gz | ./mc_convert.pl -f ar > wordlist.ar.txt +gunzip -c wordlist.ara.gz | $MC/mc_convert.pl -f ar > wordlist.ar.txt 
-gunzip -c wordlist.eng.gz | ./mc_convert.pl -f en > wordlist.en.txt +gunzip -c wordlist.eng.gz | $MC/mc_convert.pl -f en > wordlist.en.txt 
-gunzip -c wordlist.fin.gz | ./mc_convert.pl -f fi > wordlist.fi.txt +gunzip -c wordlist.fin.gz | $MC/mc_convert.pl -f fi > wordlist.fi.txt 
-gunzip -c wordlist.ger.gz | ./mc_convert.pl -f de > wordlist.de.txt +gunzip -c wordlist.ger.gz | $MC/mc_convert.pl -f de > wordlist.de.txt 
-gunzip -c wordlist.tur.gz | ./mc_convert.pl -f tr > wordlist.tr.txt</code>+gunzip -c wordlist.tur.gz | $MC/mc_convert.pl -f tr > wordlist.tr.txt</code> 
 + 
 +Můj skript pro automatické rozsekání slov na kmeny a koncovky předpokládá, že vstup je textový korpus ve [[:formát CSTS|formátu CSTS]]. Nejprve tedy musíme trénovací seznamy slov a jejich četností převést do tohoto formátu. 
 + 
 +<code>cd $MC 
 +foreach l (ar de en fi tr) 
 +  mc2csts.pl < data/2008/wordlist.$l.txt -l $l > data/2008/$l.csts 
 +end</code> 
 + 
 +===== Trénování morfologických vzorů ===== 
 + 
 +Pro některé jazyky (zejména pro finštinu) trvá zpracování déle, než by se chtělo čekat, a vyplatí se tedy úlohy odeslat na cluster: 
 + 
 +<code># lrc 
 +cd $MC 
 +foreach l (ar de en fi tr) 
 +  qsub.csh mc_jazyk.csh $l 
 +end</code>
  
 ===== Zbytek této stránky je zatím pouhá kopie z roku 2007 ===== ===== Zbytek této stránky je zatím pouhá kopie z roku 2007 =====

[ Back to the navigation ] [ Back to the content ]