[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/05/06 09:03]
zeman vytvořeno
user:zeman:morpho-challenge-2008 [2008/05/06 09:47]
zeman Převést do CSTS.
Line 2: Line 2:
 Stránky soutěže jsou na http://www.cis.hut.fi/morphochallenge2008/. E-mailová adresa organizátorů je [[morphochallenge2007@james.hut.fi]]. Poznámky k mému loňskému řešení jsou na stránce [[Morpho Challenge 2007]]. Stránky soutěže jsou na http://www.cis.hut.fi/morphochallenge2008/. E-mailová adresa organizátorů je [[morphochallenge2007@james.hut.fi]]. Poznámky k mému loňskému řešení jsou na stránce [[Morpho Challenge 2007]].
  
-Data mám v ''~/data/morphochallenge/2008''. Programy mám v ''~/projekty/morphochallenge''.+Data mám v ''~/data/morphochallenge/2008''. Programy mám v ''~/projekty/morphochallenge'' (odkaz na data vede i odsud)Původně byly v ''~/zapoctaky/konc''
 + 
 +<code>setenv MC /home/zeman/projekty/morphochallenge</code>
  
 ===== Příprava dat ===== ===== Příprava dat =====
Line 9: Line 11:
  
 <code>cd ~/data/morphochallenge/2008 <code>cd ~/data/morphochallenge/2008
-gunzip -c wordlist.ara.gz | ./mc_convert.pl -f ar > wordlist.ar.txt +gunzip -c wordlist.ara.gz | $MC/mc_convert.pl -f ar > wordlist.ar.txt 
-gunzip -c wordlist.eng.gz | ./mc_convert.pl -f en > wordlist.en.txt +gunzip -c wordlist.eng.gz | $MC/mc_convert.pl -f en > wordlist.en.txt 
-gunzip -c wordlist.fin.gz | ./mc_convert.pl -f fi > wordlist.fi.txt +gunzip -c wordlist.fin.gz | $MC/mc_convert.pl -f fi > wordlist.fi.txt 
-gunzip -c wordlist.ger.gz | ./mc_convert.pl -f de > wordlist.de.txt +gunzip -c wordlist.ger.gz | $MC/mc_convert.pl -f de > wordlist.de.txt 
-gunzip -c wordlist.tur.gz | ./mc_convert.pl -f tr > wordlist.tr.txt</code>+gunzip -c wordlist.tur.gz | $MC/mc_convert.pl -f tr > wordlist.tr.txt</code> 
 + 
 +Můj skript pro automatické rozsekání slov na kmeny a koncovky předpokládá, že vstup je textový korpus ve [[:formát CSTS|formátu CSTS]]. Nejprve tedy musíme trénovací seznamy slov a jejich četností převést do tohoto formátu.
  
 ===== Zbytek této stránky je zatím pouhá kopie z roku 2007 ===== ===== Zbytek této stránky je zatím pouhá kopie z roku 2007 =====

[ Back to the navigation ] [ Back to the content ]