[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:ukoly:hackovani [2009/12/14 14:15]
zeman Volání programů, aby příště bylo jasno.
user:zeman:ukoly:hackovani [2011/11/02 16:36]
zeman Rumunská data.
Line 2: Line 2:
 {{template>spolecne}} {{template>spolecne}}
  
-Napište program, který doplní do textu chybějící diakritiku. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Můžete předpokládat, že jazyk, se kterým program pracuje, píše abecedou na bázi latinky. Vše ostatní, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.)+Napište program, který doplní do textu chybějící diakritiku. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Můžete předpokládat, že jazyk, se kterým program pracuje, píše abecedou na bázi latinky. Vše ostatní, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.)
  
 Úloha má tyto části: Úloha má tyto části:
-  - Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout.+  - Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout.
   - Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8).   - Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8).
   - Za pomoci trénovacího programu nebo jeho upravené verze:   - Za pomoci trénovacího programu nebo jeho upravené verze:
Line 60: Line 60:
 V zimním semestru 2009-2010 je v nabídce arabština. Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/padt10-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data. V zimním semestru 2009-2010 je v nabídce arabština. Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/padt10-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.
  
-V zimním semestru 2007-2008 jsou v nabídce slovenština, polština a maďarština. Odkazy na trénovací data následují.+V zimním semestru 2007-2008 jsou v nabídce slovenština, polština a maďarština. V zimním semestru 2011-2012 je to rumunština. Odkazy na trénovací data následují.
  
   * {{user:zeman:ukoly:sk.tok.gz|Slovenská data}}   * {{user:zeman:ukoly:sk.tok.gz|Slovenská data}}
   * {{user:zeman:ukoly:pl.tok.gz|Polská data}}   * {{user:zeman:ukoly:pl.tok.gz|Polská data}}
   * {{user:zeman:ukoly:hu.tok.gz|Maďarská data}}   * {{user:zeman:ukoly:hu.tok.gz|Maďarská data}}
 +  * {{:user:zeman:ukoly:ro.txt.gz|Rumunská data}}

[ Back to the navigation ] [ Back to the content ]