[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:hackovani [2009/12/14 14:15]
zeman Volání programů, aby příště bylo jasno.
user:zeman:ukoly:hackovani [2013/10/08 08:07] (current)
zeman quest
Line 2: Line 2:
 {{template>spolecne}} {{template>spolecne}}
  
-Napište program, který doplní do textu chybějící diakritiku. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Můžete předpokládat, že jazyk, se kterým program pracuje, píše abecedou na bázi latinky. Vše ostatní, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.)+Napište program, který doplní do textu chybějící diakritiku. K testování dostanete data v konkrétním jazyku, váš program by však měl být v maximální možné míře jazykově nezávislý. Můžete předpokládat, že jazyk, se kterým program pracuje, píše abecedou na bázi latinky. Vše ostatní, co potřebuje o konkrétním jazyku vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy daný jazyk ovládat nemusíte.)
  
 Úloha má tyto části: Úloha má tyto části:
-  - Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout.+  - Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout.
   - Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8).   - Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8).
   - Za pomoci trénovacího programu nebo jeho upravené verze:   - Za pomoci trénovacího programu nebo jeho upravené verze:
Line 48: Line 48:
  
 Pro učení budete mít k dispozici vokalizované (= opatřené samohláskami) texty z Pražského arabského závislostního korpusu (PADT). Pro učení budete mít k dispozici vokalizované (= opatřené samohláskami) texty z Pražského arabského závislostního korpusu (PADT).
- 
  
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním.
Line 60: Line 59:
 V zimním semestru 2009-2010 je v nabídce arabština. Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/padt10-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data. V zimním semestru 2009-2010 je v nabídce arabština. Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/padt10-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.
  
-V zimním semestru 2007-2008 jsou v nabídce slovenština, polština a maďarština. Odkazy na trénovací data následují. +V zimním semestru 2007-2008 byly v nabídce slovenština, polština a maďarština; v dalších letech se nabídka postupně obměňovalaNásledující odkazy vám řeknou, jak se dostat k trénovacím datům.
- +
-  * {{user:zeman:ukoly:sk.tok.gz|Slovenská data}} +
-  * {{user:zeman:ukoly:pl.tok.gz|Polská data}} +
-  * {{user:zeman:ukoly:hu.tok.gz|Maďarská data}}+
  
 +  * {{user:zeman:ukoly:sk.tok.gz|Slovenská data}} (2007-2008)
 +  * {{user:zeman:ukoly:pl.tok.gz|Polská data}} (2007-2008)
 +  * {{user:zeman:ukoly:hu.tok.gz|Maďarská data}} (2007-2008)
 +  * Arabská data (2009-2010): samostatná licence (odkaz na formulář výše)
 +  * {{user:zeman:ukoly:ro.txt.gz|Rumunská data}} (2011-2012)
 +  * Řecká data (2012-2013): samostatná licence, kontaktujte mne

[ Back to the navigation ] [ Back to the content ]