Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:hackovani [2007/10/17 18:57] zeman vytvořeno |
user:zeman:ukoly:hackovani [2007/10/17 22:57] zeman Další informace. |
||
---|---|---|---|
Line 9: | Line 9: | ||
- Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout. | - Trénovací program. Projde trénovací data (tokenizovaný text v UTF-8) a naučí se slovník, tj. pro každý řetězec bez diakritiky všechny možné řetězce (s diakritikou či bez), ze kterých mohl vzniknout. | ||
- Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8). | - Vlastní háčkovač. Čte ze standardního vstupu tokenizovaný text bez diakritiky, na standardní výstup vypisuje tentýž text s diakritikou (v UTF-8). | ||
- | - Za pomoci trénovacího programu nebo jeho upravené verze najděte v daných datech slova, pro která je háčkování nejvíce nejednoznačné (tj. existuje největší škála možností, jak tato slova oháčkovat). Zjistěte, jaké procento výskytů slov neumožňuje přidání žádné diakritiky, jaké procento vyžaduje přidání diakritiky, ale jen jediným způsobem, | + | - Za pomoci trénovacího programu nebo jeho upravené verze: |
+ | - Najděte v daných datech slova, pro která je háčkování nejvíce nejednoznačné (tj. existuje největší škála možností, jak tato slova oháčkovat). | ||
+ | - Zjistěte, jaké procento výskytů slov neumožňuje přidání žádné diakritiky. | ||
+ | - Zjistěte, jaké procento vyžaduje přidání diakritiky, ale jen jediným způsobem. | ||
+ | - Zjistěte, jaké procento výskytů slov lze přepsat na více než jednu oháčkovanou variantu (včetně varianty bez diakritiky, pokud je platným slovem). | ||
+ | - Zjistěte, jaká je průměrná míra nejednoznačnosti (tj. průměrný počet možných odpovědí) na jeden slovní výskyt. | ||
+ | - Data, která dostáváte, | ||
Programy pište v Perlu a snažte se vyvarovat obratů, které by omezily přenositelnost mezi platformami (např. nevolejte externí programy, které se vyskytují pouze v Unixu, resp. pouze ve Windows). | Programy pište v Perlu a snažte se vyvarovat obratů, které by omezily přenositelnost mezi platformami (např. nevolejte externí programy, které se vyskytují pouze v Unixu, resp. pouze ve Windows). | ||
+ | |||
+ | ===== Trénování ===== | ||
+ | |||
+ | Program '' | ||
+ | |||
+ | ===== Háčkování ===== | ||
+ | |||
+ | Program '' | ||
+ | |||
+ | Program píše na standardní výstup. Posílá tam tentýž text obohacený o diakritiku. Pozor, nesmíte změnit počet mezer, zalomení řádku apod.! Na výstupu má být přesně stejný počet znaků jako na vstupu, akorát místo znaků bez diakritiky se mohou objevit znaky s diakritikou, | ||
+ | |||
+ | ===== Další informace ===== | ||
+ | |||
+ | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http:// | ||
+ | |||
+ | Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | ||
+ | |||
+ | Další informace k úkolu najdete v http:// | ||
+ | |||
+ | V zimním semestru 2007-2008 jsou v nabídce slovenština, | ||
+ | |||
+ | * {{user: | ||
+ | * {{user: | ||
+ | * {{user: | ||