Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:ukoly:trideni-jazyku [2007/10/28 12:14] zeman Překlep. |
user:zeman:ukoly:trideni-jazyku [2013/10/08 08:05] (current) zeman quest |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Rozpoznávání a třídění jazyků ====== | ====== Rozpoznávání a třídění jazyků ====== | ||
| - | //(úloha z počítačového zpracování přirozeného jazyka)// | + | {{template> |
| - | + | ||
| - | // | + | |
| Napište program, který dokáže rozpoznat jazyk dokumentu, věty a slova a roztřídit vstupní text podle jazyků. Součástí zadání bude konkrétní skupina jazyků, které má program umět poznat, váš program by však měl být jazykově nezávislý. Vše, co potřebuje o konkrétních jazycích vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy dané jazyky ovládat nemusíte, naopak je možná výhodou, když jsou vám zcela neznámé.) | Napište program, který dokáže rozpoznat jazyk dokumentu, věty a slova a roztřídit vstupní text podle jazyků. Součástí zadání bude konkrétní skupina jazyků, které má program umět poznat, váš program by však měl být jazykově nezávislý. Vše, co potřebuje o konkrétních jazycích vědět, by měl být schopen se naučit z dat. (Z toho plyne, že vy dané jazyky ovládat nemusíte, naopak je možná výhodou, když jsou vám zcela neznámé.) | ||
| Line 12: | Line 10: | ||
| Odevzdávat budete oba programy a natrénované statistiky. | Odevzdávat budete oba programy a natrénované statistiky. | ||
| - | |||
| - | Programy pište v Perlu a snažte se vyvarovat obratů, které by omezily přenositelnost mezi platformami (např. nevolejte externí programy, které se vyskytují pouze v Unixu, resp. pouze ve Windows). | ||
| ===== Specifikace programu pro trénování jazyků ===== | ===== Specifikace programu pro trénování jazyků ===== | ||
| Line 51: | Line 47: | ||
| Není-li zadána volba '' | Není-li zadána volba '' | ||
| + | |||
| Line 68: | Line 65: | ||
| * Struktura langs, patřící celému odstavci, se píše hned za počáteční značku odstavce. | * Struktura langs, patřící celému odstavci, se píše hned za počáteční značku odstavce. | ||
| * Struktura langs, patřící slovu, se píše hned za **koncovou** značku slova (tedy ne dovnitř slova, ale za něj). | * Struktura langs, patřící slovu, se píše hned za **koncovou** značku slova (tedy ne dovnitř slova, ale za něj). | ||
| - | * Číselný parametr N říká, kolik nejpravděpodobnějších jazyků má být ve strukturách langs vypsáno. Je-li N=" | + | * Číselný parametr N říká, kolik nejpravděpodobnějších jazyků má být ve strukturách langs vypsáno. Je-li N=" |
| * V příkladu si všimněte, že na začátku dokumentu XML se uvádí značka ''<? | * V příkladu si všimněte, že na začátku dokumentu XML se uvádí značka ''<? | ||
| Line 104: | Line 101: | ||
| ===== Další informace ===== | ===== Další informace ===== | ||
| - | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/ | + | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/ |
| Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | ||
