Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:ukoly:nerizena-morfologicka-analyza [2008/10/20 17:23] zeman Zpřesnění zadání. |
user:zeman:ukoly:nerizena-morfologicka-analyza [2008/10/20 17:59] zeman Přidána česká trénovací data. |
||
---|---|---|---|
Line 6: | Line 6: | ||
Napište program v Perlu, který rozpozná různé tvary stejných slov v textu v libovolném jazyce, aniž by měl k dispozici morfologický slovník. Přesněji: máte každé slovo rozsekat na morfémy. Příkladem morfému je předpona, kmen, přípona. Slovo může mít několik předpon (např. // | Napište program v Perlu, který rozpozná různé tvary stejných slov v textu v libovolném jazyce, aniž by měl k dispozici morfologický slovník. Přesněji: máte každé slovo rozsekat na morfémy. Příkladem morfému je předpona, kmen, přípona. Slovo může mít několik předpon (např. // | ||
- | K dispozici máte seznam slov daného jazyka nalezených v korpusu, včetně jejich četností. Seznam čtěte ze standardního vstupu. Na každém řádku je vždy nejdříve počet výskytů slova, pak mezera a za ní slovo. Předpokládejte, | + | K dispozici máte seznam slov daného jazyka nalezených v korpusu, včetně jejich četností. Seznam čtěte ze standardního vstupu. Na každém řádku je vždy nejdříve počet výskytů slova, pak mezera a za ní slovo. Předpokládejte, |
Výstupem vašeho programu (pošlete ho na STDOUT) by měly být morfematické segmentace všech slov, která byla na vstupu, opět v UTF-8. Každé slovo má svůj řádek, na něm je uvedeno jako první položka (četnost slova už se na výstupu neobjeví). Následuje tabulátor (" | Výstupem vašeho programu (pošlete ho na STDOUT) by měly být morfematické segmentace všech slov, která byla na vstupu, opět v UTF-8. Každé slovo má svůj řádek, na něm je uvedeno jako první položka (četnost slova už se na výstupu neobjeví). Následuje tabulátor (" | ||
Line 23: | Line 23: | ||
* turečtina | * turečtina | ||
* arabština | * arabština | ||
+ | |||
+ | {{user: | ||
===== Další informace ===== | ===== Další informace ===== |