Differences

This shows you the differences between two versions of the page.

--- user:zeman:ukoly:nerizena-morfologicka-analyza [2008/10/20 17:23]
zeman Zpřesnění zadání.
+++ user:zeman:ukoly:nerizena-morfologicka-analyza [2008/10/20 17:59]
zeman Přidána česká trénovací data.
@@ Line 6: / Line 6: @@
 Napište program v Perlu, který rozpozná různé tvary stejných slov v textu v libovolném jazyce, aniž by měl k dispozici morfologický slovník. Přesněji: máte každé slovo rozsekat na morfémy. Příkladem morfému je předpona, kmen, přípona. Slovo může mít několik předpon (např. //před+při+pravit//), několik přípon (např. //chladn+ějš+ímu//), několik kmenů (např. //chlor+o+vodík//) apod. Některé morfémy jsou derivační (jejich prostřednictvím se z jednoho slova odvozuje jiné), jiné jsou ohýbací (jejich prostřednictvím se tvoří různé tvary (pád, číslo, stupeň, čas apod.) téhož slova. Hledejte oba druhy morfémů, rozlišovat je nemusíte. Pro jedno slovo může být správně i několik čtení, a tudíž několik segmentací (např. //proud+it// vs. //pro+uď+it//).
-K dispozici máte seznam slov daného jazyka nalezených v korpusu, včetně jejich četností. Seznam čtěte ze standardního vstupu. Na každém řádku je vždy nejdříve počet výskytů slova, pak mezera a za ní slovo. Předpokládejte, že vstup je kódovaný v UTF-8.
+K dispozici máte seznam slov daného jazyka nalezených v korpusu, včetně jejich četností. Seznam čtěte ze standardního vstupu. Na každém řádku je vždy nejdříve počet výskytů slova, pak mezera a za ní slovo. Předpokládejte, že vstup je kódovaný v UTF-8. Všechna slova dostanete převedená na malá písmena.
 Výstupem vašeho programu (pošlete ho na STDOUT) by měly být morfematické segmentace všech slov, která byla na vstupu, opět v UTF-8. Každé slovo má svůj řádek, na něm je uvedeno jako první položka (četnost slova už se na výstupu neobjeví). Následuje tabulátor ("\t") a za ním jedna nebo více segmentací (analýz). Jednotlivé segmentace jsou oddělené čárkami, jednotlivé morfémy v rámci jedné segmentace jsou oddělené mezerami.
@@ Line 23: / Line 23: @@
   * turečtina
   * arabština
+{{user:zeman:ukoly:cs-konc.txt.gz|Česká data}}
 ===== Další informace =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences