Both sides previous revision
Previous revision
|
Last revision
Both sides next revision
|
user:zeman:ukoly:nerizena-morfologicka-analyza [2008/10/20 17:59] zeman Přidána česká trénovací data. |
user:zeman:ukoly:nerizena-morfologicka-analyza [2009/02/27 17:57] zeman {{template>spolecne}} |
====== Segmentace slov na morfémy ====== | ====== Segmentace slov na morfémy ====== |
//(úloha z počítačového zpracování přirozeného jazyka)// | {{template>spolecne}} |
| |
//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.// | |
| |
Napište program v Perlu, který rozpozná různé tvary stejných slov v textu v libovolném jazyce, aniž by měl k dispozici morfologický slovník. Přesněji: máte každé slovo rozsekat na morfémy. Příkladem morfému je předpona, kmen, přípona. Slovo může mít několik předpon (např. //před+při+pravit//), několik přípon (např. //chladn+ějš+ímu//), několik kmenů (např. //chlor+o+vodík//) apod. Některé morfémy jsou derivační (jejich prostřednictvím se z jednoho slova odvozuje jiné), jiné jsou ohýbací (jejich prostřednictvím se tvoří různé tvary (pád, číslo, stupeň, čas apod.) téhož slova. Hledejte oba druhy morfémů, rozlišovat je nemusíte. Pro jedno slovo může být správně i několik čtení, a tudíž několik segmentací (např. //proud+it// vs. //pro+uď+it//). | Napište program v Perlu, který rozpozná různé tvary stejných slov v textu v libovolném jazyce, aniž by měl k dispozici morfologický slovník. Přesněji: máte každé slovo rozsekat na morfémy. Příkladem morfému je předpona, kmen, přípona. Slovo může mít několik předpon (např. //před+při+pravit//), několik přípon (např. //chladn+ějš+ímu//), několik kmenů (např. //chlor+o+vodík//) apod. Některé morfémy jsou derivační (jejich prostřednictvím se z jednoho slova odvozuje jiné), jiné jsou ohýbací (jejich prostřednictvím se tvoří různé tvary (pád, číslo, stupeň, čas apod.) téhož slova. Hledejte oba druhy morfémů, rozlišovat je nemusíte. Pro jedno slovo může být správně i několik čtení, a tudíž několik segmentací (např. //proud+it// vs. //pro+uď+it//). |
| |
Nápověda: jeden z možných přístupů k tomuto problému je přes "vzory" - získejte seznamy přípon, které se vyskytly se stejnými kmeny, a kmenů, které se vyskytly s těmito příponami. Obdobně lze postupovat pro předpony. | Nápověda: jeden z možných přístupů k tomuto problému je přes "vzory" - získejte seznamy přípon, které se vyskytly se stejnými kmeny, a kmenů, které se vyskytly s těmito příponami. Obdobně lze postupovat pro předpony. |
| |
Programy pište v Perlu a snažte se vyvarovat obratů, které by omezily přenositelnost mezi platformami (např. nevolejte externí programy, které se vyskytují pouze v Unixu, resp. pouze ve Windows). | |
| |
===== Jazyky ===== | ===== Jazyky ===== |