====== Dvojúrovňová morfologie a PC-Kimmo ======

Stáhněte z internetu (http://www.sil.org/pckimmo/) morfologický analyzátor Evana Antwortha PC-Kimmo (implementuje dvojúrovňovou morfologii podle Kimma Koskenniemiho, 1983), nainstalujte ho a rozchoďte ho.

Vaším úkolem bude vytvořit pro PC-Kimmo slovník s pravidly (soubory .lex, .rul, popř. též .grm) pro jednu z následujících skupin českých slov:
  * Podstatná jména
  * Přídavná jména a příslovce, včetně odvozování mezi nimi
  * Slovesa

Dostanete k dispozici data z PDT, odkud můžete vytáhnout seznam českých slov daného druhu. Pravidla tvarosloví zjistěte v mluvnici (např. Petr Karlík et al.: //Příruční mluvnice češtiny//. Nakladatelství Lidové noviny, Praha, 1996.)

Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce.

===== Poznámky k architektuře =====

PC-Kimmo je napsáno v C. Kromě zdrojáků pro Unix je k dispozici i přeložený program pro DOS/Windows. Obsahuje vzorový slovník angličtiny.

===== Data =====

Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007.ltag". O registraci bych se měl dozvědět a poslat vám odkaz na data.

V datech je ke každému slovu trojice informací, oddělených lomítky (jednotlivé trojice jsou pak oddělené mezerami):
  * slovní tvar
  * lemma (hlavní tvar, slovníkové heslo)
  * morfologická značka (zakódovaná informace o slovním druhu a mluvnických kategoriích)
V&nbsp;případě, že lomítko bylo součástí textu, je nahrazeno entitou "&slash;"; kvůli tomu je také znak "&" nahrazen entitou "&amp;".

Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs.

Jestliže je vaším úkolem např. napsat morfologii sloves, potřebujete z dat vytáhnout všechna slovesa. Hledáte tedy trojice, ve kterých značka začíná písmenem V. Od každého slovesa vás zajímá jeho lemma - to je heslo, které budete chtít vložit do svého morfologického slovníku. Slovní tvar by vás mohl zajímat také, protože vám pomůže odhadnout časovací třídu, do které sloveso patří (třídu totiž ze značky nezjistíte).

===== Skripty =====

Kromě zmíněných souborů pro PC-Kimmo byste měli odevzdat také Perlové skripty, které vám pomůžou s již zmiňovanou extrakcí dat z korpusu. Typicky zřejmě na standardním vstupu takového skriptu bude korpus, na standardním výstupu pak slovníkový soubor ve formátu .lex.

Na rozdíl od jiných zápočtových úloh tento váš skript musí být jazykově závislý. Např. musí vědět, že slovesa, jejichž 3. osoba jednotného čísla končí na "-á", patří do jiné třídy, než ta, která končí na "-í". Taky musí vědět, jakou část lemmatu odtrhnout, abyste dostali kořen slova. Budete pracovat s češtinou, abyste měli šanci poznat, zda se program chová rozumně. Snažte se nicméně myslet na to, aby úprava programu pro jiný jazyk byla co nejméně náročná. Tomu se dá pomoci např. umístěním jazykově závislých parametrů do externího souboru místo do zdrojáku.

===== Další informace =====

Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).

Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.