[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

Dvojúrovňová morfologie a PC-Kimmo

Stáhněte z internetu (http://www.sil.org/pckimmo/) morfologický analyzátor Evana Antwortha PC-Kimmo (implementuje dvojúrovňovou morfologii podle Kimma Koskenniemiho, 1983), nainstalujte ho a rozchoďte ho.

Vaším úkolem bude vytvořit pro PC-Kimmo slovník s pravidly (soubory .lex, .rul, popř. též .grm) pro jednu z následujících skupin českých slov:

Dostanete k dispozici data z PDT, odkud můžete vytáhnout seznam českých slov daného druhu. Pravidla tvarosloví zjistěte v mluvnici (např. Petr Karlík et al.: Příruční mluvnice češtiny. Nakladatelství Lidové noviny, Praha, 1996.)

Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce.

Poznámky k architektuře

PC-Kimmo je napsáno v C. Kromě zdrojáků pro Unix je k dispozici i přeložený program pro DOS/Windows. Obsahuje vzorový slovník angličtiny.

Data

Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky Optional information vyplňte “NPFL007.ltag”. O registraci bych se měl dozvědět a poslat vám odkaz na data.

V datech je ke každému slovu trojice informací, oddělených lomítky (jednotlivé trojice jsou pak oddělené mezerami):

V případě, že lomítko bylo součástí textu, je nahrazeno entitou “&slash;”; kvůli tomu je také znak “&” nahrazen entitou “&”.

Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs.

Jestliže je vaším úkolem např. napsat morfologii sloves, potřebujete z dat vytáhnout všechna slovesa. Hledáte tedy trojice, ve kterých značka začíná písmenem V. Od každého slovesa vás zajímá jeho lemma - to je heslo, které budete chtít vložit do svého morfologického slovníku. Slovní tvar by vás mohl zajímat také, protože vám pomůže odhadnout časovací třídu, do které sloveso patří (třídu totiž ze značky nezjistíte).

Skripty

Kromě zmíněných souborů pro PC-Kimmo byste měli odevzdat také Perlové skripty, které vám pomůžou s již zmiňovanou extrakcí dat z korpusu. Typicky zřejmě na standardním vstupu takového skriptu bude korpus, na standardním výstupu pak slovníkový soubor ve formátu .lex.

Na rozdíl od jiných zápočtových úloh tento váš skript musí být jazykově závislý. Např. musí vědět, že slovesa, jejichž 3. osoba jednotného čísla končí na “-á”, patří do jiné třídy, než ta, která končí na “-í”. Taky musí vědět, jakou část lemmatu odtrhnout, abyste dostali kořen slova. Budete pracovat s češtinou, abyste měli šanci poznat, zda se program chová rozumně. Snažte se nicméně myslet na to, aby úprava programu pro jiný jazyk byla co nejméně náročná. Tomu se dá pomoci např. umístěním jazykově závislých parametrů do externího souboru místo do zdrojáku.

Další informace

Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).

Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.


[ Back to the navigation ] [ Back to the content ]