Stáhněte z internetu (např. z http://w3.msi.vxu.se/~nivre/research/MaltParser.html) Malt parser Joakima Nivreho, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte parser na trénovacích datech, rozeberte jím testovací data a zjistěte, jaké úspěšnosti parser dosahuje.
Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s parserem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost parseru.
Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - to se týká zejména těch, které přímo nevolají Nivreho software. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Skripty by neměly záviset na konkrétním rozmístění souborů na vašem disku. Samozřejmě budou muset vědět, kde máte vybalený parser s příslušenstvím, k tomu použijte proměnnou prostředí MALT
. (V Perlu dostupná jako $ENV{MALT}
.) Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.
Malt parser je k dispozici bez zdrojáků, přeložený pro tyto architektury:
Poznámka: Nová verze už je open source v Javě!
Následuje přehled některých skriptů, které byste měli vytvořit. Nejde o vyčerpávající seznam, výše navržené experimenty budou vyžadovat i další funkce.
Označkovaná data ve formátu CoNLL. Každé slovo leží na samostatném řádku, jsou tam k němu různé údaje (např. lemma, značka) oddělené tabulátory. Věty jsou oddělené prázdným řádkem.
Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky Optional information vyplňte “NPFL007”. O registraci bych se měl dozvědět a poslat vám odkaz na data.
Data pocházejí ze švédského korpusu Talbanken05, který je volně dostupný na webu.
stáhnout
Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu.
stáhnout
Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.