Table of Contents
Varování
Toto jsou Danovy tipy na případné další úlohy z PZPJ. Tato stránka není tajná, tudíž není chráněná heslem, ale pokud nejste já, tak vám bude k ničemu, protože úlohy zde uvedené letos pravděpodobně nejsou a ani nebudou vypsány.
Telefonní čísla
V korpusu (typicky v textech stažených z webu) rozpoznejte telefonní čísla a převeďte je do jednotného tvaru, např. +420-229-191-111. Kromě vlastního textu budete mít k dispozici hranice dokumentu (tj. budete vědět, co z okolního textu se vyskytlo na téže webové stránce) a budete znát adresu, ze které byl dokument stažen (z čehož se dá někdy usuzovat na zemi, ke které se telefonní číslo vztahuje). Díky tomu také budete moci v korpusu najít další stránky ze stejného serveru, pokud je budete umět využít.
Z okolního textu se snažte zjistit, do jaké země a města číslo vede. Takto vybudujte seznam telefonních předvoleb. Naopak pokud máte telefon bez předvolby a znáte zemi a město, doplňte předvolbu podle seznamu, pokud už ji v něm máte.
Z okolního textu se snažte zjistit jméno vlastníka telefonního čísla (člověk, instituce nebo obojí) a vybudujte telefonní seznam.
Vyzkoumejte, do jaké míry lze tuto úlohu řešit jazykově nezávisle (telefonní číslo lze často rozpoznat, i když okolní text je třeba čínsky a vy neznáte čínský ekvivalent české zkratky “tel.”)
Převod dvojúrovňových pravidel na převodníky pro PC-Kimmo
Vstup: dvojúrovňové pravidlo s kontextem ve formátu à la Karttunen a Xerox.
Výstup: převodník realizující toto pravidlo ve formátu pro PC-Kimmo.
Částečná syntaktická analýza
Uzávorkovat jednoduché jmenné fráze (hlavou je podstatné jméno, přídavné jméno nebo zájmeno), předložkové fráze a koordinace. Použít rekurzivně volané regulární výrazy (RTN).
K dispozici dostanete ručně označkovaná data, na kterých si budete moci testovat úspěšnost pravidel.
Kombinace klasifikátorů
Zkombinovat výstupy různých klasifikátorů, taggerů, parserů apod. Využít hlasování, natrénovat výběrový klasifikátor, např. rozhodovací strom pomocí C4.5.
K dispozici dostanete data se vzorovou ruční anotací a výstupními anotacemi od všech zúčastněných klasifikátorů.
Morfo
David Kolovratník a Leoš Přikryl reimplementovali morfologický analyzátor Jana Hajiče a nazvali ho Morfo (http://ufal.mff.cuni.cz/morfo/). Je tam i grafický Perlový nástroj pro úpravy slovníku. Nemám zatím v hlavě žádné konkrétní zadání, ale určitě by šlo vymyslet nějakou studentskou práci s tímhle analyzátorem, aby si s ním studenti pohráli. Aplikovat ho na korpus, zjistit pokrytí slov (případně nějak i zjistit, že slovo je sice pokryto slovníkem, ale v úplně jiném významu), získat kompletní obsah slovníku, zkoušet přenést slovník pod PC-Kimmo, až po pokus naplnit slovník úplně jiným jazykem.
Taky by stálo za to zjistit, zda lze z Morfa získat rozsekání slova na morfémy (hlavní úkol morfologické analýzy je totiž jiný: ke slovnímu tvaru dodat množinu dvojic lemma-značka.
Další
- Transkripce anglického přepisu hindštiny do hindštiny.
- Grammar checker (na základě výstupu parseru a taggeru).
- Příprava dat pro český Morpho Challenge.