Toto jsou Danovy tipy na případné další úlohy z PZPJ. Tato stránka není tajná, tudíž není chráněná heslem, ale pokud nejste já, tak vám bude k ničemu, protože úlohy zde uvedené letos pravděpodobně nejsou a ani nebudou vypsány.
V korpusu (typicky v textech stažených z webu) rozpoznejte telefonní čísla a převeďte je do jednotného tvaru, např. +420-229-191-111. Kromě vlastního textu budete mít k dispozici hranice dokumentu (tj. budete vědět, co z okolního textu se vyskytlo na téže webové stránce) a budete znát adresu, ze které byl dokument stažen (z čehož se dá někdy usuzovat na zemi, ke které se telefonní číslo vztahuje). Díky tomu také budete moci v korpusu najít další stránky ze stejného serveru, pokud je budete umět využít.
Z okolního textu se snažte zjistit, do jaké země a města číslo vede. Takto vybudujte seznam telefonních předvoleb. Naopak pokud máte telefon bez předvolby a znáte zemi a město, doplňte předvolbu podle seznamu, pokud už ji v něm máte.
Z okolního textu se snažte zjistit jméno vlastníka telefonního čísla (člověk, instituce nebo obojí) a vybudujte telefonní seznam.
Vyzkoumejte, do jaké míry lze tuto úlohu řešit jazykově nezávisle (telefonní číslo lze často rozpoznat, i když okolní text je třeba čínsky a vy neznáte čínský ekvivalent české zkratky “tel.”)
Vstup: dvojúrovňové pravidlo s kontextem ve formátu à la Karttunen a Xerox.
Výstup: převodník realizující toto pravidlo ve formátu pro PC-Kimmo.
Uzávorkovat jednoduché jmenné fráze (hlavou je podstatné jméno, přídavné jméno nebo zájmeno), předložkové fráze a koordinace. Použít rekurzivně volané regulární výrazy (RTN).
K dispozici dostanete ručně označkovaná data, na kterých si budete moci testovat úspěšnost pravidel.
Zkombinovat výstupy různých klasifikátorů, taggerů, parserů apod. Využít hlasování, natrénovat výběrový klasifikátor, např. rozhodovací strom pomocí C4.5.
K dispozici dostanete data se vzorovou ruční anotací a výstupními anotacemi od všech zúčastněných klasifikátorů.
David Kolovratník a Leoš Přikryl reimplementovali morfologický analyzátor Jana Hajiče a nazvali ho Morfo (http://ufal.mff.cuni.cz/morfo/). Je tam i grafický Perlový nástroj pro úpravy slovníku. Nemám zatím v hlavě žádné konkrétní zadání, ale určitě by šlo vymyslet nějakou studentskou práci s tímhle analyzátorem, aby si s ním studenti pohráli. Aplikovat ho na korpus, zjistit pokrytí slov (případně nějak i zjistit, že slovo je sice pokryto slovníkem, ale v úplně jiném významu), získat kompletní obsah slovníku, zkoušet přenést slovník pod PC-Kimmo, až po pokus naplnit slovník úplně jiným jazykem.
Taky by stálo za to zjistit, zda lze z Morfa získat rozsekání slova na morfémy (hlavní úkol morfologické analýzy je totiž jiný: ke slovnímu tvaru dodat množinu dvojic lemma-značka.