====== Varování ====== Toto jsou Danovy tipy na případné další úlohy z PZPJ. Tato stránka není tajná, tudíž není chráněná heslem, ale pokud nejste já, tak vám bude k ničemu, protože úlohy zde uvedené letos pravděpodobně nejsou a ani nebudou vypsány. ====== Telefonní čísla ====== V korpusu (typicky v textech stažených z webu) rozpoznejte telefonní čísla a převeďte je do jednotného tvaru, např. +420-229-191-111. Kromě vlastního textu budete mít k dispozici hranice dokumentu (tj. budete vědět, co z okolního textu se vyskytlo na téže webové stránce) a budete znát adresu, ze které byl dokument stažen (z čehož se dá někdy usuzovat na zemi, ke které se telefonní číslo vztahuje). Díky tomu také budete moci v korpusu najít další stránky ze stejného serveru, pokud je budete umět využít. Z okolního textu se snažte zjistit, do jaké země a města číslo vede. Takto vybudujte seznam telefonních předvoleb. Naopak pokud máte telefon bez předvolby a znáte zemi a město, doplňte předvolbu podle seznamu, pokud už ji v něm máte. Z okolního textu se snažte zjistit jméno vlastníka telefonního čísla (člověk, instituce nebo obojí) a vybudujte telefonní seznam. Vyzkoumejte, do jaké míry lze tuto úlohu řešit jazykově nezávisle (telefonní číslo lze často rozpoznat, i když okolní text je třeba čínsky a vy neznáte čínský ekvivalent české zkratky "tel.") ====== Převod dvojúrovňových pravidel na převodníky pro PC-Kimmo ====== Vstup: dvojúrovňové pravidlo s kontextem ve formátu à la Karttunen a Xerox. Výstup: převodník realizující toto pravidlo ve formátu pro PC-Kimmo. ====== Částečná syntaktická analýza ====== Uzávorkovat jednoduché jmenné fráze (hlavou je podstatné jméno, přídavné jméno nebo zájmeno), předložkové fráze a koordinace. Použít rekurzivně volané regulární výrazy (RTN). K dispozici dostanete ručně označkovaná data, na kterých si budete moci testovat úspěšnost pravidel. ====== Kombinace klasifikátorů ====== Zkombinovat výstupy různých klasifikátorů, taggerů, parserů apod. Využít hlasování, natrénovat výběrový klasifikátor, např. rozhodovací strom pomocí C4.5. K dispozici dostanete data se vzorovou ruční anotací a výstupními anotacemi od všech zúčastněných klasifikátorů. ====== Morfo ====== David Kolovratník a Leoš Přikryl reimplementovali morfologický analyzátor Jana Hajiče a nazvali ho Morfo (http://ufal.mff.cuni.cz/morfo/). Je tam i grafický Perlový nástroj pro úpravy slovníku. Nemám zatím v hlavě žádné konkrétní zadání, ale určitě by šlo vymyslet nějakou studentskou práci s tímhle analyzátorem, aby si s ním studenti pohráli. Aplikovat ho na korpus, zjistit pokrytí slov (případně nějak i zjistit, že slovo je sice pokryto slovníkem, ale v úplně jiném významu), získat kompletní obsah slovníku, zkoušet přenést slovník pod PC-Kimmo, až po pokus naplnit slovník úplně jiným jazykem. Taky by stálo za to zjistit, zda lze z Morfa získat rozsekání slova na morfémy (hlavní úkol morfologické analýzy je totiž jiný: ke slovnímu tvaru dodat množinu dvojic lemma-značka. ====== Další ====== * Transkripce anglického přepisu hindštiny do hindštiny. * Grammar checker (na základě výstupu parseru a taggeru). * Příprava dat pro český Morpho Challenge.