[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Varování

Toto jsou Danovy tipy na případné další úlohy z PZPJ. Tato stránka není tajná, tudíž není chráněná heslem, ale pokud nejste já, tak vám bude k ničemu, protože úlohy zde uvedené letos pravděpodobně nejsou a ani nebudou vypsány.

Telefonní čísla

V korpusu (typicky v textech stažených z webu) rozpoznejte telefonní čísla a převeďte je do jednotného tvaru, např. +420-229-191-111. Kromě vlastního textu budete mít k dispozici hranice dokumentu (tj. budete vědět, co z okolního textu se vyskytlo na téže webové stránce) a budete znát adresu, ze které byl dokument stažen (z čehož se dá někdy usuzovat na zemi, ke které se telefonní číslo vztahuje). Díky tomu také budete moci v korpusu najít další stránky ze stejného serveru, pokud je budete umět využít.

Z okolního textu se snažte zjistit, do jaké země a města číslo vede. Takto vybudujte seznam telefonních předvoleb. Naopak pokud máte telefon bez předvolby a znáte zemi a město, doplňte předvolbu podle seznamu, pokud už ji v něm máte.

Z okolního textu se snažte zjistit jméno vlastníka telefonního čísla (člověk, instituce nebo obojí) a vybudujte telefonní seznam.

Vyzkoumejte, do jaké míry lze tuto úlohu řešit jazykově nezávisle (telefonní číslo lze často rozpoznat, i když okolní text je třeba čínsky a vy neznáte čínský ekvivalent české zkratky “tel.”)

Převod dvojúrovňových pravidel na převodníky pro PC-Kimmo

Vstup: dvojúrovňové pravidlo s kontextem ve formátu à la Karttunen a Xerox.

Výstup: převodník realizující toto pravidlo ve formátu pro PC-Kimmo.

Částečná syntaktická analýza

Uzávorkovat jednoduché jmenné fráze (hlavou je podstatné jméno, přídavné jméno nebo zájmeno), předložkové fráze a koordinace. Použít rekurzivně volané regulární výrazy (RTN).

K dispozici dostanete ručně označkovaná data, na kterých si budete moci testovat úspěšnost pravidel.

Kombinace klasifikátorů

Zkombinovat výstupy různých klasifikátorů, taggerů, parserů apod. Využít hlasování, natrénovat výběrový klasifikátor, např. rozhodovací strom pomocí C4.5.

K dispozici dostanete data se vzorovou ruční anotací a výstupními anotacemi od všech zúčastněných klasifikátorů.


[ Back to the navigation ] [ Back to the content ]