[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Morfologické značkování

Napište dva programy v Perlu, trénovací a testovací. První se učí značkovat a naučené znalosti ukládá na disk, druhý značkuje.

Pro trénování předpokládejte, že máte k dispozici korpus s vyznačenými hranicemi slov a vět, kde ke každému slovu je uvedeno jednak jeho správné lemma a značka, jednak všechny ostatní dvojice lemma-značka, které pro toto slovo připouští morfologická analýza (slovník).

Pro testování přepokládejte, že máte k dispozici jiný korpus, ve kterém z výše uvedených informací chybí určení správné dvojice lemma-značka; ostatní informace jsou k dispozici. Máte za úkol vybrat správnou dvojici lemma-značka.

Použijte statistický model, jehož parametry jsou značkované slovo a značka předchozího slova. Vyhlazujte pomocí méně specifického modelu, který se kouká pouze na značkované slovo, případně pomocí hloupého modelu, který bere jen pravděpodobnost značky bez ohledu na slovo. Alternativní rozšíření: Nebuďte hladoví! Ověřte, zda a jak moc pomůže, když nebudete brát v každém okamžiku lokálně nejpravděpodobnější značku, ale budete se snažit maximalizovat pravděpodobnost posloupnosti značek pro celou větu.

Srovnejte úspěšnost svého taggeru s naivním taggerem a odpovězte si na obdobné otázky, jaké klade zadání úkolu s Brillovým taggerem.


[ Back to the navigation ] [ Back to the content ]