This is an old revision of the document!
Morfologické značkování
Napište dva programy v Perlu, trénovací a testovací. První se učí značkovat a naučené znalosti ukládá na disk, druhý značkuje.
Pro trénování předpokládejte, že máte k dispozici korpus s vyznačenými hranicemi slov a vět, kde ke každému slovu je uvedeno jednak jeho správné lemma a značka, jednak všechny ostatní dvojice lemma-značka, které pro toto slovo připouští morfologická analýza (slovník).
Pro testování přepokládejte, že máte k dispozici jiný korpus, ve kterém z výše uvedených informací chybí určení správné dvojice lemma-značka; ostatní informace jsou k dispozici. Máte za úkol vybrat správnou dvojici lemma-značka.
Použijte statistický model, jehož parametry jsou značkované slovo a značka předchozího slova. Vyhlazujte pomocí méně specifického modelu, který se kouká pouze na značkované slovo, případně pomocí hloupého modelu, který bere jen pravděpodobnost značky bez ohledu na slovo. Alternativní rozšíření: Nebuďte hladoví! Ověřte, zda a jak moc pomůže, když nebudete brát v každém okamžiku lokálně nejpravděpodobnější značku, ale budete se snažit maximalizovat pravděpodobnost posloupnosti značek pro celou větu.
Srovnejte úspěšnost svého taggeru s naivním taggerem a odpovězte si na obdobné otázky, jaké klade zadání úkolu s Brillovým taggerem.