[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Brillův tagger

Stáhněte z internetu (např. z http://www.cs.jhu.edu/~brill/RBT1_14.tar.Z) tagger Erika Brilla, nainstalujte ho a rozchoďte ho. Dostanete k dispozici anotovaný korpus, který si rozdělíte na trénovací a testovací data. Natrénujte tagger na trénovacích datech, označkujte testovací data a zjistěte, jaké úspěšnosti tagger dosahuje.

Napište si svůj vlastní naivní “tagger”, který každému slovu přiřadí nejpravděpodobnější značku. Porovnejte úspěšnost svého a Brillova taggeru; porovnejte také časovou a prostorovou náročnost obou programů (jak dlouho trvalo trénování? jak dlouho značkování? kolik místa na disku zabírá natrénovaný model?) Zjistěte 5 nejčastějších druhů chyb vašeho a Brillova taggeru. (Např. “25 % všech chyb byl případ, kdy správná je značka N4 (podstatné jméno ve 4. pádě), ale tagger přiřadil značku N1 (podstatné jméno v 1. pádě). Tato chyba se nejčastěji týkala slova “předpis”.”)

Zjistěte míru nejednoznačnosti trénovacích dat (kolik možných značek v průměru připadá na každý slovní tvar? jaké procento slov připouští jen jedinou značku? jaký je nejvyšší počet značek na slovo a které slovo a značky to jsou?). Zjistěte pokrytí testovacích dat trénovacími (jaké procento testovacích slov jsme aspoň jednou potkali v trénovacích datech?)


[ Back to the navigation ] [ Back to the content ]