[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Pojmenované entity

Pojmenované entity (named entities) bývají v počítačovém zpracování přirozeného jazyka definovány různě, ale většinou zahrnují vlastní jména osob, zeměpisné názvy a názvy organizací (včetně zkratek). Mohou být víceslovné.

Napište program v Perlu, který se pokusí odhalit pojmenované entity v textu opakovanými průchody na základě několika příkladů pojmenovaných entit, které mu ukážete na začátku (Collinsova metoda). Např. na začátku řeknete, že Bill Gates a George Bush jsou osoby, New York, California a USA jsou místa a IBM a Microsoft jsou organizace. Program se podívá do textu a zjistí, že před jménem osoby se často vyskytují slova jako Mr., president, dr. apod. Pak zjistí, že za slovy Mr., president, dr. apod. se vyskytují i jiná slova, která by tedy mohla být jmény osob. Tím se mu množina jmen rozroste a nyní rozpozná další “spínače” - slova, která se vyskytují kolem jmen osob a signalizují, že něco je jméno osoby. A tak pořád dokola, až už iterace nepřinesou nic moc nového.

Vypište seznam pojmenovaných entit, které v textu najdete po N iteracích (určete typ: osoba, místo, organizace). Vycházejí vám jako pojmenované entity i slova začínající malým písmenem? Je to dobře? Pokud ne, volitelně je zablokujte. Porovnejte výsledky s prostým seznamem slov začínajících velkým písmenem. Snažte se poznat i víceslovné entity.


[ Back to the navigation ] [ Back to the content ]