This is an old revision of the document!
Pojmenované entity
Pojmenované entity (named entities) bývají v počítačovém zpracování přirozeného jazyka definovány různě, ale většinou zahrnují vlastní jména osob, zeměpisné názvy a názvy organizací (včetně zkratek). Mohou být víceslovné.
Napište program v Perlu, který se pokusí odhalit pojmenované entity v textu opakovanými průchody na základě několika příkladů pojmenovaných entit, které mu ukážete na začátku (Collinsova metoda). Např. na začátku řeknete, že Bill Gates a George Bush jsou osoby, New York, California a USA jsou místa a IBM a Microsoft jsou organizace. Program se podívá do textu a zjistí, že před jménem osoby se často vyskytují slova jako Mr., president, dr. apod. Pak zjistí, že za slovy Mr., president, dr. apod. se vyskytují i jiná slova, která by tedy mohla být jmény osob. Tím se mu množina jmen rozroste a nyní rozpozná další “spínače” - slova, která se vyskytují kolem jmen osob a signalizují, že něco je jméno osoby. A tak pořád dokola, až už iterace nepřinesou nic moc nového.
Vypište seznam pojmenovaných entit, které v textu najdete po N iteracích (určete typ: osoba, místo, organizace). Vycházejí vám jako pojmenované entity i slova začínající malým písmenem? Je to dobře? Pokud ne, volitelně je zablokujte. Porovnejte výsledky s prostým seznamem slov začínajících velkým písmenem. Snažte se poznat i víceslovné entity.