Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:ukoly:pojmenovane-entity [2008/10/21 14:39] zeman Česká trénovací data. |
user:zeman:ukoly:pojmenovane-entity [2013/10/08 08:11] (current) zeman quest |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Pojmenované entity ====== | ====== Pojmenované entity ====== | ||
- | //(úloha z počítačového zpracování přirozeného jazyka)// | + | {{template> |
- | + | ||
- | // | + | |
Pojmenované entity //(named entities)// bývají v počítačovém zpracování přirozeného jazyka definovány různě, ale většinou zahrnují vlastní jména osob, zeměpisné názvy a názvy organizací (včetně zkratek). Mohou být víceslovné. | Pojmenované entity //(named entities)// bývají v počítačovém zpracování přirozeného jazyka definovány různě, ale většinou zahrnují vlastní jména osob, zeměpisné názvy a názvy organizací (včetně zkratek). Mohou být víceslovné. | ||
Line 19: | Line 17: | ||
* Jaká je časová a paměťová náročnost celého učení a jedné iterace? | * Jaká je časová a paměťová náročnost celého učení a jedné iterace? | ||
* Jak moc je tato úloha jazykově závislá? Je jasné, že počáteční vzorek pojmenovaných entit musí odpovídat jazyku, ve kterém je daný korpus. Obsahuje vaše implementace ještě další prvky, které by bylo potřeba změnit, kdybychom totéž chtěli dělat s korpusem v jiném jazyce? | * Jak moc je tato úloha jazykově závislá? Je jasné, že počáteční vzorek pojmenovaných entit musí odpovídat jazyku, ve kterém je daný korpus. Obsahuje vaše implementace ještě další prvky, které by bylo potřeba změnit, kdybychom totéž chtěli dělat s korpusem v jiném jazyce? | ||
+ | |||
+ | ==== Víceslovné entity ==== | ||
+ | |||
+ | Volitelně (nebo spíš téměř povinně, ale ve volitelném rozsahu) se pokuste rozpoznat i víceslovné entity. Tady je jedna možnost, jak na to: | ||
+ | |||
+ | * Dívejte se na nějaké okno N po sobě jdoucích slov, kde N stanovíte pokusně, začněte u 2 a případně ho zvyšujte (ať bude sebevyšší, | ||
+ | * Pak by bylo ještě možné si pohrát s jednotlivými slovy ve skupině. Pokud bude skupina končit slovem, které je samo o sobě velmi časté (předložky, | ||
+ | * Další otázka by byla, jestli se mají nejdřív rozpoznávat jednoslovné entity a pak je uvedeným způsobem rozšiřovat, | ||
===== Literatura ===== | ===== Literatura ===== | ||
Line 26: | Line 32: | ||
===== Další informace ===== | ===== Další informace ===== | ||
- | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/ | + | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/ |
Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | Pokud se individuálně nedohodneme jinak, termín odevzdání je konec listopadu. Při některé prosincové přednášce program předvedete ostatním. | ||
Line 32: | Line 38: | ||
Součástí zadání bude konkrétní jazyk trénovacích dat (čeština nebo angličtina). Snažte se ale psát program tak, aby přechod na zpracování jiného jazyka byl co nejméně náročný. Není jisté, zda budu mít k dispozici také testovací data (tedy taková, ve kterých už jsou pojmenované entity vyznačené, | Součástí zadání bude konkrétní jazyk trénovacích dat (čeština nebo angličtina). Snažte se ale psát program tak, aby přechod na zpracování jiného jazyka byl co nejméně náročný. Není jisté, zda budu mít k dispozici také testovací data (tedy taková, ve kterých už jsou pojmenované entity vyznačené, | ||
- | {{user: | + | {{user: |