Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
user:zeman:ukoly:hmm-tagger [2007/11/07 23:40] zeman vytvořeno |
user:zeman:ukoly:hmm-tagger [2013/10/08 08:11] (current) zeman quest |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Morfologické značkování ====== | ====== Morfologické značkování ====== | ||
+ | {{template> | ||
- | Napište dva programy v Perlu, trénovací | + | Morfologická značka neboli //tag// je obvykle krátký řetězec písmen, číslic a případně dalších znaků, ve kterém jsou zakódované morfologické |
- | Pro trénování | + | //Tagger// (značkovač) je program, jehož úkolem je přiřadit každému slovu v textu značku z nějaké konkrétní sady. Obvykle se stává, že některá slova mají více možných interpretací, |
- | Pro testování přepokládejte, | + | Některé taggery současně provádějí i lemmatizaci (vybírají pro slovo správné lemma - např. české slovo //je// může mít lemmata //oni// nebo //být//). Je to v podstatě jiná instance téhož problému jako u značek, řeší se stejnými metodami, akorát míra nejednoznačnosti bývá nižší. |
+ | |||
+ | Vaším úkolem je implementovat v Perlu jednoduchý statistický tagger včetně lemmatizace. Stačí n-gramový (n = 2 nebo 3) model nad slovy a značkami s jednoduchým vyhlazováním. Podrobnosti se dozvíte na přednášce o [[http:// | ||
Použijte statistický model, jehož parametry jsou značkované slovo a značka předchozího slova. Vyhlazujte pomocí méně specifického modelu, který se kouká pouze na značkované slovo, případně pomocí hloupého modelu, který bere jen pravděpodobnost značky bez ohledu na slovo. Alternativní rozšíření: | Použijte statistický model, jehož parametry jsou značkované slovo a značka předchozího slova. Vyhlazujte pomocí méně specifického modelu, který se kouká pouze na značkované slovo, případně pomocí hloupého modelu, který bere jen pravděpodobnost značky bez ohledu na slovo. Alternativní rozšíření: | ||
+ | |||
+ | Úloha má tyto části (podrobnosti níže): | ||
+ | |||
+ | - Trénovací skript. Na vstupu má označkovaný korpus, na výstup posílá statistický model. | ||
+ | - Vlastní tagger. Na začátku načte statistický model, potom čte neoznačkovaný text a vypisuje označkovaný. | ||
+ | - Oba skripty by měly být schopné využít výstup předcházející morfologické analýzy, pokud je k dispozici (řekne, které značky přicházejí v úvahu na základě slovníku, tagger už pak vybírá pouze z nich). | ||
+ | |||
+ | ===== Trénování ===== | ||
+ | |||
+ | Skript '' | ||
+ | |||
+ | Formát vstupního souboru může být různý podle toho, pro jaký jazyk budete značkování řešit a odkud budou pocházet data. Trénovací data budou tokenizovaná, | ||
+ | |||
+ | Dokumentace sady značek, která vám umožní dekódovat informace schované ve značkách, je na požádání k dispozici také. Jinak ale můžete se značkou zacházet jako s obecným řetězcem, který máte pro dané slovo vybrat z nějaké množiny. | ||
+ | |||
+ | ===== Značkování ===== | ||
+ | |||
+ | Skript '' | ||
+ | |||
+ | Výstupní formát by měl být stejný jako u vašich trénovacích dat. Formát vstupního textu k označkování bude také analogický, | ||
+ | |||
+ | ===== Pokusy ===== | ||
Srovnejte úspěšnost svého taggeru s naivním taggerem a odpovězte si na obdobné otázky, jaké klade zadání úkolu s [[Brillův tagger|Brillovým taggerem]]. | Srovnejte úspěšnost svého taggeru s naivním taggerem a odpovězte si na obdobné otázky, jaké klade zadání úkolu s [[Brillův tagger|Brillovým taggerem]]. | ||
+ | |||
+ | ===== Data a jazyky ===== | ||
+ | |||
+ | Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu " | ||
+ | |||
+ | Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, | ||
+ | |||
+ | <code xml>< | ||
+ | |||
+ | ==== Čeština ==== | ||
+ | |||
+ | Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http:// | ||
+ | |||
+ | Vysvětlivky k morfologickým značkám najdete např. na adrese http:// | ||
+ | |||
+ | ==== Švédština ==== | ||
+ | |||
+ | Data pocházejí ze švédského korpusu Talbanken05, | ||
+ | {{user: | ||
+ | |||
+ | ==== Dánština ==== | ||
+ | |||
+ | Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. | ||
+ | {{user: | ||
+ | |||
+ | ==== Hindština ==== | ||
+ | |||
+ | Hindská data mám k& | ||
+ | |||
+ | ===== Další informace ===== | ||
+ | |||
+ | Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http:// | ||
+ | |||
+ | Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. | ||