[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:hmm-tagger [2008/10/23 14:38]
zeman Rozepsáno podrobněji.
user:zeman:ukoly:hmm-tagger [2013/10/08 08:11] (current)
zeman quest
Line 1: Line 1:
 ====== Morfologické značkování ====== ====== Morfologické značkování ======
-//(úloha z počítačového zpracování přirozeného jazyka)// +{{template>spolecne}}
- +
-//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.//+
  
 Morfologická značka neboli //tag// je obvykle krátký řetězec písmen, číslic a případně dalších znaků, ve kterém jsou zakódované morfologické a další informace o jednom slovu. Prakticky vždy je ze značky poznat slovní druh, ten bývá v některých případech ještě jemněji rozčleněn (třeba zájmena osobní vs. tázací). Podle potřeby pak značky obsahují informaci o relevantních mluvnických kategoriích, jako jsou rod, číslo, pád, stupeň, osoba, čas aj. I pro jeden jazyk mohou existovat různé korpusy s různě koncipovanými sadami značek. V některých případech mluvnické kategorie chybí a kóduje se jen slovní druh (anglicky //part of speech//), proto se také hovoří o tzv. //part-of-speech (POS) tags//. Morfologická značka neboli //tag// je obvykle krátký řetězec písmen, číslic a případně dalších znaků, ve kterém jsou zakódované morfologické a další informace o jednom slovu. Prakticky vždy je ze značky poznat slovní druh, ten bývá v některých případech ještě jemněji rozčleněn (třeba zájmena osobní vs. tázací). Podle potřeby pak značky obsahují informaci o relevantních mluvnických kategoriích, jako jsou rod, číslo, pád, stupeň, osoba, čas aj. I pro jeden jazyk mohou existovat různé korpusy s různě koncipovanými sadami značek. V některých případech mluvnické kategorie chybí a kóduje se jen slovní druh (anglicky //part of speech//), proto se také hovoří o tzv. //part-of-speech (POS) tags//.
Line 40: Line 38:
 ===== Data a jazyky ===== ===== Data a jazyky =====
  
-Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.+Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru. V případě, že lomítko bylo součástí textu, je nahrazeno entitou "&slash;"; kvůli tomu je také znak "&" nahrazen entitou "&".
  
 Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle: Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle:
Line 48: Line 46:
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "PFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007.tag+trainmm". O registraci bych se měl dozvědět a poslat vám odkaz na data
 + 
 +Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs.
  
 ==== Švédština ==== ==== Švédština ====
Line 59: Line 59:
 Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu.
 {{user:zeman:ukoly:da.tag.zip|stáhnout}} {{user:zeman:ukoly:da.tag.zip|stáhnout}}
 +
 +==== Hindština ====
 +
 +Hindská data mám k dispozici v takzvaném [[:format-conll|formátu CoNLL]], který je přehlednější (anotace spadající pod pojem //morfologická značka// je tam rozsáhlejší než jinde). Data mají samostatnou licenci a zavazujete se, že je nebudete šířit dále. Pokud si zvolíte tuto úlohu, zeptejte se mne, jak se k datům dostat.
  
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.
  

[ Back to the navigation ] [ Back to the content ]