[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:ukoly:hmm-tagger [2008/10/23 14:38]
zeman Rozepsáno podrobněji.
user:zeman:ukoly:hmm-tagger [2009/11/29 11:47]
zeman NPFL007.
Line 1: Line 1:
 ====== Morfologické značkování ====== ====== Morfologické značkování ======
-//(úloha z počítačového zpracování přirozeného jazyka)// +{{template>spolecne}}
- +
-//Upozornění: Specifikace je detailnější (a tudíž více svazující) než bývá u zápočtových úloh zvykem. Ideálně by díky tomu měla tři řešení téže úlohy od tří různých lidí být zaměnitelná; šetří vám to také práci s dokumentací, která už je součástí zadání. Samozřejmě nelze vyloučit, že najdete dobrý důvod, aby něco bylo jinak než ve specifikaci; takové případy se mnou prosím [[zeman@ufal.mff.cuni.cz|konzultujte]]. Bez posvěcení se raději od specifikace zbytečně neodchylujte. Kdo bude místo na STDOUT čmárat do souboru, jehož cesta je zadrátována ve zdrojáku jako "C:\Documents and Settings\PanVopička\Dokumenty\tisícdalšíchadresářů\mujchytrysoubor.dat" apod., nejenže nedostane zápočet, ale bude podroben veřejnému zostuzení.//+
  
 Morfologická značka neboli //tag// je obvykle krátký řetězec písmen, číslic a případně dalších znaků, ve kterém jsou zakódované morfologické a další informace o jednom slovu. Prakticky vždy je ze značky poznat slovní druh, ten bývá v některých případech ještě jemněji rozčleněn (třeba zájmena osobní vs. tázací). Podle potřeby pak značky obsahují informaci o relevantních mluvnických kategoriích, jako jsou rod, číslo, pád, stupeň, osoba, čas aj. I pro jeden jazyk mohou existovat různé korpusy s různě koncipovanými sadami značek. V některých případech mluvnické kategorie chybí a kóduje se jen slovní druh (anglicky //part of speech//), proto se také hovoří o tzv. //part-of-speech (POS) tags//. Morfologická značka neboli //tag// je obvykle krátký řetězec písmen, číslic a případně dalších znaků, ve kterém jsou zakódované morfologické a další informace o jednom slovu. Prakticky vždy je ze značky poznat slovní druh, ten bývá v některých případech ještě jemněji rozčleněn (třeba zájmena osobní vs. tázací). Podle potřeby pak značky obsahují informaci o relevantních mluvnických kategoriích, jako jsou rod, číslo, pád, stupeň, osoba, čas aj. I pro jeden jazyk mohou existovat různé korpusy s různě koncipovanými sadami značek. V některých případech mluvnické kategorie chybí a kóduje se jen slovní druh (anglicky //part of speech//), proto se také hovoří o tzv. //part-of-speech (POS) tags//.
Line 45: Line 43:
  
 <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code> <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code>
 +
  
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "PFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.
  
 ==== Švédština ==== ==== Švédština ====

[ Back to the navigation ] [ Back to the content ]