[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:ukoly:hmm-tagger [2009/11/29 11:47]
zeman NPFL007.
user:zeman:ukoly:hmm-tagger [2011/10/14 09:28]
zeman Upřesnění dat.
Line 38: Line 38:
 ===== Data a jazyky ===== ===== Data a jazyky =====
  
-Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.+Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru. V případě, že lomítko bylo součástí textu, je nahrazeno entitou "&slash;"; kvůli tomu je také znak "&" nahrazen entitou "&".
  
 Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle: Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle:
  
 <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code> <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code>
- 
  
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007.tag+trainmm". O registraci bych se měl dozvědět a poslat vám odkaz na data
 + 
 +Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs.
  
 ==== Švédština ==== ==== Švédština ====

[ Back to the navigation ] [ Back to the content ]