[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:ukoly:hmm-tagger [2009/11/29 11:47]
zeman NPFL007.
user:zeman:ukoly:hmm-tagger [2012/10/05 15:36]
zeman Hindská data.
Line 38: Line 38:
 ===== Data a jazyky ===== ===== Data a jazyky =====
  
-Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru.+Označkovaná data v tzv. Brillově formátu. Každá věta leží na samostatném řádku. Tokeny na řádku jsou oddělené mezerou. Token je ve formátu "slovo/značka", přičemž ani slovo, ani značka neobsahuje ani lomítko, ani mezeru. V případě, že lomítko bylo součástí textu, je nahrazeno entitou "&slash;"; kvůli tomu je také znak "&" nahrazen entitou "&".
  
 Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle: Data obsahující navíc výstup morfologické analýzy jsou k dispozici pouze pro češtinu. Ta jsou pak uložena ve [[:formát csts|formátu CSTS]], který je založen na SGML. Ve stručnosti, řádek může vypadat nějak takhle:
  
 <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code> <code xml><f>slovníTvar<l>ručníLemma<t>ručníZnačka<MMl>lemmaZMorfAn1<MMt>značkaZMorfAn1...</code>
- 
  
 ==== Čeština ==== ==== Čeština ====
  
-Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007". O registraci bych se měl dozvědět a poslat vám odkaz na data.+Pro přístup k datům je potřeba souhlasit s licenční smlouvou a odeslat registraci na http://ufal.mff.cuni.cz/corp-lic/pdt20-reg.html; do kolonky //Optional information// vyplňte "NPFL007.tag+trainmm". O registraci bych se měl dozvědět a poslat vám odkaz na data
 + 
 +Vysvětlivky k morfologickým značkám najdete např. na adrese http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/ch02s02s01.html, popř. též na http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl?tagset=cs::pdt a http://quest.ms.mff.cuni.cz/cgi-bin/tagzplorer/index.pl?corpus=conll-2007-cs.
  
 ==== Švédština ==== ==== Švédština ====
Line 58: Line 59:
 Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu. Data pocházejí z korpusu DDT (Danish Dependency Treebank), který je volně dostupný na webu.
 {{user:zeman:ukoly:da.tag.zip|stáhnout}} {{user:zeman:ukoly:da.tag.zip|stáhnout}}
 +
 +==== Hindština ====
 +
 +Hindská data mám k&nbsp;dispozici v&nbsp;takzvaném [[:format-conll|formátu CoNLL]], který je přehlednější (anotace spadající pod pojem //morfologická značka// je tam rozsáhlejší než jinde). Data mají samostatnou licenci a zavazujete se, že je nebudete šířit dále. Pokud si zvolíte tuto úlohu, zeptejte se mne, jak se k&nbsp;datům dostat.
  
 ===== Další informace ===== ===== Další informace =====

[ Back to the navigation ] [ Back to the content ]