[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:data [2009/03/01 18:19]
zeman Licence německých dat.
user:zeman:ukoly:data [2012/10/05 15:39] (current)
zeman Hindská data.
Line 1: Line 1:
 ====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== ====== Data k úlohám z počítačového zpracování přirozeného jazyka ======
 +
 +(Přístup je chráněn heslem.)
  
   * [[Háčkování]]: tokenizovaný text s diakritikou   * [[Háčkování]]: tokenizovaný text s diakritikou
Line 5: Line 7:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]]
   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]
Line 10: Line 13:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]]
   * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka   * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]
Line 16: Line 20:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]]
   * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]]   * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]
 +  * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]]
  
 ===== Licence německých dat ===== ===== Licence německých dat =====

[ Back to the navigation ] [ Back to the content ]