====== Data k úlohám z počítačového zpracování přirozeného jazyka ======

(Přístup je chráněn heslem.)

  * [[Háčkování]]: tokenizovaný text s diakritikou
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/sk.tok.gz|Slovenština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]]
  * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/pt.train.tok.gz|Portugalština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]]
  * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]
  * [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]]
  * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]
  * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]]

===== Licence německých dat =====

Německá data pocházejí z&nbsp;treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z&nbsp;novin Frankfurter Rundschau a držitelem Copyrightu je:

        Druck- und Verlagshaus Frankfurt am Main GmbH
        Verlag der Frankfurter Rundschau
        Große Eschenheimer Straße 16-18
        D-60313 Frankfurt am Main

Treebank sám byl vytvořen ve spolupráci univerzit v&nbsp;Postupimi, Stuttgartu a Sárské univerzity v&nbsp;Saarbrückenu.

Protože jsou německá data odvozena z&nbsp;treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k&nbsp;dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s&nbsp;licencí musíte odeslat dříve, než začnete data používat.