====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== (Přístup je chráněn heslem.) * [[Háčkování]]: tokenizovaný text s diakritikou * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/sk.tok.gz|Slovenština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]] * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/pt.train.tok.gz|Portugalština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]] * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]] * [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]] * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]] * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]] * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]] ===== Licence německých dat ===== Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je: Druck- und Verlagshaus Frankfurt am Main GmbH Verlag der Frankfurter Rundschau Große Eschenheimer Straße 16-18 D-60313 Frankfurt am Main Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu. Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat.