Next revision
|
Previous revision
|
user:zeman:ukoly:data [2007/11/04 12:26] zeman vytvořeno |
user:zeman:ukoly:data [2012/10/05 15:39] (current) zeman Hindská data. |
====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== | ====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== |
| |
| (Přístup je chráněn heslem.) |
| |
* [[Háčkování]]: tokenizovaný text s diakritikou | * [[Háčkování]]: tokenizovaný text s diakritikou |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]] |
* [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět | * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]] |
| * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]] |
* [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka | * [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]] |
* [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]] | * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]] |
| * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]] |
| |
| ===== Licence německých dat ===== |
| |
| Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je: |
| |
| Druck- und Verlagshaus Frankfurt am Main GmbH |
| Verlag der Frankfurter Rundschau |
| Große Eschenheimer Straße 16-18 |
| D-60313 Frankfurt am Main |
| |
| Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu. |
| |
| Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat. |
| |