Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
user:zeman:ukoly:data [2009/03/01 18:19] zeman Licence německých dat. |
user:zeman:ukoly:data [2012/10/05 15:39] (current) zeman Hindská data. |
====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== | ====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== |
| |
| (Přístup je chráněn heslem.) |
| |
* [[Háčkování]]: tokenizovaný text s diakritikou | * [[Háčkování]]: tokenizovaný text s diakritikou |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]] |
* [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět | * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]] |
* [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka | * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]] |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]] |
* [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]] | * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]] |
* [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]] | * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]] |
| * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta |
| * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]] |
| |
===== Licence německých dat ===== | ===== Licence německých dat ===== |