[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:ukoly:data [2007/11/04 12:26]
zeman vytvořeno
user:zeman:ukoly:data [2012/10/05 15:39] (current)
zeman Hindská data.
Line 1: Line 1:
 ====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== ====== Data k úlohám z počítačového zpracování přirozeného jazyka ======
 +
 +(Přístup je chráněn heslem.)
  
   * [[Háčkování]]: tokenizovaný text s diakritikou   * [[Háčkování]]: tokenizovaný text s diakritikou
Line 5: Line 7:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]]
   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]
Line 10: Line 13:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]]
 +  * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]
   * [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka   * [[Brillův tagger|Tagging]]: tokenizovaný text, token = slovo/značka
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/cs.tag.zip|Čeština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/sv.tag.zip|Švédština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/da.tag.zip|Dánština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/tagg/hi.conll.gz|Hindština]]
   * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]]   * [[Malt parser|Parsing]]: sloupcový [[:formát CoNLL]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Čeština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]
 +  * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]]
 +
 +===== Licence německých dat =====
 +
 +Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je:
 +
 +        Druck- und Verlagshaus Frankfurt am Main GmbH
 +        Verlag der Frankfurter Rundschau
 +        Große Eschenheimer Straße 16-18
 +        D-60313 Frankfurt am Main
 +
 +Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu.
 +
 +Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat.
  

[ Back to the navigation ] [ Back to the content ]