[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:ukoly:data [2007/11/29 09:06]
zeman Česká data pro morfologický slovník (oproti datům pro značkování navíc obsahují lemmata).
user:zeman:ukoly:data [2012/10/05 15:19]
zeman HSAV španělština.
Line 1: Line 1:
 ====== Data k úlohám z počítačového zpracování přirozeného jazyka ====== ====== Data k úlohám z počítačového zpracování přirozeného jazyka ======
 +
 +(Přístup je chráněn heslem.)
  
   * [[Háčkování]]: tokenizovaný text s diakritikou   * [[Háčkování]]: tokenizovaný text s diakritikou
Line 5: Line 7:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/pl.tok.gz|Polština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/hu.tok.gz|Maďarština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hack/el.tok.gz|Řečtina]]
   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět   * [[Hranice slov a vět]]: tokenizovaný text s vyznačenými hranicemi odstavců a vět
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/ru.train.tok.gz|Ruština]]
Line 10: Line 13:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/de.train.tok.gz|Němčina]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/sv.train.tok.gz|Švédština]]
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/hsav/es.train.tok.gz|Španělština]]
   * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka   * [[PC-Kimmo|Morfologická analýza]]: tokenizovaný text, token = slovo/lemma/značka
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/kimm/cs.ltag.zip|Čeština]]
Line 20: Line 24:
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Švédština]]
     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]     * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/pars/cs.conll.zip|Dánština]]
 +  * [[Moses|Překlad]]: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
 +    * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]]
 +
 +===== Licence německých dat =====
 +
 +Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je:
 +
 +        Druck- und Verlagshaus Frankfurt am Main GmbH
 +        Verlag der Frankfurter Rundschau
 +        Große Eschenheimer Straße 16-18
 +        D-60313 Frankfurt am Main
 +
 +Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu.
 +
 +Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat.
  

[ Back to the navigation ] [ Back to the content ]