This is an old revision of the document!

Data k úlohám z počítačového zpracování přirozeného jazyka

Háčkování: tokenizovaný text s diakritikou
Hranice slov a vět: tokenizovaný text s vyznačenými hranicemi odstavců a vět
Morfologická analýza: tokenizovaný text, token = slovo/lemma/značka
- Čeština
Tagging: tokenizovaný text, token = slovo/značka
Parsing: sloupcový formát CoNLL
Překlad: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
- Angličtina – hindština

Licence německých dat

Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je:

      Druck- und Verlagshaus Frankfurt am Main GmbH
      Verlag der Frankfurter Rundschau
      Große Eschenheimer Straße 16-18
      D-60313 Frankfurt am Main

Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu.

Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Data k úlohám z počítačového zpracování přirozeného jazyka

Licence německých dat