This is an old revision of the document!
Data k úlohám z počítačového zpracování přirozeného jazyka
- Háčkování: tokenizovaný text s diakritikou
- Hranice slov a vět: tokenizovaný text s vyznačenými hranicemi odstavců a vět
- Morfologická analýza: tokenizovaný text, token = slovo/lemma/značka
- Tagging: tokenizovaný text, token = slovo/značka
- Parsing: sloupcový formát CoNLL
- Překlad: paralelní tokenizované soubory v UTF-8, co řádek, to zarovnaná věta
Licence německých dat
Německá data pocházejí z treebanku Tiger (http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/). Text treebanku zase pochází z novin Frankfurter Rundschau a držitelem Copyrightu je:
Druck- und Verlagshaus Frankfurt am Main GmbH Verlag der Frankfurter Rundschau Große Eschenheimer Straße 16-18 D-60313 Frankfurt am Main
Treebank sám byl vytvořen ve spolupráci univerzit v Postupimi, Stuttgartu a Sárské univerzity v Saarbrückenu.
Protože jsou německá data odvozena z treebanku Tiger, podléhají stejným licenčním podmínkám jako tento treebank. Data jsou k dispozici bezplatně pro nekomerční využití za předpokladu, že jejich uživatel souhlasí a podepíše licenční ujednání. Elektronickou kopii svého souhlasu s licencí musíte odeslat dříve, než začnete data používat.