Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 16:06] rosa |
user:rosa:gauk [2013/11/13 16:08] rosa reformát |
||
---|---|---|---|
Line 171: | Line 171: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | První část | + | // |
- | korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt | + | Hlavním cílem |
- | HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované | + | |
- | lingvistiky (ÚFAL) udržet si prestiž a úroveň | + | |
- | ÚFAL by se díky této kolekci | + | |
- | parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). | + | |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | + | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat |
- | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | + | |
- | studenty doktorského studia | + | |
- | lingvistiky, | + | |
- | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | + | |
- | Kolekce také umožní vytváření dalších odvozených datových zdrojů: | + | |
- | ÚFAL je aktivní | + | |
- | například | + | |
- | koreference (CITE) | + | |
- | Vytvořený datový zdroj bude využitelný | + | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat |
- | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | + | |
- | zpracování přirozeného jazyka | + | |
- | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | + | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), |
- | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | + | |
- | paralelizací; | + | |
- | pro úlohy tohoto typu. | + | |
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | + | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. |
- | přínosné například | + | |
- | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | + | |
- | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | + | |
- | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | + | |
- | angličtina-čeština. | + | |
- | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | + | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. |
- | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | + | // |
- | typu. | + | |
(Původní verze zde: [[user: | (Původní verze zde: [[user: |