Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 16:06] rosa |
user:rosa:gauk [2013/11/13 16:07] rosa cíle |
||
---|---|---|---|
Line 171: | Line 171: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | První část | + | //Hlavním cílem |
- | korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt | + | |
- | HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované | + | |
- | lingvistiky (ÚFAL) udržet si prestiž a úroveň | + | |
- | ÚFAL by se díky této kolekci | + | |
- | parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). | + | |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | + | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka |
- | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | + | jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit |
- | studenty doktorského studia | + | se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné |
- | lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například | + | jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich |
- | neřízenému parsing (CITE) | + | úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to |
- | Kolekce také umožní vytváření dalších odvozených datových zdrojů: | + | přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. |
- | ÚFAL je aktivní | + | |
- | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | + | |
- | koreference (CITE) | + | |
- | Vytvořený datový zdroj bude využitelný | + | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat |
- | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | + | jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, |
- | zpracování přirozeného jazyka | + | kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné |
+ | velikosti a kvality | ||
+ | pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační | ||
+ | lingvistiky | ||
+ | je časově i finančně náročné. | ||
- | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | + | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících |
- | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | + | syntakticky anotovaných korpusů (treebanků), |
- | paralelizací; | + | anotačního schématu. |
- | pro úlohy tohoto typu. | + | |
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | + | Možností využití této datové sady v komputační lingvistice |
- | přínosné | + | se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho |
- | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | + | variant, jako je například |
- | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | + | testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost |
- | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | + | jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky |
- | angličtina-čeština. | + | s velkou vypovídací hodnotou. |
- | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | + | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno |
- | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | + | zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý |
- | typu. | + | jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. |
+ | Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání | ||
+ | jednotlivých jazyků.// | ||
(Původní verze zde: [[user: | (Původní verze zde: [[user: |