Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 01:52] rosa |
user:rosa:gauk [2013/11/13 16:07] rosa cíle |
||
---|---|---|---|
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Už chybí jen doladit Honzu.** | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
Line 44: | Line 42: | ||
Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 126: | Line 124: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
+ | **TODO citace** | ||
+ | |||
+ | První část projektu - vytvoření kolekce syntakticky anotovaných | ||
+ | korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt | ||
+ | HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované | ||
+ | lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. | ||
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). | ||
+ | |||
+ | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | ||
+ | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | ||
+ | studenty doktorského studia | ||
+ | lingvistiky, | ||
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní vytváření dalších odvozených datových zdrojů: | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) či sentimentu (CITE). | ||
+ | |||
+ | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských | ||
+ | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | ||
+ | zpracování přirozeného jazyka či Pražský závislostní korpus. | ||
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | ||
+ | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
+ | |||
+ | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | ||
+ | přínosné například pro systémy strojového překladu založené na syntaxi, jako je | ||
+ | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | ||
+ | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | ||
+ | typu. | ||
- | **Napsat znova** | ||
(Původní verze zde: [[user: | (Původní verze zde: [[user: | ||
Line 136: | Line 171: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | **Napsat znova** | + | //Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. |
+ | |||
+ | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný | ||
+ | jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit | ||
+ | se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné | ||
+ | jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich | ||
+ | úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to | ||
+ | přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. | ||
+ | |||
+ | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými | ||
+ | jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, | ||
+ | kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné | ||
+ | velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie | ||
+ | pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační | ||
+ | lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což | ||
+ | je časově i finančně náročné. | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících | ||
+ | syntakticky anotovaných korpusů (treebanků), | ||
+ | anotačního schématu. | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice | ||
+ | se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho | ||
+ | variant, jako je například delexikalizovaný parsing. Může také posloužit jako | ||
+ | testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost | ||
+ | jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky | ||
+ | s velkou vypovídací hodnotou. | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno | ||
+ | zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý | ||
+ | jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. | ||
+ | Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání | ||
+ | jednotlivých jazyků.// | ||
(Původní verze zde: [[user: | (Původní verze zde: [[user: | ||
Line 173: | Line 241: | ||
ZŽ CV {{: | ZŽ CV {{: | ||
ZŽ publikace {{: | ZŽ publikace {{: | ||
- | HM CV | + | HM CV {{: |