Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 01:33] rosa |
user:rosa:gauk [2013/11/13 16:06] rosa |
||
---|---|---|---|
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 90: | Line 88: | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | //To se přeloží až to bude česky.// | + | |
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | |||
+ | **Doplnit dle poznámek z meetingu, doladit, reference.** | ||
+ | |||
// | // | ||
Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
Line 120: | Line 124: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | + | **TODO citace** |
- | // | + | První část projektu - vytvoření |
- | Tento projekt navazuje na dlouhou a úspěšnou tradici vytváření syntakticky anotovaných korpusů (treebanků) na Ústavu formální a aplikované lingvistiky | + | korpusů (treebanků) |
+ | HamleDT (CITE). Výstupy této práce umožní | ||
+ | lingvistiky | ||
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující | ||
- | Hlavním výstupem projektu bude kolekce | + | Zejména díky svému velkému rozsahu, jakož i existenci |
+ | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | ||
+ | studenty doktorského studia | ||
+ | lingvistiky, | ||
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní vytváření dalších odvozených datových | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) | ||
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských |
+ | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | ||
+ | zpracování přirozeného jazyka | ||
- | Srovnávací lingvistika, | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí |
+ | lze využít | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti vytváření syntakticky anotovaných korpusů, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být |
- | // | + | přínosné například pro systémy strojového překladu založené na syntaxi, jako je |
+ | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat | ||
+ | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | ||
+ | typu. | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 140: | Line 171: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | // | + | První část projektu - vytvoření |
- | 1. Vytvoření | + | korpusů (treebanků) s jednotným |
- | 2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných | + | HamleDT (CITE). Výstupy této práce umožní Ústavu formální |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů | + | lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. |
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující | ||
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české | + | Zejména díky svému velkému rozsahu, jakož i existenci |
- | Kolekce | + | na ÚFALu |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti | + | studenty doktorského studia |
- | // | + | lingvistiky, |
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) | ||
- | Původní text: | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie |
- | Taky budeme experimentálně ověřovat přenositelnost technologií | + | zpracování přirozeného jazyka |
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | ||
+ | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
+ | |||
+ | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | ||
+ | přínosné například pro systémy strojového překladu založené na syntaxi, jako je | ||
+ | ÚFALem vyvíjené TectoMT (CITE), | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | ||
+ | rozšiřující a prohlubující tyto experimenty | ||
+ | typu. | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
+ | **Významně přepsat** | ||
+ | |||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 185: | Line 244: | ||
ZŽ CV {{: | ZŽ CV {{: | ||
ZŽ publikace {{: | ZŽ publikace {{: | ||
- | HM CV | + | HM CV {{: |