Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 01:07] rosa popis konf |
user:rosa:gauk [2013/11/13 16:08] rosa reformát |
||
---|---|---|---|
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 90: | Line 88: | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | //To se přeloží až to bude česky.// | + | |
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | |||
+ | **Doplnit dle poznámek z meetingu, doladit, reference.** | ||
+ | |||
// | // | ||
Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
Line 120: | Line 124: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | + | **TODO citace** |
- | // | + | První část projektu - vytvoření |
- | Tento projekt navazuje na dlouhou a úspěšnou tradici vytváření syntakticky anotovaných korpusů (treebanků) na Ústavu formální a aplikované lingvistiky | + | korpusů (treebanků) |
+ | HamleDT (CITE). Výstupy této práce umožní | ||
+ | lingvistiky | ||
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující | ||
- | Hlavním výstupem projektu bude kolekce | + | Zejména díky svému velkému rozsahu, jakož i existenci |
+ | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | ||
+ | studenty doktorského studia | ||
+ | lingvistiky, | ||
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní vytváření dalších odvozených datových | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) | ||
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských |
+ | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | ||
+ | zpracování přirozeného jazyka | ||
- | Srovnávací lingvistika, | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí |
+ | lze využít | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti vytváření syntakticky anotovaných korpusů, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být |
- | // | + | přínosné například pro systémy strojového překladu založené na syntaxi, jako je |
+ | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat | ||
+ | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | ||
+ | typu. | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 141: | Line 172: | ||
// | // | ||
- | 1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. | + | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. |
- | 2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných a harmonizovaných do tohoto univerzálního schématu. | + | |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné | + | |
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české i zahraniční výzkumníky. Vytvořenou kolekci | + | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje |
- | Kolekce bude také cenná pro srovnávací výzkum jazyků, neboť | + | |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty | + | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet |
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. | ||
+ | |||
+ | Možností | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým | ||
// | // | ||
- | Původní | + | (Původní |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | |
- | Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem. | + | |
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
+ | **Významně přepsat** | ||
+ | |||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 182: | Line 218: | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV {{: |