Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/11 23:20] rosa |
user:rosa:gauk [2013/11/13 16:11] rosa |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== GAUK na HamleDT ====== | ====== GAUK na HamleDT ====== | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
+ | Co není kurzívou, to je moje poznámka. | ||
+ | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | ||
+ | |||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát | + | **Tady se akorát |
- | Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: HamleDT: Collection | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 19: | Line 22: | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
- | **ty částky teď tady jsou maximální možný** | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 80 | + | Stipendia 60 |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
Line 29: | Line 31: | ||
Stipendia 40 | Stipendia 40 | ||
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil** | ||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
+ | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
+ | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu |
+ | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 93 | + | Cestovné 90 |
Doplňkové náklady (počítá se automaticky) | Doplňkové náklady (počítá se automaticky) | ||
Osobní náklady (mzdy) a stipendia (počítá se automaticky) | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
Celkem (počítá se automaticky) | Celkem (počítá se automaticky) | ||
+ | |||
+ | **90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...** | ||
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | //Za prostředky na ostatní neinvestiční náklady | + | //Za prostředky na ostatní neinvestiční náklady |
- | literatura, případně | + | |
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | |||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
+ | |||
+ | Neinvest náklady: | ||
+ | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
+ | Kancelářský potřeby se tam prej psát nemaj. | ||
+ | Literaturu nevim jestli nějakou chcem kupovat. | ||
+ | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal. | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 62: | Line 78: | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace: ==== | + | ==== Anotace |
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají. | + | V grantovém projektu budeme |
- | Za tím účelem | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka |
- | Bude navržena sada testů, které umožní nalézt nedostatky | + | Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje |
- | Důraz bude kladen | + | |
- | TODO | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné |
// | // | ||
- | < | ||
- | Přidání nových treebanků. | ||
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | ||
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | ||
- | ==== Anotace v anglickém jazyce: ==== | + | ==== Anotace v anglickém jazyce |
- | //To se přeloží až to bude česky.// | + | |
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión treebanků s různorodými anotačními schématy atd. Taky je HamleDT | + | |
+ | **Znova | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
- | //Posuneme hranice poznání, | + | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) |
+ | **TODO citace** | ||
+ | |||
+ | // | ||
+ | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce | ||
+ | |||
+ | Zejména díky svému velkému rozsahu, jakož | ||
+ | |||
+ | Vytvořený | ||
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | ||
+ | |||
+ | Poznatky získané | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | ||
+ | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
- | //V poho, ale mohli bysme asi koupit harddisk.// | + | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, ukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// |
==== Cíle řešení projektu: ==== | ==== Cíle řešení projektu: ==== | ||
- | //Vytvoření | + | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) |
- | Taky budeme experimentálně ověřovat přenositelnost technologií | + | |
+ | // | ||
+ | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | ||
+ | |||
+ | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové | ||
+ | |||
+ | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, | ||
+ | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
+ | **Významně přepsat** | ||
+ | |||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 102: | Line 157: | ||
Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | ||
- | Vrcholem projektu pak bude jeho další | + | Vrcholem projektu pak bude jeho závěrečná |
// | // | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | Grantovou agenturou Univerzity Karlovy.// | + | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. |
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV {{: |