Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 23:51] ufal kk jen dvě čárky |
user:rosa:gauk [2015/01/06 17:06] ufal |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
+ | |||
+ | GAUK podán 13.11.2013 {{: | ||
+ | GAUK přijatý k financování 24. 03. 2014 | ||
+ | Číslo účtu: 207-10/ | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
Line 16: | Line 20: | ||
Sekce oborové rady: Společenské vědy - Informatika | Sekce oborové rady: Společenské vědy - Informatika | ||
Pracoviště ÚFAL MFF UK | Pracoviště ÚFAL MFF UK | ||
- | Historie stavu: | ||
- | 07. 11. 2013 - nový | ||
- | ===== Řešitelský kolektiv ===== | + | ===== Řešitelský kolektiv |
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
Stipendia 60 | Stipendia 60 | ||
Line 26: | Line 28: | ||
Osobní náklady (mzdy a odvody) 20 | Osobní náklady (mzdy a odvody) 20 | ||
- | Bc. Jan Mašek | + | Mgr. Martin Popel |
Stipendia 40 | Stipendia 40 | ||
+ | |||
+ | ===== Řešitelský kolektiv 2014 ===== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Bc. Jan Mašek | ||
+ | Stipendia < | ||
Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ||
+ | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | ||
+ | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | ||
+ | |||
+ | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
+ | Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
+ | |||
+ | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, | ||
+ | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | ||
+ | |||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
Line 37: | Line 61: | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
Line 44: | Line 68: | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
- | Položky Rok 2014 | + | |
- | Ostatní neinvestiční náklady 10 | + | ==== Struktura finančních prostředků - rok 2015: ==== |
- | Cestovné 90 | + | //Máme v plánu prezentovat výsledky výzkumu v rámci projektu GAUK na následujících konferencích: |
- | Doplňkové náklady (počítá se automaticky) | + | * ACL 2015, Peking |
- | Osobní náklady | + | * EMNLP 2015, Lisabon |
- | Celkem (počítá se automaticky) | + | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy |
+ | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | Dle okolností | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
Line 61: | Line 92: | ||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | |||
- | Neinvest náklady: | ||
- | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
- | Kancelářský potřeby se tam prej psát nemaj. | ||
- | Literaturu nevim jestli nějakou chcem kupovat. | ||
- | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal. | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 103: | Line 128: | ||
Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (Böhmová et al. 2003, Hajič et al. 2004, Čmejrek et al. 2004, Džeroski et al. 2006, Ramasamy a Žaboktský 2012). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (Zeman 2008), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu PDT (Böhmová et al. 2003) zejména v případě koordinací, | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (Böhmová et al. 2003, Hajič et al. 2004, Čmejrek et al. 2004, Džeroski et al. 2006, Ramasamy a Žaboktský 2012). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (Zeman 2008), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu PDT (Böhmová et al. 2003) zejména v případě koordinací, | ||
- | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada seprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, | + | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada deprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, |
// | // | ||
Line 242: | Line 267: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. |
- | konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. | + | |
Průběžné výsledky budeme popisovat také v technických zprávách. | Průběžné výsledky budeme popisovat také v technických zprávách. | ||
Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | ||
Line 254: | Line 278: | ||
ZŽ publikace {{: | ZŽ publikace {{: | ||
HM CV {{: | HM CV {{: | ||
+ | |||
+ | ===== Posudky ===== | ||
+ | ==== Posudek 1. ==== | ||
+ | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, | ||
+ | |||
+ | ==== Posudek 2. ==== | ||
+ | Projekt řeší velmi aktuální téma a klade si velmi ambiciózní cíle. Navazuje však na kvalitní existující práci, které se účastnili i odborně fundovaní členové řešitelského týmu, takže je splnitelný. Po formální stránce je návrh dobře a výstižné strukturován, | ||
+ | |||
+ | ==== Shrnutí zpravodaje k projektu ==== | ||
+ | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, |