Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:rosa:gauk [2015/01/06 15:38] ufal |
user:rosa:gauk [2017/03/29 23:48] (current) ufal +závěrečná zpráva |
||
---|---|---|---|
Line 21: | Line 21: | ||
Pracoviště ÚFAL MFF UK | Pracoviště ÚFAL MFF UK | ||
- | ===== Řešitelský kolektiv | + | ===== Řešitelský kolektiv ===== |
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2016: ==== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 60 | + | Stipendia < |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
- | Osobní náklady (mzdy a odvody) 20 | + | Osobní náklady (mzdy a odvody) <del>20</ |
Mgr. Martin Popel | Mgr. Martin Popel | ||
- | Stipendia 40 | + | Stipendia < |
- | ===== Řešitelský kolektiv 2014 ===== | + | Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. |
+ | |||
+ | Martinovi navrhuju 39 a ne 40 protože 40 mě to nenechalo zadat (když jsem zadal cokoliv většího než 39 tak se to pak samo změnilo na 39; což je teda fajn vědět, že to ty limity asi nějak kontroluje i samo, i když kdoví jak). | ||
+ | |||
+ | //Složení řešitelského kolektivu je stejné jako v roce 2015. | ||
+ | |||
+ | Martin Popel se od harmonizace treebanků (HamleDT/ | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
Stipendia < | Stipendia < | ||
Line 38: | Line 48: | ||
Osobní náklady (mzdy a odvody) < | Osobní náklady (mzdy a odvody) < | ||
- | Bc. Jan Mašek | + | Mgr. Martin Popel |
Stipendia < | Stipendia < | ||
- | |||
- | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
- | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
- | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | ||
- | |||
- | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | ||
Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | ||
Line 58: | Line 62: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Bc. Jan Mašek | ||
+ | Stipendia < | ||
+ | |||
+ | |||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | ||
+ | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
Line 68: | Line 86: | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2016: ==== | ||
+ | Položky Rok 2016 | ||
+ | Ostatní neinvestiční náklady 1 | ||
+ | Cestovné 50 | ||
+ | Doplňkové náklady 28 | ||
+ | Osobní náklady (mzdy) a stipendia 139 | ||
+ | Celkem 218 | ||
+ | |||
+ | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, | ||
+ | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | ||
+ | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | ||
+ | |||
+ | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
+ | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | ||
+ | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | ||
+ | - ITAT/ | ||
+ | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.// | ||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2015: ==== | ||
+ | Položky Rok 2015 | ||
+ | Ostatní neinvestiční náklady 1 | ||
+ | Cestovné 100 | ||
+ | Doplňkové náklady (počítá se automaticky) (28) | ||
+ | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
+ | Celkem (počítá se automaticky) (219) | ||
+ | |||
+ | //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | ||
+ | * ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky | ||
+ | * EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená na použití empirických metod v počítačové lingvistice | ||
+ | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy | ||
+ | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | Dle okolností (přijetí/ | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
+ | |||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2014: ==== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady < | Ostatní neinvestiční náklady < | ||
Line 75: | Line 137: | ||
Celkem (počítá se automaticky) (212) | Celkem (počítá se automaticky) (212) | ||
- | ==== Struktura finančních prostředků - rok 2014: ==== | ||
//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
Line 86: | Line 147: | ||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | TLT 2014: | + | ==== Finanční výhled na další roky ==== |
- | The 13th International Workshop on Treebanks and Linguistic Theories (TLT13) will be held in Tübingen on 12-13 December, 2014. | + | |
- | http:// | + | |
- | Jízdenka: cca 5000 Kč | + | |
- | Ubytování na 3 noci: cca 5000 Kč | + | |
- | Registrace: cca 2000 Kč | + | |
- | + | ||
- | < | + | |
- | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | + | |
- | Kancelářský potřeby se tam prej psát nemaj. | + | |
- | Literaturu nevim jestli nějakou chcem kupovat. | + | |
- | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal.--> | + | |
- | + | ||
- | ===== Finanční výhled na další roky ===== | + | |
Rok 2015: 250 | Rok 2015: 250 | ||
Rok 2016: 250 | Rok 2016: 250 | ||
+ | |||
+ | ===== Závěrečná zpráva projektu ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | ||
+ | Martin se dále podílel zejména na Udapi (http:// | ||
+ | |||
+ | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
+ | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
+ | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
+ | |||
+ | ==== Splnění cílů projektu ==== | ||
+ | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | ||
+ | |||
+ | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | ||
+ | |||
+ | ==== Závěrečná zpráva ==== | ||
+ | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | ||
+ | |||
+ | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | ||
+ | |||
+ | ===== Výroční zpráva za 2015 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | // | ||
+ | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | ||
+ | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | ||
+ | |||
+ | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | ||
+ | |||
+ | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | Následující text je můj komentář, není součástí Zprávy. | ||
+ | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | ||
+ | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | ||
+ | |||
+ | ===== Výroční zpráva za 2014 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | ||
+ | Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.// | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT. | ||
+ | Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | //V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, | ||
+ | Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University of Edinburgh.// | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
Line 294: | Line 401: | ||
==== Shrnutí zpravodaje k projektu ==== | ==== Shrnutí zpravodaje k projektu ==== | ||
Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
+ | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
+ | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |