Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:rosa:gauk [2015/01/06 17:19] ufal |
user:rosa:gauk [2017/03/29 23:48] (current) ufal +závěrečná zpráva |
||
---|---|---|---|
Line 22: | Line 22: | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2016: ==== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Mgr. Martin Popel | ||
+ | Stipendia < | ||
+ | |||
+ | Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. | ||
+ | |||
+ | Martinovi navrhuju 39 a ne 40 protože 40 mě to nenechalo zadat (když jsem zadal cokoliv většího než 39 tak se to pak samo změnilo na 39; což je teda fajn vědět, že to ty limity asi nějak kontroluje i samo, i když kdoví jak). | ||
+ | |||
+ | //Složení řešitelského kolektivu je stejné jako v roce 2015. | ||
+ | |||
+ | Martin Popel se od harmonizace treebanků (HamleDT/ | ||
==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 60 | + | Stipendia <del>60</ |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
- | Osobní náklady (mzdy a odvody) 20 | + | Osobní náklady (mzdy a odvody) <del>20</ |
Mgr. Martin Popel | Mgr. Martin Popel | ||
- | Stipendia 40 | + | Stipendia <del>40</ |
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | ||
Line 68: | Line 86: | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2016: ==== | ||
+ | Položky Rok 2016 | ||
+ | Ostatní neinvestiční náklady 1 | ||
+ | Cestovné 50 | ||
+ | Doplňkové náklady 28 | ||
+ | Osobní náklady (mzdy) a stipendia 139 | ||
+ | Celkem 218 | ||
+ | |||
+ | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, | ||
+ | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | ||
+ | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | ||
+ | |||
+ | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
+ | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | ||
+ | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | ||
+ | - ITAT/ | ||
+ | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.// | ||
==== Struktura finančních prostředků - rok 2015: ==== | ==== Struktura finančních prostředků - rok 2015: ==== | ||
Line 73: | Line 113: | ||
Ostatní neinvestiční náklady 1 | Ostatní neinvestiční náklady 1 | ||
Cestovné 100 | Cestovné 100 | ||
- | Doplňkové náklady (počítá se automaticky) (33) | + | Doplňkové náklady (počítá se automaticky) (28) |
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (120) | + | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) |
- | Celkem (počítá se automaticky) (254) | + | Celkem (počítá se automaticky) (219) |
//Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | ||
Line 107: | Line 147: | ||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | ===== Finanční výhled na další roky ===== | + | ==== Finanční výhled na další roky ==== |
Rok 2015: 250 | Rok 2015: 250 | ||
Rok 2016: 250 | Rok 2016: 250 | ||
- | ===== Výroční zpráva | + | ===== Závěrečná zpráva |
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | ||
+ | Martin se dále podílel zejména na Udapi (http:// | ||
+ | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
+ | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
+ | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
+ | |||
+ | ==== Splnění cílů projektu ==== | ||
+ | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | ||
+ | |||
+ | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | ||
+ | |||
+ | ==== Závěrečná zpráva ==== | ||
+ | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | ||
+ | |||
+ | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | ||
+ | |||
+ | ===== Výroční zpráva za 2015 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | // | ||
+ | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | ||
+ | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | ||
+ | |||
+ | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | ||
+ | |||
+ | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | Následující text je můj komentář, není součástí Zprávy. | ||
+ | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | ||
+ | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | ||
+ | |||
+ | ===== Výroční zpráva za 2014 ===== | ||
==== Zpráva o řešení za minulý rok ==== | ==== Zpráva o řešení za minulý rok ==== | ||
//V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | ||
Line 316: | Line 401: | ||
==== Shrnutí zpravodaje k projektu ==== | ==== Shrnutí zpravodaje k projektu ==== | ||
Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
+ | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
+ | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |