Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:rosa:gauk [2016/01/14 15:00] ufal +finance 2016 |
user:rosa:gauk [2017/03/29 23:48] (current) ufal +závěrečná zpráva |
||
---|---|---|---|
Line 25: | Line 25: | ||
==== Charakteristika řešitelského kolektivu - rok 2016: ==== | ==== Charakteristika řešitelského kolektivu - rok 2016: ==== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 80 | + | Stipendia <del>80</ |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
- | Osobní náklady (mzdy a odvody) 20 | + | Osobní náklady (mzdy a odvody) <del>20</ |
Mgr. Martin Popel | Mgr. Martin Popel | ||
- | Stipendia 39 | + | Stipendia <del>39</ |
Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. | Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. | ||
Line 95: | Line 95: | ||
Celkem 218 | Celkem 218 | ||
- | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na psaní článků. I tak hrozí že to nevyčerpám, | + | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, |
Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | ||
+ | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | ||
//Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
Line 150: | Line 151: | ||
Rok 2016: 250 | Rok 2016: 250 | ||
- | ===== Výroční zpráva | + | ===== Závěrečná zpráva |
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | ||
+ | Martin se dále podílel zejména na Udapi (http:// | ||
+ | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
+ | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
+ | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
+ | |||
+ | ==== Splnění cílů projektu ==== | ||
+ | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | ||
+ | |||
+ | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | ||
+ | |||
+ | ==== Závěrečná zpráva ==== | ||
+ | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | ||
+ | |||
+ | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | ||
+ | |||
+ | ===== Výroční zpráva za 2015 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | // | ||
+ | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | ||
+ | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | ||
+ | |||
+ | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | ||
+ | |||
+ | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | Následující text je můj komentář, není součástí Zprávy. | ||
+ | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | ||
+ | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | ||
+ | |||
+ | ===== Výroční zpráva za 2014 ===== | ||
==== Zpráva o řešení za minulý rok ==== | ==== Zpráva o řešení za minulý rok ==== | ||
//V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | ||
Line 359: | Line 405: | ||
Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
+ | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
+ | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |