[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:rosa:gauk [2015/01/06 17:19]
ufal
user:rosa:gauk [2017/03/29 23:48] (current)
ufal +závěrečná zpráva
Line 22: Line 22:
  
 ===== Řešitelský kolektiv ===== ===== Řešitelský kolektiv =====
 +
 +==== Charakteristika řešitelského kolektivu - rok 2016: ====
 +Mgr. Rudolf Rosa
 +Stipendia <del>80</del> 65
 +
 +doc. Ing. Zdeněk Žabokrtský Ph.D.
 +Osobní náklady (mzdy a odvody) <del>20</del> 10
 +
 +Mgr. Martin Popel
 +Stipendia <del>39</del> 32
 +
 +Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100.
 +
 +Martinovi navrhuju 39 a ne 40 protože 40 mě to nenechalo zadat (když jsem zadal cokoliv většího než 39 tak se to pak samo změnilo na 39; což je teda fajn vědět, že to ty limity asi nějak kontroluje i samo, i když kdoví jak).
 +
 +//Složení řešitelského kolektivu je stejné jako v roce 2015.
 +
 +Martin Popel se od harmonizace treebanků (HamleDT/Universal Dependencies) přesouvá k práci na přenositelnosti jazykových technologií. Jeho úkolem je internacionalizace a universalizace platformy Treex/TectoMT, kterou v tomto projektu užíváme, tak aby nativně podporovala práci s daty v libovolném přirozeném jazyce ve formátu Universal Dependencies.//
  
 ==== Charakteristika řešitelského kolektivu - rok 2015: ==== ==== Charakteristika řešitelského kolektivu - rok 2015: ====
 Mgr. Rudolf Rosa Mgr. Rudolf Rosa
-Stipendia 60+Stipendia <del>60</del> 50
  
 doc. Ing. Zdeněk Žabokrtský Ph.D. doc. Ing. Zdeněk Žabokrtský Ph.D.
-Osobní náklady (mzdy a odvody) 20+Osobní náklady (mzdy a odvody) <del>20</del> 10
  
 Mgr. Martin Popel Mgr. Martin Popel
-Stipendia 40+Stipendia <del>40</del> 30
  
 //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky.
Line 68: Line 86:
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
 +
 +==== Struktura finančních prostředků - rok 2016: ====
 +Položky Rok 2016
 +Ostatní neinvestiční náklady 1
 +Cestovné 50
 +Doplňkové náklady 28
 +Osobní náklady (mzdy) a stipendia 139
 +Celkem 218
 +
 +Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, ale kdyžtak mi to vyčerpá Martin. Na ACL nepojedu, tam pojede Martin; na EMNLP se asi nedostanu ale pokusím se; Coling je mým hlavním cílem o který se budu snažit (ale je až v prosinci takže když se tam nedostanu tak už nebude šance typeníze utratit jinak, proto radši žádám míň a kdyžtak získám spolufinancování z jiných zdrojů); na ITATu budu nejspíš organizovat SloNLP takže to je jistota (ale to je málo peněz takže to je jedno; ale přinejhorším to využiju na to abych splnil na GAUKu publikační povinnost).
 +Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června).
 +Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK.
 +
 +//Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let):
 +- ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava)
 +- EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava)
 +- ITAT/SloNLP, Slovensko, 10 000 Kč (8 000 konferenční poplatek a ubytování, 2 000 doprava)
 +- Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava)
 +
 +Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.
 +
 +Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.//
  
 ==== Struktura finančních prostředků - rok 2015: ==== ==== Struktura finančních prostředků - rok 2015: ====
Line 73: Line 113:
 Ostatní neinvestiční náklady 1 Ostatní neinvestiční náklady 1
 Cestovné 100 Cestovné 100
-Doplňkové náklady (počítá se automaticky) (33+Doplňkové náklady (počítá se automaticky) (28
-Osobní náklady (mzdy) a stipendia (počítá se automaticky) (120+Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90
-Celkem (počítá se automaticky) (254)+Celkem (počítá se automaticky) (219)
  
 //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích:
Line 107: Line 147:
 Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.//
  
-===== Finanční výhled na další roky =====+==== Finanční výhled na další roky ====
 Rok 2015: 250 Rok 2015: 250
 Rok 2016: 250 Rok 2016: 250
  
-===== Výroční zpráva za 2014 =====+===== Závěrečná zpráva projektu ===== 
 +==== Zpráva o řešení za minulý rok ==== 
 +//V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. 
 +Martin se dále podílel zejména na Udapi (http://udapi.github.io/), což je jazykově nezávislý framework pro snadnou práci s UD treebanky.
  
 +Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované.
 +Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing.
 +Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, švédština-norština), kde, jak se ukázalo, je možné texty snadno přeložit z jednoho jazyka do druhého slovo po slově, k čemuž jsme užili metody strojového překladu využívající podobnost slov na úrovni znaků. S tímto postupem se nám podařilo dosáhnout velmi dobrých výsledků, se zvýšením přesnosti parsingu až o desítky procent. V lednu roku 2017 jsme pak přesvědčivě zvítězili v soutěží VarDial 2017 CLP, zaměřené na přenos parseru mezi blízkými jazyky, kde jsme pro všechny tři cílové jazyky dosáhli výrazně lepších výsledků než ostatní soutěžící.//
 +
 +==== Splnění cílů projektu ====
 +//Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, kde díky spolupráci desítek odborníků z celého světa (a za aktivní účasti členů tohoto projektu GAUK) vznikla a dále se rozvíjí sbírka treebanků bezprecedentní velikosti s nebývale kvalitně harmonizovanou anotací, umožňující snadnou přenositelnost jazykových technologií mezi různými jazyky. Díky tomu se dnes experimenty s parsingem běžně provádějí nikoli již na jednotkách, ale na desítkách různých jazyků. Míra splnění tohoto cíle projektu tedy předčila veškerá naše očekávání, a to zejména díky tomu, že podobné snahy a potřeby jako my měli souběžně výzkumníci na dalších světových pracovištích.
 +
 +Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.//
 +
 +==== Závěrečná zpráva ====
 +//Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, kdy jde jednoznačně o nejzásadnější aktivitu v oblasti parsingu za poslední roky. Vyvinuli jsme několik nových postupů pro mezijazyčný přenos parserů. Prvním je využití KL divergence distribucí trigramů slovních druhů pro měření podobnosti zdrojového a cílového jazyka (KLcpos3). Druhým pak je využití strojového překladu se zarovnáním na základě podobnosti slov a překladu slovo po slově pro lexikalizaci parseru přenášeného mezi blízkými jazyky, díky čemuž jsme dosáhli nejlepších výsledků na této úloze v mezinárodní soutěži VarDial.
 +
 +Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.//
 +
 +==== Komentář k vyčerpaným financím ====
 +//Finanční prostředky byly čerpány dle plánu. Z důvodu mírně vyšších než očekávaných cestovních nákladů byla malá část finančních prostředků (5,5 tis.) převedena ze stipendií na cestovné.//
 +
 +==== Seznam dosažených výsledků ====
 +7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně.
 +
 +===== Výroční zpráva za 2015 =====
 +==== Zpráva o řešení za minulý rok ====
 +//Klíčovým výsledkem naší práce v uplynuém roce je navržení nové metriky podobnosti jazyků (přesněji jazykových korpusů anotovaných slovními druhy), nazvané KLcpos3, která se ukázala být velmi efektivní pro nalezení nejvhodnějšího zdrojového jazyka pro analýzu cílového jazyka.
 +Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT).
 +Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, včetně ACL, nejprestižnější konference v oboru komputační lingvistiky, díky čemuž se o naší práci dozvěděli mnozí výzkumníci zabývající se souvisejícími tématy, z nichž někteří nám předběžně nabídli spolupráci na dalším výzkumu.
 +
 +Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, Google Universal Treebanks a HamleDT do nového sdružení Universal Dependencies (UD), které definovalo stejnojmenný anotační styl, kombinující myšlenky a přednosti všech tří výchozích stylů, převedlo do něj řadu existujících treebanků a začalo pravidelně vydávat treebanky v tomto novém formátu. UD nyní sdružuje desítky výzkumníků z mnoha světových pracovišť (včetně všech řešitelů tohoto projektu GAUK). Poslední vydaná verze kolekce treebanků (UD 1.2) obsahuje 42 treebanků pro 33 různých jazyků a je šířena pod svobodnou licencí.//
 +
 +==== Výhled pro další rok ====
 +//V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/TectoMT do formátu UD již jsme zahájili a budeme v ní pokračovat i v následujícím roce, tak abychom mohli tuto platformu použít pro nové experimenty. Toto sjednocování, které probíhá v celé závislostně syntaktické komunitě, umožňuje lepší spolupráci v celosvětovém měřítku, jednodušší sdílení vyvinutých nástrojů a datových sad, a snadnější porovnání výsledků dosažených různými výzkumníky.
 +
 +Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, kterou nám předběžně nabídli Anders Søgaard z Kodaňské university a Željko Agić ze Záhřebské univerzity, kteří se věnují stejné problematice. Máme také v úmyslu prozkoumat možnosti využití moderních metod parsingu, založených na použití neuronových sítí a word embeddings, které v minulém roce vedly k dramatickému posunu stavu poznání v jednojazyčném parsingu, avšak pro vícejazyčný parsing se je dosud nepodařilo úspěšně využít.//
 +
 +==== Komentář k vyčerpaným financím ====
 +//Finanční prostředky byly čerpány dle plánu. Cestovné bylo využito na účast na konferencích, na které byly zaslány a přijaty naše příspěvky prezentující výstupy tohoto projektu: IWPT (MSTParser Model Interpolation for Multi-source Delexicalized Transfer), ACL (KLcpos3 - a Language Similarity Measure for Delexicalized Parser Transfer), a Depling (Multi-source Cross-lingual Delexicalized Parser Transfer: Prague or Stanford?), spojenou se setkáním členů projektu Universal Dependencies.//
 +
 +==== Seznam dosažených výsledků ====
 +Následující text je můj komentář, není součástí Zprávy.
 +Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce.
 +6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat.
 +
 +===== Výroční zpráva za 2014 =====
 ==== Zpráva o řešení za minulý rok ==== ==== Zpráva o řešení za minulý rok ====
 //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, sjednocení anotačního schématu), doplněna o další treebanky (polština, slovenština), a rozšířena o konverzi z pražského závislostního stylu do stylu univerzálních Stanfordských závislostí (který se stává de-facto standardem pro závislostní anotaci; navíc její vlastnosti by měly vést k úspěšnější mezijazyčné projekci závislostních stromů). Výsledná kolekce byla vydána pod názvem HamleDT 2.0 a prezentována na konferenci LREC, kde vyvolala značný zájem u mnoha zahraničních kolegů, s několika z nichž jsme poté navázali užší spolupráci. //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, sjednocení anotačního schématu), doplněna o další treebanky (polština, slovenština), a rozšířena o konverzi z pražského závislostního stylu do stylu univerzálních Stanfordských závislostí (který se stává de-facto standardem pro závislostní anotaci; navíc její vlastnosti by měly vést k úspěšnější mezijazyčné projekci závislostních stromů). Výsledná kolekce byla vydána pod názvem HamleDT 2.0 a prezentována na konferenci LREC, kde vyvolala značný zájem u mnoha zahraničních kolegů, s několika z nichž jsme poté navázali užší spolupráci.
Line 316: Line 401:
 ==== Shrnutí zpravodaje k projektu ==== ==== Shrnutí zpravodaje k projektu ====
 Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, že struktura projektu je v pořádku. Rovněž tak řešitelský tým i pracoviště poskytuje záruku, že bude dosaženo vytyčených cílů. Projekt doporučím k financování. Bohužel vzhledem k velikosti přidělených finančních prostředků jsem byl nucen přistoupit ke krácení finančních prostředků pro projekt. Zdůvodnění ostatních neinvestičních nákladů (nákup pevných disků) pro projekt mi přijde dost pochybné. Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, že struktura projektu je v pořádku. Rovněž tak řešitelský tým i pracoviště poskytuje záruku, že bude dosaženo vytyčených cílů. Projekt doporučím k financování. Bohužel vzhledem k velikosti přidělených finančních prostředků jsem byl nucen přistoupit ke krácení finančních prostředků pro projekt. Zdůvodnění ostatních neinvestičních nákladů (nákup pevných disků) pro projekt mi přijde dost pochybné.
 +
 +==== Posudek zpravodaje projektu za rok 2015 ====
 +Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster.
 +
 +==== Posudek zpravodaje projektu za rok 2016 ====
 +Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku.

[ Back to the navigation ] [ Back to the content ]