[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:rosa:gauk [2016/01/14 15:07]
ufal
user:rosa:gauk [2016/03/08 11:18]
ufal
Line 25: Line 25:
 ==== Charakteristika řešitelského kolektivu - rok 2016: ==== ==== Charakteristika řešitelského kolektivu - rok 2016: ====
 Mgr. Rudolf Rosa Mgr. Rudolf Rosa
-Stipendia 80+Stipendia <del>80</del> 65
  
 doc. Ing. Zdeněk Žabokrtský Ph.D. doc. Ing. Zdeněk Žabokrtský Ph.D.
-Osobní náklady (mzdy a odvody) 20+Osobní náklady (mzdy a odvody) <del>20</del> 10
  
 Mgr. Martin Popel Mgr. Martin Popel
-Stipendia 39+Stipendia <del>39</del> 32
  
 Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100.
Line 151: Line 151:
 Rok 2016: 250 Rok 2016: 250
  
-===== Výroční zpráva za 2014 =====+===== Výroční zpráva za 2015 ===== 
 +==== Zpráva o řešení za minulý rok ==== 
 +//Klíčovým výsledkem naší práce v uplynuém roce je navržení nové metriky podobnosti jazyků (přesněji jazykových korpusů anotovaných slovními druhy), nazvané KLcpos3, která se ukázala být velmi efektivní pro nalezení nejvhodnějšího zdrojového jazyka pro analýzu cílového jazyka. 
 +Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). 
 +Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, včetně ACL, nejprestižnější konference v oboru komputační lingvistiky, díky čemuž se o naší práci dozvěděli mnozí výzkumníci zabývající se souvisejícími tématy, z nichž někteří nám předběžně nabídli spolupráci na dalším výzkumu.
  
 +Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, Google Universal Treebanks a HamleDT do nového sdružení Universal Dependencies (UD), které definovalo stejnojmenný anotační styl, kombinující myšlenky a přednosti všech tří výchozích stylů, převedlo do něj řadu existujících treebanků a začalo pravidelně vydávat treebanky v tomto novém formátu. UD nyní sdružuje desítky výzkumníků z mnoha světových pracovišť (včetně všech řešitelů tohoto projektu GAUK). Poslední vydaná verze kolekce treebanků (UD 1.2) obsahuje 42 treebanků pro 33 různých jazyků a je šířena pod svobodnou licencí.//
 +
 +==== Výhled pro další rok ====
 +//V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/TectoMT do formátu UD již jsme zahájili a budeme v ní pokračovat i v následujícím roce, tak abychom mohli tuto platformu použít pro nové experimenty. Toto sjednocování, které probíhá v celé závislostně syntaktické komunitě, umožňuje lepší spolupráci v celosvětovém měřítku, jednodušší sdílení vyvinutých nástrojů a datových sad, a snadnější porovnání výsledků dosažených různými výzkumníky.
 +
 +Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, kterou nám předběžně nabídli Anders Søgaard z Kodaňské university a Željko Agić ze Záhřebské univerzity, kteří se věnují stejné problematice. Máme také v úmyslu prozkoumat možnosti využití moderních metod parsingu, založených na použití neuronových sítí a word embeddings, které v minulém roce vedly k dramatickému posunu stavu poznání v jednojazyčném parsingu, avšak pro vícejazyčný parsing se je dosud nepodařilo úspěšně využít.//
 +
 +==== Komentář k vyčerpaným financím ====
 +//Finanční prostředky byly čerpány dle plánu. Cestovné bylo využito na účast na konferencích, na které byly zaslány a přijaty naše příspěvky prezentující výstupy tohoto projektu: IWPT (MSTParser Model Interpolation for Multi-source Delexicalized Transfer), ACL (KLcpos3 - a Language Similarity Measure for Delexicalized Parser Transfer), a Depling (Multi-source Cross-lingual Delexicalized Parser Transfer: Prague or Stanford?), spojenou se setkáním členů projektu Universal Dependencies.//
 +
 +==== Seznam dosažených výsledků ====
 +Následující text je můj komentář, není součástí Zprávy.
 +Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce.
 +6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat.
 +
 +===== Výroční zpráva za 2014 =====
 ==== Zpráva o řešení za minulý rok ==== ==== Zpráva o řešení za minulý rok ====
 //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, sjednocení anotačního schématu), doplněna o další treebanky (polština, slovenština), a rozšířena o konverzi z pražského závislostního stylu do stylu univerzálních Stanfordských závislostí (který se stává de-facto standardem pro závislostní anotaci; navíc její vlastnosti by měly vést k úspěšnější mezijazyčné projekci závislostních stromů). Výsledná kolekce byla vydána pod názvem HamleDT 2.0 a prezentována na konferenci LREC, kde vyvolala značný zájem u mnoha zahraničních kolegů, s několika z nichž jsme poté navázali užší spolupráci. //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, sjednocení anotačního schématu), doplněna o další treebanky (polština, slovenština), a rozšířena o konverzi z pražského závislostního stylu do stylu univerzálních Stanfordských závislostí (který se stává de-facto standardem pro závislostní anotaci; navíc její vlastnosti by měly vést k úspěšnější mezijazyčné projekci závislostních stromů). Výsledná kolekce byla vydána pod názvem HamleDT 2.0 a prezentována na konferenci LREC, kde vyvolala značný zájem u mnoha zahraničních kolegů, s několika z nichž jsme poté navázali užší spolupráci.
Line 360: Line 380:
 Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster. Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster.
  
 +==== Posudek zpravodaje projektu za rok 2016 ====
 +Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku.

[ Back to the navigation ] [ Back to the content ]