[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:rosa:gauk [2016/01/14 15:34]
ufal +komentář k dosaženým výsledkům
user:rosa:gauk [2017/03/29 23:48] (current)
ufal +závěrečná zpráva
Line 25: Line 25:
 ==== Charakteristika řešitelského kolektivu - rok 2016: ==== ==== Charakteristika řešitelského kolektivu - rok 2016: ====
 Mgr. Rudolf Rosa Mgr. Rudolf Rosa
-Stipendia 80+Stipendia <del>80</del> 65
  
 doc. Ing. Zdeněk Žabokrtský Ph.D. doc. Ing. Zdeněk Žabokrtský Ph.D.
-Osobní náklady (mzdy a odvody) 20+Osobní náklady (mzdy a odvody) <del>20</del> 10
  
 Mgr. Martin Popel Mgr. Martin Popel
-Stipendia 39+Stipendia <del>39</del> 32
  
 Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100.
Line 150: Line 150:
 Rok 2015: 250 Rok 2015: 250
 Rok 2016: 250 Rok 2016: 250
 +
 +===== Závěrečná zpráva projektu =====
 +==== Zpráva o řešení za minulý rok ====
 +//V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL.
 +Martin se dále podílel zejména na Udapi (http://udapi.github.io/), což je jazykově nezávislý framework pro snadnou práci s UD treebanky.
 +
 +Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované.
 +Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing.
 +Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, švédština-norština), kde, jak se ukázalo, je možné texty snadno přeložit z jednoho jazyka do druhého slovo po slově, k čemuž jsme užili metody strojového překladu využívající podobnost slov na úrovni znaků. S tímto postupem se nám podařilo dosáhnout velmi dobrých výsledků, se zvýšením přesnosti parsingu až o desítky procent. V lednu roku 2017 jsme pak přesvědčivě zvítězili v soutěží VarDial 2017 CLP, zaměřené na přenos parseru mezi blízkými jazyky, kde jsme pro všechny tři cílové jazyky dosáhli výrazně lepších výsledků než ostatní soutěžící.//
 +
 +==== Splnění cílů projektu ====
 +//Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, kde díky spolupráci desítek odborníků z celého světa (a za aktivní účasti členů tohoto projektu GAUK) vznikla a dále se rozvíjí sbírka treebanků bezprecedentní velikosti s nebývale kvalitně harmonizovanou anotací, umožňující snadnou přenositelnost jazykových technologií mezi různými jazyky. Díky tomu se dnes experimenty s parsingem běžně provádějí nikoli již na jednotkách, ale na desítkách různých jazyků. Míra splnění tohoto cíle projektu tedy předčila veškerá naše očekávání, a to zejména díky tomu, že podobné snahy a potřeby jako my měli souběžně výzkumníci na dalších světových pracovištích.
 +
 +Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.//
 +
 +==== Závěrečná zpráva ====
 +//Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, kdy jde jednoznačně o nejzásadnější aktivitu v oblasti parsingu za poslední roky. Vyvinuli jsme několik nových postupů pro mezijazyčný přenos parserů. Prvním je využití KL divergence distribucí trigramů slovních druhů pro měření podobnosti zdrojového a cílového jazyka (KLcpos3). Druhým pak je využití strojového překladu se zarovnáním na základě podobnosti slov a překladu slovo po slově pro lexikalizaci parseru přenášeného mezi blízkými jazyky, díky čemuž jsme dosáhli nejlepších výsledků na této úloze v mezinárodní soutěži VarDial.
 +
 +Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.//
 +
 +==== Komentář k vyčerpaným financím ====
 +//Finanční prostředky byly čerpány dle plánu. Z důvodu mírně vyšších než očekávaných cestovních nákladů byla malá část finančních prostředků (5,5 tis.) převedena ze stipendií na cestovné.//
 +
 +==== Seznam dosažených výsledků ====
 +7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně.
  
 ===== Výroční zpráva za 2015 ===== ===== Výroční zpráva za 2015 =====
Line 380: Line 405:
 Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster. Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster.
  
 +==== Posudek zpravodaje projektu za rok 2016 ====
 +Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku.

[ Back to the navigation ] [ Back to the content ]