[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
user:rosa:gauk [2016/03/08 11:18]
ufal
user:rosa:gauk [2017/03/29 23:48] (current)
ufal +závěrečná zpráva
Line 150: Line 150:
 Rok 2015: 250 Rok 2015: 250
 Rok 2016: 250 Rok 2016: 250
 +
 +===== Závěrečná zpráva projektu =====
 +==== Zpráva o řešení za minulý rok ====
 +//V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL.
 +Martin se dále podílel zejména na Udapi (http://udapi.github.io/), což je jazykově nezávislý framework pro snadnou práci s UD treebanky.
 +
 +Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované.
 +Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing.
 +Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, švédština-norština), kde, jak se ukázalo, je možné texty snadno přeložit z jednoho jazyka do druhého slovo po slově, k čemuž jsme užili metody strojového překladu využívající podobnost slov na úrovni znaků. S tímto postupem se nám podařilo dosáhnout velmi dobrých výsledků, se zvýšením přesnosti parsingu až o desítky procent. V lednu roku 2017 jsme pak přesvědčivě zvítězili v soutěží VarDial 2017 CLP, zaměřené na přenos parseru mezi blízkými jazyky, kde jsme pro všechny tři cílové jazyky dosáhli výrazně lepších výsledků než ostatní soutěžící.//
 +
 +==== Splnění cílů projektu ====
 +//Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, kde díky spolupráci desítek odborníků z celého světa (a za aktivní účasti členů tohoto projektu GAUK) vznikla a dále se rozvíjí sbírka treebanků bezprecedentní velikosti s nebývale kvalitně harmonizovanou anotací, umožňující snadnou přenositelnost jazykových technologií mezi různými jazyky. Díky tomu se dnes experimenty s parsingem běžně provádějí nikoli již na jednotkách, ale na desítkách různých jazyků. Míra splnění tohoto cíle projektu tedy předčila veškerá naše očekávání, a to zejména díky tomu, že podobné snahy a potřeby jako my měli souběžně výzkumníci na dalších světových pracovištích.
 +
 +Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.//
 +
 +==== Závěrečná zpráva ====
 +//Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, kdy jde jednoznačně o nejzásadnější aktivitu v oblasti parsingu za poslední roky. Vyvinuli jsme několik nových postupů pro mezijazyčný přenos parserů. Prvním je využití KL divergence distribucí trigramů slovních druhů pro měření podobnosti zdrojového a cílového jazyka (KLcpos3). Druhým pak je využití strojového překladu se zarovnáním na základě podobnosti slov a překladu slovo po slově pro lexikalizaci parseru přenášeného mezi blízkými jazyky, díky čemuž jsme dosáhli nejlepších výsledků na této úloze v mezinárodní soutěži VarDial.
 +
 +Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.//
 +
 +==== Komentář k vyčerpaným financím ====
 +//Finanční prostředky byly čerpány dle plánu. Z důvodu mírně vyšších než očekávaných cestovních nákladů byla malá část finančních prostředků (5,5 tis.) převedena ze stipendií na cestovné.//
 +
 +==== Seznam dosažených výsledků ====
 +7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně.
  
 ===== Výroční zpráva za 2015 ===== ===== Výroční zpráva za 2015 =====

[ Back to the navigation ] [ Back to the content ]