[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

GAUK – Zdeněk Kasner

Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí.

Pokud máte nějaké dotazy, klidně mi napište (nejlíp na mail nebo na Slacku).

Základní informace o projektu č. 140320

Český název projektu Doménová adaptace pro generování přirozeného jazyka
Anglický název projektu Domain Adaptation for Natural Language Generation
Aktuální řešitel Ing. Zdeněk Kasner
První žadatel Zdeněk Kasner
Studium Matematicko-fyzikální fakulta
Program Matematická lingvistika
Obor Matematická lingvistika
Typ studia doktorské studium
Rok založení projektu 2020
Délka řešení projektu 3
Sekce oborové rady Společenské vědy - Informatika (INF)
Pracoviště Ústav formální a aplikované lingvistiky

Řešitelský kolektiv

Charakteristika řešitelského kolektivu - rok 2020:

Ing. Zdeněk Kasner Stipendia 70/70
Mgr. et Mgr. Ondřej Dušek Ph.D. Osobní náklady (mzdy a odvody) 20/10

Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika na
Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium
magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na
téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, vedenou externě Mgr.
Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou na ÚFAL, kterou bude používat
pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka.
Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma
disertační práce řešitele odpovídá tématu tohoto grantového projektu.

Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na
generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na
Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených na výzkum dialogových systémů a
interakce s počítači a roboty v přirozeném jazyce. Zde se také podílel na vedení týmu doktorandů v soutěži
dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil na 3. místě. Od ledna 2019 je
vědeckým pracovníkem na ÚFAL MFF UK v rámci grantového projektu PRIMUS/19/SCI/10 zaměřeného na
výzkum dialogových systémů a generování jazyka. Ve svém výzkumu se zabývá zejména generováním
přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu.
Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je
spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci
projektu bude hlavnímu řešiteli poskytovat konzultace.

Finanční požadavky

Struktura finančních prostředků - rok 2020:

Položky Rok 2020
Ostatní neinvestiční náklady 5/5
Pobytové náklady 60/60
Doplňkové náklady 23/21
Osobní náklady (mzdy) a stipendia 90/80
Celkem 178/166

Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle,
USA
- konferenční poplatek: 12 000 Kč
- cesta: 28 000 Kč
- stravné: 8 000 Kč
- ubytování: 12 000 Kč
→ celkem: 60 000 Kč
Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko
- konferenční poplatek: 8 000 Kč
- cesta: 4 000 Kč
- stravné: 5 000 Kč
- ubytování: 6 000 Kč
→ celkem: 18 000 Kč
Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana,
Dominikánská republika
- konferenční poplatek: 11 000 Kč
- cesta: 22 000 Kč
- stravné: 4 000 Kč
- ubytování: 5 000 Kč
→ celkem: 32 000 Kč
International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 /
Dublin, Irsko
- konferenční poplatek: 6 000 Kč
- cesta: 4 000 Kč
- stravné: 3 000 Kč
- ubytování: 4 000 Kč
→ celkem: 17 000 Kč
Náklady na konference jsou odhadnuty na základě informací z minulých let a aktuálních informací na webu.
Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu
(kancelářských potřeb, tonerů, apod.).

Finanční výhled na další roky

Rok 2015 180
Rok 2016 180

Anotace

Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na
množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou
omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku
delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový model pro
generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje
dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích
vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat s jazykem nezávisle na
doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z
projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených na neuronových
sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také
bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného
jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti.

Anotace v anglickém jazyce

The performance of neural natural language generation (NLG) systems is dependent on the amount of available
in-domain training data. Current solutions for domain adaptation are limited – they require very similar
domains or complex input representations and use a rather crude technique of delexicalization. This project
will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in-
domain training data. The model will use domain-independent semantic representations learned from large
amounts of unannotated data to improve implicit language understanding and selecting data matching the
domain for efficient fine-tuning. Outcomes from the project will improve usability of neural NLG systems in
practice and help current understanding of domain-independent semantic representations. The project will
also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG
research.

Současný stav poznání:

Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové
lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných
dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským
uživatelům, tvorbu rutinních reportů z dat v reálném čase nebo usnadnění interakce člověka s počítačem.
Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče
(Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi
počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního
zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování
přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech
(Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu,
stylem výstupu i použitými metodami.

Generování přirozeného jazyka se skládá z řady dílčích úkolů, které mohou být řešeny každý zvlášť (modul pro
každý dílčí úkol), všechny naráz (tzv. end-to-end systémy), případně způsobem stojícím mezi těmito dvěma
extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu a
jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci těchto
výrazů do smysluplného sdělení (Gatt & Krahmer, 2018).

Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon
(template-based; např. Reiter et. al, 1995; McRoy, Channarukul, & Ali, 2003), případně na ručně psaných
gramatikách a pravidlech (rule-based; např. Bateman, 1997; Bangalore & Rambow, 2000). Výhodou těchto
systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro
nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost vůči
neočekávaným vstupům a nedostatečná škálovatelnost na více jazyků nebo domén (Gatt & Krahmer, 2018).
Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami a strojovým
učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu
sdělení (Duboue & McKeown, 2003). Současné přístupy ovšem umožňují generovat text pomocí systémů
postavených pouze na datech (např. Dušek & Jurčíček, 2015; Wen et al. 2016; Lampouras & Vlachos, 2016). Pro
tyto modely jsou využívány techniky strojového učení, které se osvědčily i v jiných oblastech zpracování
přirozeného jazyka (např. ve strojovém překladu, sumarizaci nebo klasifikaci textů) jako jsou rekurentní
neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter &
Schmidhuber, 1997), a modely s vrstvami typu attention (attention-based; Vaswani et al., 2017). V architektuře
používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér
(Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace,
která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i
pro neanotovaná data (neobsahující souvislosti mezi jednotlivými částmi vstupu a výstupu), která jsou snadněji
dostupná.

Systémy postavené na strojovém učení mají výhodu škálovatelnosti a snadné rozšiřitelnosti bez nutnosti
ručních zásahů do architektury. V oblasti generování přirozeného jazyka ovšem tyto systémy nedosahují
takových výsledků, jako např. ve strojovém překladu, kde modely postavené na neuronových sítích během
několika posledních let zcela nahradily předchozí statistické modely (Bojar et al., 2016; 2017). Důvodem je i
nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních
doménách (aplikačních oblastech). To značně snižuje přesnost výstupu systémů, omezuje jejich použitelnost
pouze na několik ukázkových datových sad a znemožňuje jejich nasazení v reálném světě v mnoha doménách s
praktickým (potenciálně i komerčním) využitím a v dialogových systémech pokrývajících současně velké
množství domén (Wen et al., 2016).

Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci je model natrénovaný na
doméně (resp. doménách), pro kterou existuje trénovacích dat dostatek, a následně otestovaný na doméně
(resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky je naučit
model generalizovat lingvistické reprezentace a vzory tak, aby byl schopný produkovat srozumitelné výstupy
nezávisle na aktuální doméně.

V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného
jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro
cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017)
využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning
Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé
lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky
adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, která
využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat
reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě
sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení,
které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény.
Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako
např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací
vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále
omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích
metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez
potřebné lingvistické variability.

Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu
vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název
restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve
vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách,
není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s
morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, 2019).

Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem

Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem
Duškem – Natural Multi-domain Dialogue Systems (PRIMUS/19/SCI/10). Projekt PRIMUS se soustředí
zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o
generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat.

Materiální zajištění projektu

Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely
disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research
Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách.

Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je
dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu.

Cíle řešení projektu

Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat
nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které
umožňují dostatečnou škálovatelnost, robustnost a rozšiřitelnost; model bude ovšem zároveň fungovat i v
doménách s nedostatkem vhodných trénovacích dat.

Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba
programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních
systémů), pomohou tak zvýšit přenositelnost a robustnost těchto systémů a zásadně snížit náklady na jejich
vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v
současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z
libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu,
přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka.

Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka,
který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit
vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost.
V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací
znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování
přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na
neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci.

Způsob řešení

Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu.

Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na
doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství
neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných
kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin et al.,
2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v
oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al.
2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při
generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je
využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019)
tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi
malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi
omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace.

Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp.
domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme
kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých
datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016)
pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika
byla použita ve strojovém překladu, její možný přínos pro generování přirozeného jazyka zatím není
prozkoumaný.

Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek &
Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data
poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími
modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto
datových sad.

Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et
al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002),
ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, 2007), a subjektivní metriky založených na lidském
hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo
Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní
vyhodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením. Tento
model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019).

Prezentace výsledků

Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky
práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru
počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na
interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na
webové stránce projektu.

Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí.
Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání
navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu
generování přirozeného jazyka.

Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu.

Přílohy

Celkové hodnocení projektu

* Shrnutí zpravodaje: Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt
doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti
nezávisle vyzvedli tytéž kvality řešitele a jeho týmu. Ani jeden z oponentů nezmiňuje žádné podstatné slabší
stránky projektu. Projekt má realistické cíle, metodiku řešení i vhodnou představu, kdy, kde a jak nově získané
poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení
projektu.
* Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje: nadprůměrný
* Doporučení při novém podání: Podat znovu, jedná se o kvalitní projekt
* Celkové umístění projektu v rámci sekce: v 1. třetině
* Doporučení zpravodaje: Doporučený
* Doporučení Oborové rady: Doporučený
* Závěrečné doporučení Grantové rady: Doporučený


[ Back to the navigation ] [ Back to the content ]