Table of Contents
GAUK – Zdeněk Kasner
Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí.
Pokud máte nějaké dotazy, klidně mi napište (nejlíp na mail nebo na Slacku).
- GAUK podán 2.11.2019
- GAUK přijatý k financování 11. 03. 2020
Základní informace o projektu č. 140320
Český název projektu | Doménová adaptace pro generování přirozeného jazyka |
Anglický název projektu | Domain Adaptation for Natural Language Generation |
Aktuální řešitel | Ing. Zdeněk Kasner |
První žadatel | Zdeněk Kasner |
Studium | Matematicko-fyzikální fakulta |
Program | Matematická lingvistika |
Obor | Matematická lingvistika |
Typ studia | doktorské studium |
Rok založení projektu | 2020 |
Délka řešení projektu | 3 |
Sekce oborové rady | Společenské vědy - Informatika (INF) |
Pracoviště | Ústav formální a aplikované lingvistiky |
Řešitelský kolektiv
Charakteristika řešitelského kolektivu - rok 2020:
Ing. Zdeněk Kasner | Stipendia | 70/70 |
Mgr. et Mgr. Ondřej Dušek Ph.D. | Osobní náklady (mzdy a odvody) | 20/10 |
Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika na
Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium
magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na
téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, vedenou externě Mgr.
Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou na ÚFAL, kterou bude používat
pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka.
Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma
disertační práce řešitele odpovídá tématu tohoto grantového projektu.
Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na
generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na
Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených na výzkum dialogových systémů a
interakce s počítači a roboty v přirozeném jazyce. Zde se také podílel na vedení týmu doktorandů v soutěži
dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil na 3. místě. Od ledna 2019 je
vědeckým pracovníkem na ÚFAL MFF UK v rámci grantového projektu PRIMUS/19/SCI/10 zaměřeného na
výzkum dialogových systémů a generování jazyka. Ve svém výzkumu se zabývá zejména generováním
přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu.
Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je
spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci
projektu bude hlavnímu řešiteli poskytovat konzultace.
Finanční požadavky
Položky | Rok 2020 | Rok 2021 | Rok 2022 |
---|---|---|---|
Ostatní neinvestiční náklady | 5/5 | 3/3 | 3 |
Pobytové náklady | 60/60 | 48/40 | 58 |
Doplňkové náklady | 23/21 | 19/18 | 21 |
Osobní náklady (mzdy) a stipendia | 90/80 | 80/80 | 80 |
Celkem | 178/166 | 150/141 | 162 |
Struktura finančních prostředků - rok 2022
Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
Association for Computational Linguistics Annual Meeting (ACL): 22.-27. květen 2022 / Dublin, Irsko
konferenční poplatek: 12 000 Kč
cesta: 5 000 Kč
stravné: 5 000 Kč
ubytování: 7 000 Kč
→ celkem: 29 000 Kč
International Conference on Natural Language Generation (INLG): 18.-22. červenec 2022 / Maine, USA
konferenční poplatek: 10 000 Kč
cesta: 30 000 Kč
stravné: 5 000 Kč
ubytování: 10 000 Kč
→ celkem: 55 000 Kč
International Conference for Computational Linguistics (COLING): 12.-17. říjen 2022 / Gyeongju, Jižní Korea
konferenční poplatek: 12 000 Kč
cesta: 30 000 Kč
stravné: 6 000 Kč
ubytování: 10 000 Kč
→ celkem: 58 000 Kč
V případě hybridního formátu je možné uvažovat i o online účasti na některé z konferencí. Osobní přítomnost alespoň na jedné významné oborové konferenci ovšem umožní lépe šířit povědomí o práci v průběhu projektu, získat přehled o další výzkumných výsledcích a jednodušeji navázat profesionální kontakty.
Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.).
Struktura finančních prostředků - rok 2021
Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
Empirical Methods in Natural Language Processing (EMNLP): 7.-11. listopad 2020 / Punta Cana, Dominikánská republika
- konferenční poplatek: 11 000 Kč
- cesta: 25 000 Kč
- stravné: 5 000 Kč
- ubytování: 7 000 Kč
→ celkem: 48 000 Kč
International Conference on Natural Language Generation (INLG): září 2021 (4 dny) / Aberdeen, Velká Británie
konferenční poplatek: 7 000 Kč
- cesta: 5 000 Kč
- stravné: 4 000 Kč
- ubytování: 5 000 Kč
→ celkem: 21 000 Kč
Obě konference se budou konat v druhé polovině tohoto roku, je tedy potřeba počítat s tím, že se mohou konat osobně. Podle aktuálních informací je tato varianta preferována, viz https://2021.emnlp.org a https://aclweb.org/aclwiki/SIGGEN#Upcoming_Events.
Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.).
Struktura finančních prostředků - rok 2020:
Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle,
USA
- konferenční poplatek: 12 000 Kč
- cesta: 28 000 Kč
- stravné: 8 000 Kč
- ubytování: 12 000 Kč
→ celkem: 60 000 Kč
Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko
- konferenční poplatek: 8 000 Kč
- cesta: 4 000 Kč
- stravné: 5 000 Kč
- ubytování: 6 000 Kč
→ celkem: 18 000 Kč
Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana,
Dominikánská republika
- konferenční poplatek: 11 000 Kč
- cesta: 22 000 Kč
- stravné: 4 000 Kč
- ubytování: 5 000 Kč
→ celkem: 32 000 Kč
International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 /
Dublin, Irsko
- konferenční poplatek: 6 000 Kč
- cesta: 4 000 Kč
- stravné: 3 000 Kč
- ubytování: 4 000 Kč
→ celkem: 17 000 Kč
Náklady na konference jsou odhadnuty na základě informací z minulých let a aktuálních informací na webu.
Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu
(kancelářských potřeb, tonerů, apod.).
Finanční výhled na další roky
Rok 2021 | 180 |
Rok 2022 | 180 |
Rozšiřující informace
Anotace
Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na
množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou
omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku
delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový model pro
generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje
dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích
vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat s jazykem nezávisle na
doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z
projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených na neuronových
sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také
bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného
jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti.
Anotace v anglickém jazyce
The performance of neural natural language generation (NLG) systems is dependent on the amount of available
in-domain training data. Current solutions for domain adaptation are limited – they require very similar
domains or complex input representations and use a rather crude technique of delexicalization. This project
will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in-
domain training data. The model will use domain-independent semantic representations learned from large
amounts of unannotated data to improve implicit language understanding and selecting data matching the
domain for efficient fine-tuning. Outcomes from the project will improve usability of neural NLG systems in
practice and help current understanding of domain-independent semantic representations. The project will
also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG
research.
Současný stav poznání:
Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové
lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných
dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským
uživatelům, tvorbu rutinních reportů z dat v reálném čase nebo usnadnění interakce člověka s počítačem.
Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče
(Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi
počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního
zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování
přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech
(Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu,
stylem výstupu i použitými metodami.
Generování přirozeného jazyka se skládá z řady dílčích úkolů, které mohou být řešeny každý zvlášť (modul pro
každý dílčí úkol), všechny naráz (tzv. end-to-end systémy), případně způsobem stojícím mezi těmito dvěma
extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu a
jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci těchto
výrazů do smysluplného sdělení (Gatt & Krahmer, 2018).
Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon
(template-based; např. Reiter et. al, 1995; McRoy, Channarukul, & Ali, 2003), případně na ručně psaných
gramatikách a pravidlech (rule-based; např. Bateman, 1997; Bangalore & Rambow, 2000). Výhodou těchto
systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro
nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost vůči
neočekávaným vstupům a nedostatečná škálovatelnost na více jazyků nebo domén (Gatt & Krahmer, 2018).
Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami a strojovým
učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu
sdělení (Duboue & McKeown, 2003). Současné přístupy ovšem umožňují generovat text pomocí systémů
postavených pouze na datech (např. Dušek & Jurčíček, 2015; Wen et al. 2016; Lampouras & Vlachos, 2016). Pro
tyto modely jsou využívány techniky strojového učení, které se osvědčily i v jiných oblastech zpracování
přirozeného jazyka (např. ve strojovém překladu, sumarizaci nebo klasifikaci textů) jako jsou rekurentní
neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter &
Schmidhuber, 1997), a modely s vrstvami typu attention (attention-based; Vaswani et al., 2017). V architektuře
používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér
(Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace,
která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i
pro neanotovaná data (neobsahující souvislosti mezi jednotlivými částmi vstupu a výstupu), která jsou snadněji
dostupná.
Systémy postavené na strojovém učení mají výhodu škálovatelnosti a snadné rozšiřitelnosti bez nutnosti
ručních zásahů do architektury. V oblasti generování přirozeného jazyka ovšem tyto systémy nedosahují
takových výsledků, jako např. ve strojovém překladu, kde modely postavené na neuronových sítích během
několika posledních let zcela nahradily předchozí statistické modely (Bojar et al., 2016; 2017). Důvodem je i
nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních
doménách (aplikačních oblastech). To značně snižuje přesnost výstupu systémů, omezuje jejich použitelnost
pouze na několik ukázkových datových sad a znemožňuje jejich nasazení v reálném světě v mnoha doménách s
praktickým (potenciálně i komerčním) využitím a v dialogových systémech pokrývajících současně velké
množství domén (Wen et al., 2016).
Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci je model natrénovaný na
doméně (resp. doménách), pro kterou existuje trénovacích dat dostatek, a následně otestovaný na doméně
(resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky je naučit
model generalizovat lingvistické reprezentace a vzory tak, aby byl schopný produkovat srozumitelné výstupy
nezávisle na aktuální doméně.
V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného
jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro
cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017)
využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning
Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé
lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky
adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, která
využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat
reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě
sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení,
které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény.
Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako
např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací
vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále
omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích
metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez
potřebné lingvistické variability.
Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu
vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název
restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve
vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách,
není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s
morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, 2019).
Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem
Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem
Duškem – Natural Multi-domain Dialogue Systems (PRIMUS/19/SCI/10). Projekt PRIMUS se soustředí
zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o
generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat.
Materiální zajištění projektu
Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely
disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research
Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách.
Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je
dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu.
Cíle řešení projektu
Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat
nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které
umožňují dostatečnou škálovatelnost, robustnost a rozšiřitelnost; model bude ovšem zároveň fungovat i v
doménách s nedostatkem vhodných trénovacích dat.
Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba
programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních
systémů), pomohou tak zvýšit přenositelnost a robustnost těchto systémů a zásadně snížit náklady na jejich
vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v
současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z
libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu,
přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka.
Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka,
který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit
vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost.
V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací
znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování
přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na
neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci.
Způsob řešení
Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu.
Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na
doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství
neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných
kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin et al.,
2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v
oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al.
2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při
generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je
využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019)
tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi
malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi
omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace.
Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp.
domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme
kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých
datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016)
pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika
byla použita ve strojovém překladu, její možný přínos pro generování přirozeného jazyka zatím není
prozkoumaný.
Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek &
Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data
poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími
modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto
datových sad.
Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et
al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002),
ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, 2007), a subjektivní metriky založených na lidském
hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo
Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní
vyhodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením. Tento
model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019).
Prezentace výsledků
Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky
práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru
počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na
interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na
webové stránce projektu.
Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí.
Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání
navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu
generování přirozeného jazyka.
Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu.
Přílohy
- Ondřej Dušek – CV.pdf (životopis vedoucího)
- Zdeněk Kasner – CV.pdf (životopis řešitele)
- Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019)
Závěrečná zpráva
Splnění cílů projektu
Hlavním cílem projektu bylo vytvořit techniku pro generování textu ze strukturovaných dat nezávisle na konkrétní doméně. Při našem řešení jsme se zaměřili na využití schopností předtrénovaných jazykových modelů pracovat s textem v přirozeném jazyce. Abychom tyto modely mohli aplikovat na náš problém, přeformulovali jsme úkol “generování textu z dat” - pro který je potřeba získat trénovací data z konkrétní domény - na úkol “vylepšování kvality textu pomocí postupných úprav” - který lze natrénovat i na generickém, veřejně dostupném textu.
V článku Kasner and Dušek (2020) jsme publikovali techniku, která iterativně zlepšovala text pomocí postupné editace šablon. Technika využívala jazykový model, který mohl provádět jen omezenou sadu operací zaměřenou na syntézu vět. Kromě toho, že tím došlo k omezení tzv. “halucinací” (faktů neodpovídajícím vstupu) ve výstupním textu, model mohl být navíc po natrénování na jedné doméně aplikovaný i na datovou sadu z jiné domény.
Tuto myšlenku jsme dále rozpracovali v článku Kasner and Dušek (2022). V návaznosti na předchozí práci se podařilo vyvinout systém, který nepotřeboval zcela žádná trénovací data z konkrétní domény a mohl být natrénovaný pouze na předzpracovaných volně dostupných datech (v našem případě na článcích z Wikipedie). Tento systém pomocí sekvence tří modulů postupně seřadil, zagregoval a zlepšil plynulost jednoduchých šablon, díky čemuž dosáhl na dvou datových sadách výsledků srovnatelných s obdobnými systémy z předchozích let, které využívaly trénovací data z konkrétní domény.
Jedním z výsledků nejnovějšího článku Kasner et al. (2023) pak je i možnost generování šablon pomocí jazykových modelů, díky čemuž je možné eliminovat zbývající manuální část v předchozím přístupu, tedy tvorbu šablon, a celkově tím zlepšit doménovou nezávislost našeho přístupu.
Vedlejším cílem projektu pak bylo vytvořit systém pro objektivní hodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením než současné objektivní metriky. Tento cíl se povedlo splnit v článku Dušek and Kasner (2020), ve kterém jsme popsali systém pro hodnocení vygenerovaných textů pomocí modelu založeném na tzv. natural language inference (tedy hodnocení logické provázanosti hypotézy a premisy). Naše metoda dokáže využít existujícího předtrénovaného modelu, díky čemuž je jednoduše použitelná, a zároveň dokáže automatizovat lidské hodnocení s obdobnými nebo lepšími výsledky.
Oba cíle projektu se tedy podařilo splnit. Na našem přístupu založeném na úpravách textu je možné stavět další přístupy pro generování textu z dat pomocí velkých jazykových modelů, které nedokáží pracovat se strukturovanými daty, ale dosahují velmi dobrých výsledků při práci s textem. Na náš přístup pro evaluaci textu pak již v současnosti navazuje řada dalších přístupů pro evaluaci textu založených na specializovaných modelech.
Závěrečná zpráva za celý projekt
Tento grantový projekt měl za cíl vyvinout techniky pro generování přirozeného jazyka, zejména se zaměřením na techniky pro doménově nezávislé generování textu ze strukturovaných dat.
V průběhu práce jsme vyvinuli techniky, které pomohly naplnit cíle projektu (viz sekce Splnění cílů projektu). Naše výsledky byly publikované na významných mezinárodních konferencích pro zpracování přirozeného jazyka (ACL, EACL, INLG) a všechna naše data a kódy byly publikované pod svobodnou otevřenou licencí.
Díky grantovým prostředkům se řešitel mimo jiné osobně zúčastnil konference ACL 2022, letní školy DeepLearn 2021 a stáže na Heriot-Watt University v Edinburghu. Zbylé grantové prostředky byly využity na nákup vybavení, které přímo pomohly splnění cílů projektu.
Výsledky projektu mimo jiné umožnily i přijetí řešitele na stáž v prestižním výzkumném institutu strojového učení MILA (Montreal, Kanada) na jaře roku 2023, kde bude řešitel navazovat na svůj dosavadní výzkum.
Hodnocení projektu - 2022
Zpráva o řešení za minulý rok
V roce 2022 jsme se dále zaměřili na generování textu z dat pomocí jazykových modelů a úspěšně jsme vyvinuli způsob pro použití těchto modelů bez potřeby trénovacích dat z konkrétní domény. Výsledky této práce jsme publikovali v článku Kasner and Dušek (2022) na konferenci ACL 2022 v Dublinu. Této konference jsem se jako první autor článku zúčastnil a prezentoval zde o článku poster.
Ve spolupráci s Dr. Ioannisem Konstasem z Heriot-Watt University v Edinburgu, kde jsem se zúčastnil stáže na podzim roku 2021, vzniknul článek Kasner et al. (2023), který se zabývá analýzou schopností jazykových modelů generovat popisy zcela nových relací ve znalostních grafech. Tento článek je v současnosti přijatý na konferenci EACL 2023.
Spolupracoval jsem i na článcích s kolegy: v článku Mukherjee et al. (2022) jsme se zabývali zachováním obsahu při transferu stylu ve vygenerovaném textu a v článku Huidrom et al. (2022) jsme provedli reprodukční studii dřívějších experimentů. Tyto projekty byly také publikovány na konferencích.
Celkově jsme tak úspěšně pokračovali ve výzkumu ohledně doménové adaptace pro generování textu z dat a publikovali významné výsledky na mezinárodních konferencích pro zpracování přirozeného jazyka.
Hodnocení projektu - 2021
Zpráva o řešení za minulý rok
V minulém roce jsme úspěšně rozpracovali a publikovali prvotní části projektu.
Pozornost jsme věnovali především technikám pro doménově nezávislé generování přirozeného jazyka. Experimenty s neuronovými modely modely pro editaci textu (Libovický et al., 2020; prezentováno na WNGT 2020) nám umožnily vyvinutí techniky, která využívá model pro syntézu vět (sentence fusion) pro iterativní zlepšování textu vygenerovaného pomocí jednoduchých šablon. Výsledky této práce jsme prezentovali a publikovali na 13th International Conference on Natural Language Generation (INLG 2020; prosinec, online) (Kasner and Dušek, 2020a).
Předtrénované neuronové modely jsme dále aplikovali na datové sady pro generování jazyka a vytvořili soutěžní systém pro WebNLG Challenge 2020. Tento model je vícejazyčný (angličtina + ruština) a v soutěži se umístil na předních příčkách. Popis systému jsme publikovali a prezentovali na workshopu WebNLG+ (3rd Workshop on Natural Language Generation from the Semantic Web), který se konal během INLG 2020 (Kasner and Dušek, 2020b).
Podařilo se rozpracovat i vedlejší záměr projektu: vyvinout automatickou metriku pro evaluaci generovaní přirozeného jazyka, která bude lépe korelovat s lidským hodnocením. Za tímto účelem jsme vyvinuli a experimentálně ověřili techniku založenou na předtrénovaném modelu pro inferenci v přirozeném jazyce (Natural Language Inference, NLI). Metrika je plně automatická a na jednoduchých datových sadách dosahuje při hodnocení sémantické přesnosti výsledků lépe korelujících s lidským hodnocením než dosavadní metriky. Práce, publikovaná na INLG 2020, získala ocenění Best Short Paper Award (Dušek and Kasner, 2020).
Veškeré výsledky práce jsme zároveň prezentovali i na interním semináři Ústavu formální a aplikované lingvistiky (září 2020, online).
Výhled pro další rok
V první části roku dokončíme a zveřejníme pod open-source licencí zdrojový kód a data použitá v části práce zabývající se iterativní syntézou vět. Tento kód umožní navázat na publikovanou práci a do budoucna ji rozšířit.
Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování jazyka, než současné přístupy pro generování bez mezikroků.
V oblasti evaluace generování přirozeného jazyka pak plánujeme vytvořit systém pro vyhodnocování přesnosti vygenerovaných výstupů na složitějších datových sadách zahrnující netriviální výběr, agregaci a manipulaci s daty.
Seznam dosažených výsledků
(přidáváno po položkách i s detaily)
- článek ve sborníku - Data-to-Text Generation with Iterative Text Editing
- článek ve sborníku - Expand and filter: CUNI and LMU systems for the WNGT 2020 Duolingo shared task
- článek ve sborníku - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference
- článek ve sborníku - Train Hard, Finetune Easy: Multilingual Denoising for RDF-to-Text Generation
- ostatní - prezentace - ÚFAL seminář
Komentář zpravodaje
Čerpání finančních prostředků: Finance byly využity korektně.
Komentář zpravodaje projektu: Projekt přinesl hned v prvním roce několik publikací prezentovaných na mezinárodních konferencích, a jedna z nich získala ocenění Best Short Paper Award.
Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit.
Hodnocení projektu - 2020
* Shrnutí zpravodaje: Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt
doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti
nezávisle vyzvedli tytéž kvality řešitele a jeho týmu. Ani jeden z oponentů nezmiňuje žádné podstatné slabší
stránky projektu. Projekt má realistické cíle, metodiku řešení i vhodnou představu, kdy, kde a jak nově získané
poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení
projektu.
* Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje: nadprůměrný
* Doporučení při novém podání: Podat znovu, jedná se o kvalitní projekt
* Celkové umístění projektu v rámci sekce: v 1. třetině
* Doporučení zpravodaje: Doporučený
* Doporučení Oborové rady: Doporučený
* Závěrečné doporučení Grantové rady: Doporučený