{{ :user:kasner:literatura_gauk.pdf |}}===== GAUK – Zdeněk Kasner ===== Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí. Pokud máte nějaké dotazy, klidně mi [[https://ufal.mff.cuni.cz/zdenek-kasner|napište]] (nejlíp na mail nebo na Slacku). * GAUK podán 2.11.2019 * GAUK přijatý k financování 11. 03. 2020 ===== Základní informace o projektu č. 140320 ===== | Český název projektu | Doménová adaptace pro generování přirozeného jazyka | | Anglický název projektu | Domain Adaptation for Natural Language Generation | | Aktuální řešitel | Ing. Zdeněk Kasner | | První žadatel |Zdeněk Kasner | | Studium | Matematicko-fyzikální fakulta | | Program |Matematická lingvistika | | Obor |Matematická lingvistika | | Typ studia |doktorské studium | | Rok založení projektu |2020 | | Délka řešení projektu | 3 | | Sekce oborové rady | Společenské vědy - Informatika (INF) | | Pracoviště | Ústav formální a aplikované lingvistiky | ===== Řešitelský kolektiv ===== ==== Charakteristika řešitelského kolektivu - rok 2020: ==== | Ing. Zdeněk Kasner | Stipendia | 70/70 | | Mgr. et Mgr. Ondřej Dušek Ph.D. | Osobní náklady (mzdy a odvody) | 20/10 | Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika na Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, vedenou externě Mgr. Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou na ÚFAL, kterou bude používat pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka. Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma disertační práce řešitele odpovídá tématu tohoto grantového projektu. Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených na výzkum dialogových systémů a interakce s počítači a roboty v přirozeném jazyce. Zde se také podílel na vedení týmu doktorandů v soutěži dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil na 3. místě. Od ledna 2019 je vědeckým pracovníkem na ÚFAL MFF UK v rámci grantového projektu PRIMUS/19/SCI/10 zaměřeného na výzkum dialogových systémů a generování jazyka. Ve svém výzkumu se zabývá zejména generováním přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu. Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci projektu bude hlavnímu řešiteli poskytovat konzultace. ===== Finanční požadavky ===== ^ Položky ^ Rok 2020 ^ Rok 2021 ^ Rok 2022 ^ | Ostatní neinvestiční náklady | 5/5 | 3/3 | 3 | | Pobytové náklady | 60/60 | 48/40 | 58 | | Doplňkové náklady | 23/21 | 19/18 | 21 | | Osobní náklady (mzdy) a stipendia | 90/80 | 80/80 | 80 | | Celkem | 178/166 | 150/141 | 162 | ==== Struktura finančních prostředků - rok 2022 ==== Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK. Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: Association for Computational Linguistics Annual Meeting (ACL): 22.-27. květen 2022 / Dublin, Irsko konferenční poplatek: 12 000 Kč cesta: 5 000 Kč stravné: 5 000 Kč ubytování: 7 000 Kč → celkem: 29 000 Kč International Conference on Natural Language Generation (INLG): 18.-22. červenec 2022 / Maine, USA konferenční poplatek: 10 000 Kč cesta: 30 000 Kč stravné: 5 000 Kč ubytování: 10 000 Kč → celkem: 55 000 Kč International Conference for Computational Linguistics (COLING): 12.-17. říjen 2022 / Gyeongju, Jižní Korea konferenční poplatek: 12 000 Kč cesta: 30 000 Kč stravné: 6 000 Kč ubytování: 10 000 Kč → celkem: 58 000 Kč V případě hybridního formátu je možné uvažovat i o online účasti na některé z konferencí. Osobní přítomnost alespoň na jedné významné oborové konferenci ovšem umožní lépe šířit povědomí o práci v průběhu projektu, získat přehled o další výzkumných výsledcích a jednodušeji navázat profesionální kontakty. Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.). ==== Struktura finančních prostředků - rok 2021 ==== Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK. Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: Empirical Methods in Natural Language Processing (EMNLP): 7.-11. listopad 2020 / Punta Cana, Dominikánská republika - konferenční poplatek: 11 000 Kč - cesta: 25 000 Kč - stravné: 5 000 Kč - ubytování: 7 000 Kč → celkem: 48 000 Kč International Conference on Natural Language Generation (INLG): září 2021 (4 dny) / Aberdeen, Velká Británie konferenční poplatek: 7 000 Kč - cesta: 5 000 Kč - stravné: 4 000 Kč - ubytování: 5 000 Kč → celkem: 21 000 Kč Obě konference se budou konat v druhé polovině tohoto roku, je tedy potřeba počítat s tím, že se mohou konat osobně. Podle aktuálních informací je tato varianta preferována, viz https://2021.emnlp.org a https://aclweb.org/aclwiki/SIGGEN#Upcoming_Events. Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.). ==== Struktura finančních prostředků - rok 2020: ==== Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK. Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle, USA - konferenční poplatek: 12 000 Kč - cesta: 28 000 Kč - stravné: 8 000 Kč - ubytování: 12 000 Kč → celkem: 60 000 Kč Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko - konferenční poplatek: 8 000 Kč - cesta: 4 000 Kč - stravné: 5 000 Kč - ubytování: 6 000 Kč → celkem: 18 000 Kč Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana, Dominikánská republika - konferenční poplatek: 11 000 Kč - cesta: 22 000 Kč - stravné: 4 000 Kč - ubytování: 5 000 Kč → celkem: 32 000 Kč International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 / Dublin, Irsko - konferenční poplatek: 6 000 Kč - cesta: 4 000 Kč - stravné: 3 000 Kč - ubytování: 4 000 Kč → celkem: 17 000 Kč Náklady na konference jsou odhadnuty na základě informací z minulých let a aktuálních informací na webu. Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.). ==== Finanční výhled na další roky ==== | **Rok 2021** | 180 | | **Rok 2022** | 180 | ===== Rozšiřující informace ===== ==== Anotace ==== Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový model pro generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat s jazykem nezávisle na doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených na neuronových sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti. ==== Anotace v anglickém jazyce ==== The performance of neural natural language generation (NLG) systems is dependent on the amount of available in-domain training data. Current solutions for domain adaptation are limited – they require very similar domains or complex input representations and use a rather crude technique of delexicalization. This project will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in- domain training data. The model will use domain-independent semantic representations learned from large amounts of unannotated data to improve implicit language understanding and selecting data matching the domain for efficient fine-tuning. Outcomes from the project will improve usability of neural NLG systems in practice and help current understanding of domain-independent semantic representations. The project will also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG research. ==== Současný stav poznání: ==== Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským uživatelům, tvorbu rutinních reportů z dat v reálném čase nebo usnadnění interakce člověka s počítačem. Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče (Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech (Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu, stylem výstupu i použitými metodami. Generování přirozeného jazyka se skládá z řady dílčích úkolů, které mohou být řešeny každý zvlášť (modul pro každý dílčí úkol), všechny naráz (tzv. end-to-end systémy), případně způsobem stojícím mezi těmito dvěma extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu a jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci těchto výrazů do smysluplného sdělení (Gatt & Krahmer, 2018). Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon (template-based; např. Reiter et. al, 1995; McRoy, Channarukul, & Ali, 2003), případně na ručně psaných gramatikách a pravidlech (rule-based; např. Bateman, 1997; Bangalore & Rambow, 2000). Výhodou těchto systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost vůči neočekávaným vstupům a nedostatečná škálovatelnost na více jazyků nebo domén (Gatt & Krahmer, 2018). Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami a strojovým učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu sdělení (Duboue & McKeown, 2003). Současné přístupy ovšem umožňují generovat text pomocí systémů postavených pouze na datech (např. Dušek & Jurčíček, 2015; Wen et al. 2016; Lampouras & Vlachos, 2016). Pro tyto modely jsou využívány techniky strojového učení, které se osvědčily i v jiných oblastech zpracování přirozeného jazyka (např. ve strojovém překladu, sumarizaci nebo klasifikaci textů) jako jsou rekurentní neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter & Schmidhuber, 1997), a modely s vrstvami typu attention (attention-based; Vaswani et al., 2017). V architektuře používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér (Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace, která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i pro neanotovaná data (neobsahující souvislosti mezi jednotlivými částmi vstupu a výstupu), která jsou snadněji dostupná. Systémy postavené na strojovém učení mají výhodu škálovatelnosti a snadné rozšiřitelnosti bez nutnosti ručních zásahů do architektury. V oblasti generování přirozeného jazyka ovšem tyto systémy nedosahují takových výsledků, jako např. ve strojovém překladu, kde modely postavené na neuronových sítích během několika posledních let zcela nahradily předchozí statistické modely (Bojar et al., 2016; 2017). Důvodem je i nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních doménách (aplikačních oblastech). To značně snižuje přesnost výstupu systémů, omezuje jejich použitelnost pouze na několik ukázkových datových sad a znemožňuje jejich nasazení v reálném světě v mnoha doménách s praktickým (potenciálně i komerčním) využitím a v dialogových systémech pokrývajících současně velké množství domén (Wen et al., 2016). Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci je model natrénovaný na doméně (resp. doménách), pro kterou existuje trénovacích dat dostatek, a následně otestovaný na doméně (resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky je naučit model generalizovat lingvistické reprezentace a vzory tak, aby byl schopný produkovat srozumitelné výstupy nezávisle na aktuální doméně. V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017) využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, která využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení, které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény. Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez potřebné lingvistické variability. Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách, není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, 2019). ===== Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem ===== Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem Duškem – Natural Multi-domain Dialogue Systems (PRIMUS/19/SCI/10). Projekt PRIMUS se soustředí zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat. ===== Materiální zajištění projektu ===== Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách. Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu. ===== Cíle řešení projektu ===== Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které umožňují dostatečnou škálovatelnost, robustnost a rozšiřitelnost; model bude ovšem zároveň fungovat i v doménách s nedostatkem vhodných trénovacích dat. Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních systémů), pomohou tak zvýšit přenositelnost a robustnost těchto systémů a zásadně snížit náklady na jejich vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu, přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka. Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost. V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci. ===== Způsob řešení ===== Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu. Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin et al., 2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al. 2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019) tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace. Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp. domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016) pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika byla použita ve strojovém překladu, její možný přínos pro generování přirozeného jazyka zatím není prozkoumaný. Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek & Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto datových sad. Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002), ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, 2007), a subjektivní metriky založených na lidském hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní vyhodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením. Tento model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019). ===== Prezentace výsledků ===== Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na webové stránce projektu. Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí. Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu generování přirozeného jazyka. Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu. ===== Přílohy ===== * Ondřej Dušek – CV.pdf (životopis vedoucího) * Zdeněk Kasner – CV.pdf (životopis řešitele) * {{user:kasner:literatura_gauk.pdf|Seznam citované literatury}} * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019) ===== Závěrečná zpráva ===== ==== Splnění cílů projektu ==== Hlavním cílem projektu bylo vytvořit techniku pro generování textu ze strukturovaných dat nezávisle na konkrétní doméně. Při našem řešení jsme se zaměřili na využití schopností předtrénovaných jazykových modelů pracovat s textem v přirozeném jazyce. Abychom tyto modely mohli aplikovat na náš problém, přeformulovali jsme úkol "generování textu z dat" - pro který je potřeba získat trénovací data z konkrétní domény - na úkol "vylepšování kvality textu pomocí postupných úprav" - který lze natrénovat i na generickém, veřejně dostupném textu. V článku Kasner and Dušek (2020) jsme publikovali techniku, která iterativně zlepšovala text pomocí postupné editace šablon. Technika využívala jazykový model, který mohl provádět jen omezenou sadu operací zaměřenou na syntézu vět. Kromě toho, že tím došlo k omezení tzv. "halucinací" (faktů neodpovídajícím vstupu) ve výstupním textu, model mohl být navíc po natrénování na jedné doméně aplikovaný i na datovou sadu z jiné domény. Tuto myšlenku jsme dále rozpracovali v článku Kasner and Dušek (2022). V návaznosti na předchozí práci se podařilo vyvinout systém, který nepotřeboval zcela žádná trénovací data z konkrétní domény a mohl být natrénovaný pouze na předzpracovaných volně dostupných datech (v našem případě na článcích z Wikipedie). Tento systém pomocí sekvence tří modulů postupně seřadil, zagregoval a zlepšil plynulost jednoduchých šablon, díky čemuž dosáhl na dvou datových sadách výsledků srovnatelných s obdobnými systémy z předchozích let, které využívaly trénovací data z konkrétní domény. Jedním z výsledků nejnovějšího článku Kasner et al. (2023) pak je i možnost generování šablon pomocí jazykových modelů, díky čemuž je možné eliminovat zbývající manuální část v předchozím přístupu, tedy tvorbu šablon, a celkově tím zlepšit doménovou nezávislost našeho přístupu. Vedlejším cílem projektu pak bylo vytvořit systém pro objektivní hodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením než současné objektivní metriky. Tento cíl se povedlo splnit v článku Dušek and Kasner (2020), ve kterém jsme popsali systém pro hodnocení vygenerovaných textů pomocí modelu založeném na tzv. natural language inference (tedy hodnocení logické provázanosti hypotézy a premisy). Naše metoda dokáže využít existujícího předtrénovaného modelu, díky čemuž je jednoduše použitelná, a zároveň dokáže automatizovat lidské hodnocení s obdobnými nebo lepšími výsledky. Oba cíle projektu se tedy podařilo splnit. Na našem přístupu založeném na úpravách textu je možné stavět další přístupy pro generování textu z dat pomocí velkých jazykových modelů, které nedokáží pracovat se strukturovanými daty, ale dosahují velmi dobrých výsledků při práci s textem. Na náš přístup pro evaluaci textu pak již v současnosti navazuje řada dalších přístupů pro evaluaci textu založených na specializovaných modelech. ==== Závěrečná zpráva za celý projekt ==== Tento grantový projekt měl za cíl vyvinout techniky pro generování přirozeného jazyka, zejména se zaměřením na techniky pro doménově nezávislé generování textu ze strukturovaných dat. V průběhu práce jsme vyvinuli techniky, které pomohly naplnit cíle projektu (viz sekce Splnění cílů projektu). Naše výsledky byly publikované na významných mezinárodních konferencích pro zpracování přirozeného jazyka (ACL, EACL, INLG) a všechna naše data a kódy byly publikované pod svobodnou otevřenou licencí. Díky grantovým prostředkům se řešitel mimo jiné osobně zúčastnil konference ACL 2022, letní školy DeepLearn 2021 a stáže na Heriot-Watt University v Edinburghu. Zbylé grantové prostředky byly využity na nákup vybavení, které přímo pomohly splnění cílů projektu. Výsledky projektu mimo jiné umožnily i přijetí řešitele na stáž v prestižním výzkumném institutu strojového učení MILA (Montreal, Kanada) na jaře roku 2023, kde bude řešitel navazovat na svůj dosavadní výzkum. ===== Hodnocení projektu - 2022 ===== ==== Zpráva o řešení za minulý rok ==== V roce 2022 jsme se dále zaměřili na generování textu z dat pomocí jazykových modelů a úspěšně jsme vyvinuli způsob pro použití těchto modelů bez potřeby trénovacích dat z konkrétní domény. Výsledky této práce jsme publikovali v článku Kasner and Dušek (2022) na konferenci ACL 2022 v Dublinu. Této konference jsem se jako první autor článku zúčastnil a prezentoval zde o článku poster. Ve spolupráci s Dr. Ioannisem Konstasem z Heriot-Watt University v Edinburgu, kde jsem se zúčastnil stáže na podzim roku 2021, vzniknul článek Kasner et al. (2023), který se zabývá analýzou schopností jazykových modelů generovat popisy zcela nových relací ve znalostních grafech. Tento článek je v současnosti přijatý na konferenci EACL 2023. Spolupracoval jsem i na článcích s kolegy: v článku Mukherjee et al. (2022) jsme se zabývali zachováním obsahu při transferu stylu ve vygenerovaném textu a v článku Huidrom et al. (2022) jsme provedli reprodukční studii dřívějších experimentů. Tyto projekty byly také publikovány na konferencích. Celkově jsme tak úspěšně pokračovali ve výzkumu ohledně doménové adaptace pro generování textu z dat a publikovali významné výsledky na mezinárodních konferencích pro zpracování přirozeného jazyka. ===== Hodnocení projektu - 2021 ===== ==== Zpráva o řešení za minulý rok ==== V minulém roce jsme úspěšně rozpracovali a publikovali prvotní části projektu. Pozornost jsme věnovali především technikám pro doménově nezávislé generování přirozeného jazyka. Experimenty s neuronovými modely modely pro editaci textu (Libovický et al., 2020; prezentováno na WNGT 2020) nám umožnily vyvinutí techniky, která využívá model pro syntézu vět (sentence fusion) pro iterativní zlepšování textu vygenerovaného pomocí jednoduchých šablon. Výsledky této práce jsme prezentovali a publikovali na 13th International Conference on Natural Language Generation (INLG 2020; prosinec, online) (Kasner and Dušek, 2020a). Předtrénované neuronové modely jsme dále aplikovali na datové sady pro generování jazyka a vytvořili soutěžní systém pro WebNLG Challenge 2020. Tento model je vícejazyčný (angličtina + ruština) a v soutěži se umístil na předních příčkách. Popis systému jsme publikovali a prezentovali na workshopu WebNLG+ (3rd Workshop on Natural Language Generation from the Semantic Web), který se konal během INLG 2020 (Kasner and Dušek, 2020b). Podařilo se rozpracovat i vedlejší záměr projektu: vyvinout automatickou metriku pro evaluaci generovaní přirozeného jazyka, která bude lépe korelovat s lidským hodnocením. Za tímto účelem jsme vyvinuli a experimentálně ověřili techniku založenou na předtrénovaném modelu pro inferenci v přirozeném jazyce (Natural Language Inference, NLI). Metrika je plně automatická a na jednoduchých datových sadách dosahuje při hodnocení sémantické přesnosti výsledků lépe korelujících s lidským hodnocením než dosavadní metriky. Práce, publikovaná na INLG 2020, získala ocenění Best Short Paper Award (Dušek and Kasner, 2020). Veškeré výsledky práce jsme zároveň prezentovali i na interním semináři Ústavu formální a aplikované lingvistiky (září 2020, online). ==== Výhled pro další rok ==== V první části roku dokončíme a zveřejníme pod open-source licencí zdrojový kód a data použitá v části práce zabývající se iterativní syntézou vět. Tento kód umožní navázat na publikovanou práci a do budoucna ji rozšířit. Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování jazyka, než současné přístupy pro generování bez mezikroků. V oblasti evaluace generování přirozeného jazyka pak plánujeme vytvořit systém pro vyhodnocování přesnosti vygenerovaných výstupů na složitějších datových sadách zahrnující netriviální výběr, agregaci a manipulaci s daty. ==== Seznam dosažených výsledků ==== //(přidáváno po položkách i s detaily)// * článek ve sborníku - Data-to-Text Generation with Iterative Text Editing * článek ve sborníku - Expand and filter: CUNI and LMU systems for the WNGT 2020 Duolingo shared task * článek ve sborníku - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference * článek ve sborníku - Train Hard, Finetune Easy: Multilingual Denoising for RDF-to-Text Generation * ostatní - prezentace - ÚFAL seminář ==== Komentář zpravodaje ==== **Čerpání finančních prostředků:** Finance byly využity korektně. **Komentář zpravodaje projektu:** Projekt přinesl hned v prvním roce několik publikací prezentovaných na mezinárodních konferencích, a jedna z nich získala ocenění Best Short Paper Award. Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit. ===== Hodnocení projektu - 2020 ===== * **Shrnutí zpravodaje:** Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti nezávisle vyzvedli tytéž kvality řešitele a jeho týmu. Ani jeden z oponentů nezmiňuje žádné podstatné slabší stránky projektu. Projekt má realistické cíle, metodiku řešení i vhodnou představu, kdy, kde a jak nově získané poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení projektu. * **Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje:** nadprůměrný * **Doporučení při novém podání:** Podat znovu, jedná se o kvalitní projekt * **Celkové umístění projektu v rámci sekce:** v 1. třetině * **Doporučení zpravodaje:** Doporučený * **Doporučení Oborové rady:** Doporučený * **Závěrečné doporučení Grantové rady:** Doporučený