[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:kasner:gauk [2021/10/25 13:18]
kasner
user:kasner:gauk [2023/03/05 22:36] (current)
kasner
Line 51: Line 51:
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
-^ Položky ^ Rok 2020 ^ Rok 2021 ^ +^ Položky ^ Rok 2020 ^ Rok 2021 ^ Rok 2022 
-| Ostatní neinvestiční náklady   | 5/5 | 3/3 | +| Ostatní neinvestiční náklady   | 5/5 | 3/3 | 3 | 
-| Pobytové náklady   | 60/60 | 48/40 | +| Pobytové náklady   | 60/60 | 48/40 | 58 
-| Doplňkové náklady  | 23/21 | 19/18 |  +| Doplňkové náklady  | 23/21 | 19/18 | 21 
-| Osobní náklady (mzdy) a stipendia  | 90/80 | 80/80 | +| Osobní náklady (mzdy) a stipendia  | 90/80 | 80/80 | 80 | 
-| Celkem | 178/166 | 150/141 |+| Celkem | 178/166 | 150/141 | 162 | 
 + 
 +==== Struktura finančních prostředků - rok 2022 ==== 
 +Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK. 
 + 
 +Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: 
 + 
 +Association for Computational Linguistics Annual Meeting (ACL): 22.-27. květen 2022 / Dublin, Irsko 
 +konferenční poplatek: 12 000 Kč 
 +cesta: 5 000 Kč 
 +stravné: 5 000 Kč 
 +ubytování: 7 000 Kč 
 +→ celkem: 29 000 Kč 
 + 
 +International Conference on Natural Language Generation (INLG): 18.-22. červenec 2022 / Maine, USA 
 +konferenční poplatek: 10 000 Kč 
 +cesta: 30 000 Kč 
 +stravné: 5 000 Kč 
 +ubytování: 10 000 Kč 
 +→ celkem: 55 000 Kč 
 + 
 +International Conference for Computational Linguistics (COLING): 12.-17. říjen 2022 / Gyeongju, Jižní Korea 
 +konferenční poplatek: 12 000 Kč 
 +cesta: 30 000 Kč 
 +stravné: 6 000 Kč 
 +ubytování: 10 000 Kč 
 +→ celkem: 58 000 Kč 
 + 
 +V případě hybridního formátu je možné uvažovat i o online účasti na některé z konferencí. Osobní přítomnost alespoň na jedné významné oborové konferenci ovšem umožní lépe šířit povědomí o práci v průběhu projektu, získat přehled o další výzkumných výsledcích a jednodušeji navázat profesionální kontakty. 
 + 
 +Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.).
  
 ==== Struktura finančních prostředků - rok 2021 ==== ==== Struktura finančních prostředků - rok 2021 ====
Line 121: Line 151:
  
  
-====== Rozšiřující informace ======+===== Rozšiřující informace =====
  
 ==== Anotace ==== ==== Anotace ====
Line 326: Line 356:
   * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019)   * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019)
  
 +===== Závěrečná zpráva =====
 +
 +==== Splnění cílů projektu ====
 +Hlavním cílem projektu bylo vytvořit techniku pro generování textu ze strukturovaných dat nezávisle na konkrétní doméně. Při našem řešení jsme se zaměřili na využití schopností předtrénovaných jazykových modelů pracovat s textem v přirozeném jazyce. Abychom tyto modely mohli aplikovat na náš problém, přeformulovali jsme úkol "generování textu z dat" - pro který je potřeba získat trénovací data z konkrétní domény - na úkol "vylepšování kvality textu pomocí postupných úprav" - který lze natrénovat i na generickém, veřejně dostupném textu.
 +
 +V článku Kasner and Dušek (2020) jsme publikovali techniku, která iterativně zlepšovala text pomocí postupné editace šablon. Technika využívala jazykový model, který mohl provádět jen omezenou sadu operací zaměřenou na syntézu vět. Kromě toho, že tím došlo k omezení tzv. "halucinací" (faktů neodpovídajícím vstupu) ve výstupním textu, model mohl být navíc po natrénování na jedné doméně aplikovaný i na datovou sadu z jiné domény.
 +
 +Tuto myšlenku jsme dále rozpracovali v článku Kasner and Dušek (2022). V návaznosti na předchozí práci se podařilo vyvinout systém, který nepotřeboval zcela žádná trénovací data z konkrétní domény a mohl být natrénovaný pouze na předzpracovaných volně dostupných datech (v našem případě na článcích z Wikipedie). Tento systém pomocí sekvence tří modulů postupně seřadil, zagregoval a zlepšil plynulost jednoduchých šablon, díky čemuž dosáhl na dvou datových sadách výsledků srovnatelných s obdobnými systémy z předchozích let, které využívaly trénovací data z konkrétní domény.
 +
 +Jedním z výsledků nejnovějšího článku Kasner et al. (2023) pak je i možnost generování šablon pomocí jazykových modelů, díky čemuž je možné eliminovat zbývající manuální část v předchozím přístupu, tedy tvorbu šablon, a celkově tím zlepšit doménovou nezávislost našeho přístupu.
 +
 +Vedlejším cílem projektu pak bylo vytvořit systém pro objektivní hodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením než současné objektivní metriky. Tento cíl se povedlo splnit v článku Dušek and Kasner (2020), ve kterém jsme popsali systém pro hodnocení vygenerovaných textů pomocí modelu založeném na tzv. natural language inference (tedy hodnocení logické provázanosti hypotézy a premisy). Naše metoda dokáže využít existujícího předtrénovaného modelu, díky čemuž je jednoduše použitelná, a zároveň dokáže automatizovat lidské hodnocení s obdobnými nebo lepšími výsledky.
 +
 +Oba cíle projektu se tedy podařilo splnit. Na našem přístupu založeném na úpravách textu je možné stavět další přístupy pro generování textu z dat pomocí velkých jazykových modelů, které nedokáží pracovat se strukturovanými daty, ale dosahují velmi dobrých výsledků při práci s textem. Na náš přístup pro evaluaci textu pak již v současnosti navazuje řada dalších přístupů pro evaluaci textu založených na specializovaných modelech.
 +
 +==== Závěrečná zpráva za celý projekt ====
 +Tento grantový projekt měl za cíl vyvinout techniky pro generování přirozeného jazyka, zejména se zaměřením na techniky pro doménově nezávislé generování textu ze strukturovaných dat. 
 +
 +V průběhu práce jsme vyvinuli techniky, které pomohly naplnit cíle projektu (viz sekce Splnění cílů projektu). Naše výsledky byly publikované na významných mezinárodních konferencích pro zpracování přirozeného jazyka (ACL, EACL, INLG) a všechna naše data a kódy byly publikované pod svobodnou otevřenou licencí.
 +
 +Díky grantovým prostředkům se řešitel mimo jiné osobně zúčastnil konference ACL 2022, letní školy DeepLearn 2021 a stáže na Heriot-Watt University v Edinburghu. Zbylé grantové prostředky byly využity na nákup vybavení, které přímo pomohly splnění cílů projektu.
 +
 +Výsledky projektu mimo jiné umožnily i přijetí řešitele na stáž v prestižním výzkumném institutu strojového učení MILA (Montreal, Kanada) na jaře roku 2023, kde bude řešitel navazovat na svůj dosavadní výzkum.
 +
 +
 +===== Hodnocení projektu - 2022 =====
 +==== Zpráva o řešení za minulý rok ====
 +V roce 2022 jsme se dále zaměřili na generování textu z dat pomocí jazykových modelů a úspěšně jsme vyvinuli způsob pro použití těchto modelů bez potřeby trénovacích dat z konkrétní domény. Výsledky této práce jsme publikovali v článku Kasner and Dušek (2022) na konferenci ACL 2022 v Dublinu. Této konference jsem se jako první autor článku zúčastnil a prezentoval zde o článku poster.
 +
 +Ve spolupráci s Dr. Ioannisem Konstasem z Heriot-Watt University v Edinburgu, kde jsem se zúčastnil stáže na podzim roku 2021, vzniknul článek Kasner et al. (2023), který se zabývá analýzou schopností jazykových modelů generovat popisy zcela nových relací ve znalostních grafech. Tento článek je v současnosti přijatý na konferenci EACL 2023.
 +
 +Spolupracoval jsem i na článcích s kolegy: v článku Mukherjee et al. (2022) jsme se zabývali zachováním obsahu při transferu stylu ve vygenerovaném textu a v článku Huidrom et al. (2022) jsme provedli reprodukční studii dřívějších experimentů. Tyto projekty byly také publikovány na konferencích.
 +
 +Celkově jsme tak úspěšně pokračovali ve výzkumu ohledně doménové adaptace pro generování textu z dat a publikovali významné výsledky na mezinárodních konferencích pro zpracování přirozeného jazyka.
 +
 +
 +===== Hodnocení projektu - 2021 =====
 +==== Zpráva o řešení za minulý rok ====
 +V minulém roce jsme úspěšně rozpracovali a publikovali prvotní části projektu.
 +
 +Pozornost jsme věnovali především technikám pro doménově nezávislé generování přirozeného jazyka. Experimenty s neuronovými modely modely pro editaci textu (Libovický et al., 2020; prezentováno na WNGT 2020) nám umožnily vyvinutí techniky, která využívá model pro syntézu vět (sentence fusion) pro iterativní zlepšování textu vygenerovaného pomocí jednoduchých šablon. Výsledky této práce jsme prezentovali a publikovali na 13th International Conference on Natural Language Generation (INLG 2020; prosinec, online) (Kasner and Dušek, 2020a).
 +
 +Předtrénované neuronové modely jsme dále aplikovali na datové sady pro generování jazyka a vytvořili soutěžní systém pro WebNLG Challenge 2020. Tento model je vícejazyčný (angličtina + ruština) a v soutěži se umístil na předních příčkách. Popis systému jsme publikovali a prezentovali na workshopu WebNLG+ (3rd Workshop on Natural Language Generation from the Semantic Web), který se konal během INLG 2020 (Kasner and Dušek, 2020b).
 +
 +Podařilo se rozpracovat i vedlejší záměr projektu: vyvinout automatickou metriku pro evaluaci generovaní přirozeného jazyka, která bude lépe korelovat s lidským hodnocením. Za tímto účelem jsme vyvinuli a experimentálně ověřili techniku založenou na předtrénovaném modelu pro inferenci v přirozeném jazyce (Natural Language Inference, NLI). Metrika je plně automatická a na jednoduchých datových sadách dosahuje při hodnocení sémantické přesnosti výsledků lépe korelujících s lidským hodnocením než dosavadní metriky. Práce, publikovaná na INLG 2020, získala ocenění Best Short Paper Award (Dušek and Kasner, 2020).
 +
 +Veškeré výsledky práce jsme zároveň prezentovali i na interním semináři Ústavu formální a aplikované lingvistiky (září 2020, online).
 +
 +==== Výhled pro další rok ====
 +V první části roku dokončíme a zveřejníme pod open-source licencí zdrojový kód a data použitá v části práce zabývající se iterativní syntézou vět. Tento kód umožní navázat na publikovanou práci a do budoucna ji rozšířit.
 +
 +Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování jazyka, než současné přístupy pro generování bez mezikroků.
 +
 +V oblasti evaluace generování přirozeného jazyka pak plánujeme vytvořit systém pro vyhodnocování přesnosti vygenerovaných výstupů na složitějších datových sadách zahrnující netriviální výběr, agregaci a manipulaci s daty.
 +
 +==== Seznam dosažených výsledků ====
 +//(přidáváno po položkách i s detaily)//
 +  * článek ve sborníku - Data-to-Text Generation with Iterative Text Editing
 +  * článek ve sborníku - Expand and filter: CUNI and LMU systems for the WNGT 2020 Duolingo shared task
 +  * článek ve sborníku - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference
 +  * článek ve sborníku - Train Hard, Finetune Easy: Multilingual Denoising for RDF-to-Text Generation
 +  * ostatní - prezentace - ÚFAL seminář
  
-===== Celkové hodnocení projektu ===== +==== Komentář zpravodaje ====
-==== Rok 2021 ====+
 **Čerpání finančních prostředků:** Finance byly využity korektně. **Čerpání finančních prostředků:** Finance byly využity korektně.
 **Komentář zpravodaje projektu:** Projekt přinesl hned v prvním roce několik publikací prezentovaných na mezinárodních konferencích, a jedna z nich získala ocenění Best Short Paper Award. **Komentář zpravodaje projektu:** Projekt přinesl hned v prvním roce několik publikací prezentovaných na mezinárodních konferencích, a jedna z nich získala ocenění Best Short Paper Award.
 Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit. Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit.
  
-==== Rok 2020 ====+===== Hodnocení projektu - 2020 =====
 * **Shrnutí zpravodaje:** Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt * **Shrnutí zpravodaje:** Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt
 doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti

[ Back to the navigation ] [ Back to the content ]