Differences

This shows you the differences between two versions of the page.

--- user:kasner:gauk [2021/10/25 12:21]
kasner created
+++ user:kasner:gauk [2023/03/05 22:36] (current)
kasner
@@ Line 1: / Line 1: @@
-===== Domain Adaptation for Natural Language Generation =====
+{{ :user:kasner:literatura_gauk.pdf |}}===== GAUK – Zdeněk Kasner =====
-//Žádost o GAUK pro téma mé disertační práce//
+Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí.
+Pokud máte nějaké dotazy, klidně mi [[https://ufal.mff.cuni.cz/zdenek-kasner|napište]] (nejlíp na mail nebo na Slacku).
   * GAUK podán 2.11.2019
   * GAUK přijatý k financování 11. 03. 2020
-  *
 ===== Základní informace o projektu č. 140320 =====
-  * Český název projektu:  Doménová adaptace pro generování přirozeného jazyka
-  * Anglický název projektu: 	Domain Adaptation for Natural Language Generation
-  * Aktuální řešitel: 	Ing. Zdeněk Kasner
-  * První žadatel: 	Zdeněk Kasner
-  * Studium: 	Matematicko-fyzikální fakulta
-  * Program: Matematická lingvistika
-  * Obor: Matematická lingvistika
-  * Typ studia: doktorské studium
-  * Rok založení projektu: 	2020
-  * Délka řešení projektu: 	3
-  * Sekce oborové rady: 	Společenské vědy - Informatika (INF)
-  * Pracoviště	Ústav formální a aplikované lingvistiky
-===== Řešitelský kolektiv =====
-==== Charakteristika řešitelského kolektivu - rok 2016: ====
+| Český název projektu | Doménová adaptace pro generování přirozeného jazyka |
-Mgr. Rudolf Rosa
+| Anglický název projektu | Domain Adaptation for Natural Language Generation |
-Stipendia 	<del>80</del> 65
+| Aktuální řešitel | Ing. Zdeněk Kasner |
+| První žadatel |Zdeněk Kasner |
+| Studium | Matematicko-fyzikální fakulta |
+| Program |Matematická lingvistika |
+| Obor |Matematická lingvistika |
+| Typ studia |doktorské studium |
+| Rok založení projektu |2020 |
+| Délka řešení projektu | 3 |
+| Sekce oborové rady | Společenské vědy - Informatika (INF) |
+| Pracoviště   | Ústav formální a aplikované lingvistiky |
-doc. Ing. Zdeněk Žabokrtský Ph.D.
+===== Řešitelský kolektiv =====
-Osobní náklady (mzdy a odvody) 	<del>20</del> 10
-Mgr. Martin Popel
+==== Charakteristika řešitelského kolektivu - rok 2020: ====
-Stipendia 	<del>39</del> 32
+| Ing. Zdeněk Kasner | Stipendia | 70/70 |
+| Mgr. et Mgr. Ondřej Dušek Ph.D. | Osobní náklady (mzdy a odvody) | 20/10 |
-Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100.
+Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika na
+Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium
+magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na
+téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, vedenou externě Mgr.
+Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou na ÚFAL, kterou bude používat
+pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka.
+Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma
+disertační práce řešitele odpovídá tématu tohoto grantového projektu.
-Martinovi navrhuju 39 a ne 40 protože 40 mě to nenechalo zadat (když jsem zadal cokoliv většího než 39 tak se to pak samo změnilo na 39; což je teda fajn vědět, že to ty limity asi nějak kontroluje i samo, i když kdoví jak).
+Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na
+generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na
+Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených na výzkum dialogových systémů a
+interakce s počítači a roboty v přirozeném jazyce. Zde se také podílel na vedení týmu doktorandů v soutěži
+dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil na 3. místě. Od ledna 2019 je
+vědeckým pracovníkem na ÚFAL MFF UK v rámci grantového projektu PRIMUS/19/SCI/10 zaměřeného na
+výzkum dialogových systémů a generování jazyka. Ve svém výzkumu se zabývá zejména generováním
+přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu.
+Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je
+spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci
+projektu bude hlavnímu řešiteli poskytovat konzultace.
-//Složení řešitelského kolektivu je stejné jako v roce 2015.
+===== Finanční požadavky =====
+^ Položky ^ Rok 2020 ^ Rok 2021 ^ Rok 2022 ^
+| Ostatní neinvestiční náklady   | 5/5 | 3/3 | 3 |
+| Pobytové náklady   | 60/60 | 48/40 | 58 |
+| Doplňkové náklady  | 23/21 | 19/18 | 21 |
+| Osobní náklady (mzdy) a stipendia  | 90/80 | 80/80 | 80 |
+| Celkem | 178/166 | 150/141 | 162 |
-Martin Popel se od harmonizace treebanků (HamleDT/Universal Dependencies) přesouvá k práci na přenositelnosti jazykových technologií. Jeho úkolem je internacionalizace a universalizace platformy Treex/TectoMT, kterou v tomto projektu užíváme, tak aby nativně podporovala práci s daty v libovolném přirozeném jazyce ve formátu Universal Dependencies.//
+==== Struktura finančních prostředků - rok 2022 ====
+Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
-==== Charakteristika řešitelského kolektivu - rok 2015: ====
+Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
-Mgr. Rudolf Rosa
-Stipendia 	<del>60</del> 50
-doc. Ing. Zdeněk Žabokrtský Ph.D.
+Association for Computational Linguistics Annual Meeting (ACL): 22.-27. květen 2022 / Dublin, Irsko
-Osobní náklady (mzdy a odvody) 	<del>20</del> 10
+konferenční poplatek: 12 000 Kč
+cesta: 5 000 Kč
+stravné: 5 000 Kč
+ubytování: 7 000 Kč
+→ celkem: 29 000 Kč
-Mgr. Martin Popel
+International Conference on Natural Language Generation (INLG): 18.-22. červenec 2022 / Maine, USA
-Stipendia 	<del>40</del> 30
+konferenční poplatek: 10 000 Kč
+cesta: 30 000 Kč
+stravné: 5 000 Kč
+ubytování: 10 000 Kč
+→ celkem: 55 000 Kč
-//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky.
+International Conference for Computational Linguistics (COLING): 12.-17. říjen 2022 / Gyeongju, Jižní Korea
-Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188]
+konferenční poplatek: 12 000 Kč
+cesta: 30 000 Kč
+stravné: 6 000 Kč
+ubytování: 10 000 Kč
+→ celkem: 58 000 Kč
-Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílí se na projektu HamleDT, jehož cílem je konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracích a přípravě prezentací výsledků.
+V případě hybridního formátu je možné uvažovat i o online účasti na některé z konferencí. Osobní přítomnost alespoň na jedné významné oborové konferenci ovšem umožní lépe šířit povědomí o práci v průběhu projektu, získat přehled o další výzkumných výsledcích a jednodušeji navázat profesionální kontakty.
-Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
-Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, Jana Maška -- bude se zabývat shromažďováním existujících syntakticky anotovaných jazykových korpusů a jejich harmonizací do jednotného anotačního schématu.
+Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.).
-Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]//
+==== Struktura finančních prostředků - rok 2021 ====
+Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
-==== Charakteristika řešitelského kolektivu - rok 2014: ====
+Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
-Mgr. Rudolf Rosa
-Stipendia 	<del>60</del> 50
-doc. Ing. Zdeněk Žabokrtský Ph.D.
+Empirical Methods in Natural Language Processing (EMNLP): 7.-11. listopad 2020 / Punta Cana, Dominikánská republika
-Osobní náklady (mzdy a odvody) 	<del>20</del> 10
+- konferenční poplatek: 11 000 Kč
+- cesta: 25 000 Kč
+- stravné: 5 000 Kč
+- ubytování: 7 000 Kč
+→ celkem: 48 000 Kč
-Bc. Jan Mašek
+International Conference on Natural Language Generation (INLG): září 2021 (4 dny) / Aberdeen, Velká Británie
-Stipendia 	<del>40</del> 30
+konferenční poplatek: 7 000 Kč
+- cesta: 5 000 Kč
+- stravné: 4 000 Kč
+- ubytování: 5 000 Kč
+→ celkem: 21 000 Kč
+Obě konference se budou konat v druhé polovině tohoto roku, je tedy potřeba počítat s tím, že se mohou konat osobně. Podle aktuálních informací je tato varianta preferována, viz https://2021.emnlp.org a https://aclweb.org/aclwiki/SIGGEN#Upcoming_Events.
-Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100.
+Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu (kancelářských potřeb, tonerů, apod.).
-Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo).
-Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali.
-//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
+==== Struktura finančních prostředků - rok 2020: ====
-Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756]
+Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK.
+Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí:
+Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle,
+USA
+- konferenční poplatek: 12 000 Kč
+- cesta: 28 000 Kč
+- stravné: 8 000 Kč
+- ubytování: 12 000 Kč
+→ celkem: 60 000 Kč
+Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko
+- konferenční poplatek: 8 000 Kč
+- cesta: 4 000 Kč
+- stravné: 5 000 Kč
+- ubytování: 6 000 Kč
+→ celkem: 18 000 Kč
+Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana,
+Dominikánská republika
+- konferenční poplatek: 11 000 Kč
+- cesta: 22 000 Kč
+- stravné: 4 000 Kč
+- ubytování: 5 000 Kč
+→ celkem: 32 000 Kč
+International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 /
+Dublin, Irsko
+- konferenční poplatek: 6 000 Kč
+- cesta: 4 000 Kč
+- stravné: 3 000 Kč
+- ubytování: 4 000 Kč
+→ celkem: 17 000 Kč
+Náklady na konference jsou odhadnuty na základě informací z minulých let a aktuálních informací na webu.
+Ostatní neinvestiční náklady budou použity na nákup odborné literatury a spotřebního materiálu
+(kancelářských potřeb, tonerů, apod.).
-Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracích a přípravě prezentací výsledků.
-Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu.
-Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
-===== Finanční požadavky =====
-==== Struktura finančních prostředků - rok 2016: ====
-Položky	Rok 2016
-Ostatní neinvestiční náklady	1
-Cestovné	50
-Doplňkové náklady	28
-Osobní náklady (mzdy) a stipendia	139
-Celkem	218
-Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, ale kdyžtak mi to vyčerpá Martin. Na ACL nepojedu, tam pojede Martin; na EMNLP se asi nedostanu ale pokusím se; Coling je mým hlavním cílem o který se budu snažit (ale je až v prosinci takže když se tam nedostanu tak už nebude šance typeníze utratit jinak, proto radši žádám míň a kdyžtak získám spolufinancování z jiných zdrojů); na ITATu budu nejspíš organizovat SloNLP takže to je jistota (ale to je málo peněz takže to je jedno; ale přinejhorším to využiju na to abych splnil na GAUKu publikační povinnost).
-Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června).
-Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK.
-//Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let):
-- ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava)
-- EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava)
-- ITAT/SloNLP, Slovensko, 10 000 Kč (8 000 konferenční poplatek a ubytování, 2 000 doprava)
-- Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava)
-Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.
-Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.//
-==== Struktura finančních prostředků - rok 2015: ====
-Položky	Rok 2015
-Ostatní neinvestiční náklady	1
-Cestovné	100
-Doplňkové náklady	(počítá se automaticky) (28)
-Osobní náklady (mzdy) a stipendia	(počítá se automaticky) (90)
-Celkem	(počítá se automaticky) (219)
-//Máme v plánu prezentovat výsledky výzkumu na následujících konferencích:
-* ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky
-* EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená na použití empirických metod v počítačové lingvistice
-* TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy
-Náklady na pobyty jsou určeny přibližně na základě minulých let.
-Dle okolností (přijetí/nepřijetí našich příspěvků na výše uvedené konference, případně získání dalšího finančního příspěvku z jiných zdrojů) zvážíme účast na jiných konferencích či letních školách -- např. TSD, LxMLS, apod.
-Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.
-Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.//
-==== Struktura finančních prostředků - rok 2014: ====
-Položky	Rok 2014
-Ostatní neinvestiční náklady	<del>10</del> 5
-Cestovné	90
-Doplňkové náklady	(počítá se automaticky) (27)
-Osobní náklady (mzdy) a stipendia	(počítá se automaticky) (90)
-Celkem	(počítá se automaticky) (212)
-//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky.
-Plánované konference a pobyty:
-* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy
-Náklady na pobyty jsou určeny přibližně na základě minulých let.
-Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.//
 ==== Finanční výhled na další roky ====
-Rok 2015: 250
+| **Rok 2021** | 180 |
-Rok 2016: 250
+| **Rok 2022** | 180 |
-===== Závěrečná zpráva projektu =====
-==== Zpráva o řešení za minulý rok ====
-//V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL.
-Martin se dále podílel zejména na Udapi (http://udapi.github.io/), což je jazykově nezávislý framework pro snadnou práci s UD treebanky.
-Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované.
-Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing.
-Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, švédština-norština), kde, jak se ukázalo, je možné texty snadno přeložit z jednoho jazyka do druhého slovo po slově, k čemuž jsme užili metody strojového překladu využívající podobnost slov na úrovni znaků. S tímto postupem se nám podařilo dosáhnout velmi dobrých výsledků, se zvýšením přesnosti parsingu až o desítky procent. V lednu roku 2017 jsme pak přesvědčivě zvítězili v soutěží VarDial 2017 CLP, zaměřené na přenos parseru mezi blízkými jazyky, kde jsme pro všechny tři cílové jazyky dosáhli výrazně lepších výsledků než ostatní soutěžící.//
-==== Splnění cílů projektu ====
-//Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, kde díky spolupráci desítek odborníků z celého světa (a za aktivní účasti členů tohoto projektu GAUK) vznikla a dále se rozvíjí sbírka treebanků bezprecedentní velikosti s nebývale kvalitně harmonizovanou anotací, umožňující snadnou přenositelnost jazykových technologií mezi různými jazyky. Díky tomu se dnes experimenty s parsingem běžně provádějí nikoli již na jednotkách, ale na desítkách různých jazyků. Míra splnění tohoto cíle projektu tedy předčila veškerá naše očekávání, a to zejména díky tomu, že podobné snahy a potřeby jako my měli souběžně výzkumníci na dalších světových pracovištích.
-Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.//
-==== Závěrečná zpráva ====
-//Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, kdy jde jednoznačně o nejzásadnější aktivitu v oblasti parsingu za poslední roky. Vyvinuli jsme několik nových postupů pro mezijazyčný přenos parserů. Prvním je využití KL divergence distribucí trigramů slovních druhů pro měření podobnosti zdrojového a cílového jazyka (KLcpos3). Druhým pak je využití strojového překladu se zarovnáním na základě podobnosti slov a překladu slovo po slově pro lexikalizaci parseru přenášeného mezi blízkými jazyky, díky čemuž jsme dosáhli nejlepších výsledků na této úloze v mezinárodní soutěži VarDial.
-Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.//
-==== Komentář k vyčerpaným financím ====
-//Finanční prostředky byly čerpány dle plánu. Z důvodu mírně vyšších než očekávaných cestovních nákladů byla malá část finančních prostředků (5,5 tis.) převedena ze stipendií na cestovné.//
-==== Seznam dosažených výsledků ====
-výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně.
-===== Výroční zpráva za 2015 =====
-==== Zpráva o řešení za minulý rok ====
-//Klíčovým výsledkem naší práce v uplynuém roce je navržení nové metriky podobnosti jazyků (přesněji jazykových korpusů anotovaných slovními druhy), nazvané KLcpos3, která se ukázala být velmi efektivní pro nalezení nejvhodnějšího zdrojového jazyka pro analýzu cílového jazyka.
-Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT).
-Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, včetně ACL, nejprestižnější konference v oboru komputační lingvistiky, díky čemuž se o naší práci dozvěděli mnozí výzkumníci zabývající se souvisejícími tématy, z nichž někteří nám předběžně nabídli spolupráci na dalším výzkumu.
-Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, Google Universal Treebanks a HamleDT do nového sdružení Universal Dependencies (UD), které definovalo stejnojmenný anotační styl, kombinující myšlenky a přednosti všech tří výchozích stylů, převedlo do něj řadu existujících treebanků a začalo pravidelně vydávat treebanky v tomto novém formátu. UD nyní sdružuje desítky výzkumníků z mnoha světových pracovišť (včetně všech řešitelů tohoto projektu GAUK). Poslední vydaná verze kolekce treebanků (UD 1.2) obsahuje 42 treebanků pro 33 různých jazyků a je šířena pod svobodnou licencí.//
-==== Výhled pro další rok ====
-//V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/TectoMT do formátu UD již jsme zahájili a budeme v ní pokračovat i v následujícím roce, tak abychom mohli tuto platformu použít pro nové experimenty. Toto sjednocování, které probíhá v celé závislostně syntaktické komunitě, umožňuje lepší spolupráci v celosvětovém měřítku, jednodušší sdílení vyvinutých nástrojů a datových sad, a snadnější porovnání výsledků dosažených různými výzkumníky.
-Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, kterou nám předběžně nabídli Anders Søgaard z Kodaňské university a Željko Agić ze Záhřebské univerzity, kteří se věnují stejné problematice. Máme také v úmyslu prozkoumat možnosti využití moderních metod parsingu, založených na použití neuronových sítí a word embeddings, které v minulém roce vedly k dramatickému posunu stavu poznání v jednojazyčném parsingu, avšak pro vícejazyčný parsing se je dosud nepodařilo úspěšně využít.//
-==== Komentář k vyčerpaným financím ====
-//Finanční prostředky byly čerpány dle plánu. Cestovné bylo využito na účast na konferencích, na které byly zaslány a přijaty naše příspěvky prezentující výstupy tohoto projektu: IWPT (MSTParser Model Interpolation for Multi-source Delexicalized Transfer), ACL (KLcpos3 - a Language Similarity Measure for Delexicalized Parser Transfer), a Depling (Multi-source Cross-lingual Delexicalized Parser Transfer: Prague or Stanford?), spojenou se setkáním členů projektu Universal Dependencies.//
-==== Seznam dosažených výsledků ====
-Následující text je můj komentář, není součástí Zprávy.
-Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce.
-výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat.
-===== Výroční zpráva za 2014 =====
-==== Zpráva o řešení za minulý rok ====
-//V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, sjednocení anotačního schématu), doplněna o další treebanky (polština, slovenština), a rozšířena o konverzi z pražského závislostního stylu do stylu univerzálních Stanfordských závislostí (který se stává de-facto standardem pro závislostní anotaci; navíc její vlastnosti by měly vést k úspěšnější mezijazyčné projekci závislostních stromů). Výsledná kolekce byla vydána pod názvem HamleDT 2.0 a prezentována na konferenci LREC, kde vyvolala značný zájem u mnoha zahraničních kolegů, s několika z nichž jsme poté navázali užší spolupráci.
-Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.//
-==== Výhled pro další rok ====
-//V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT.
-Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.//
-==== Komentář k vyčerpaným financím ====
-//V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, z tohoto důvodu došlo k drobnému navýšení položky ostatních neinvestičních nákladů a k odpovídajícímu snížení položky cestovného. Až na uvedenou úpravu byly finance čerpány v souladu s původním rozpočtem.
-Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University of Edinburgh.//
 ===== Rozšiřující informace =====
-==== Anotace (max 200 slov): ====
+==== Anotace ====
-//
+Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na
-V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe.
+množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou
-Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje.
+omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku
-Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje a postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme tak, aby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje.
+delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový model pro
+generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje
+dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích
+vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat s jazykem nezávisle na
+doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z
+projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených na neuronových
+sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také
+bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného
+jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti.
-Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, používají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů.
-//
-==== Anotace v anglickém jazyce (max 200 slov): ====
+==== Anotace v anglickém jazyce ====
+The performance of neural natural language generation (NLG) systems is dependent on the amount of available
-//
+in-domain training data. Current solutions for domain adaptation are limited – they require very similar
-In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level.
+domains or complex input representations and use a rather crude technique of delexicalization. This project
-The first task type will be cross-lingual projection technologies, where a model of one language will be used to approximately model a similar language for which sufficient language resources are not available.
+will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in-
-The second task type will focus on portability of monolingual technologies, where tools and procedures developed for working with one or a few languages will be generalized so that they can be used to process any or nearly any language for which sufficient data are available.
+domain training data. The model will use domain-independent semantic representations learned from large
+amounts of unannotated data to improve implicit language understanding and selecting data matching the
-Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, are using different annotation schemes and are built on the basis of different linguistic traditions and conventions. A necessary by-step in reaching the main goals of the project is therefore to collect and harmonize existing syntactically annotated language corpora.
+domain for efficient fine-tuning. Outcomes from the project will improve usability of neural NLG systems in
-//
+practice and help current understanding of domain-independent semantic representations. The project will
+also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG
+research.
 ==== Současný stav poznání: ====
+Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové
+lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných
+dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským
+uživatelům, tvorbu rutinních reportů z dat v reálném čase nebo usnadnění interakce člověka s počítačem.
+Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče
+(Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi
+počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního
+zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování
+přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech
+(Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu,
+stylem výstupu i použitými metodami.
-//
+Generování přirozeného jazyka se skládá z řady dílčích úkolů, které mohou být řešeny každý zvlášť (modul pro
-Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (Marcus et al. 1993, Böhmová et al. 2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005b, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)
+každý dílčí úkol), všechny naráz (tzv. end-to-end systémy), případně způsobem stojícím mezi těmito dvěma
+extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu a
+jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci těchto
+výrazů do smysluplného sdělení (Gatt & Krahmer, 2018).
-Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat určité druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery (McDonald et al. 2005a).
+Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon
-Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků.
+(template-based; např. Reiter et. al, 1995; McRoy, Channarukul, & Ali, 2003), případně na ručně psaných
+gramatikách a pravidlech (rule-based; např. Bateman, 1997; Bangalore & Rambow, 2000). Výhodou těchto
+systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro
+nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost vůči
+neočekávaným vstupům a nedostatečná škálovatelnost na více jazyků nebo domén (Gatt & Krahmer, 2018).
+Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami a strojovým
+učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu
+sdělení (Duboue & McKeown, 2003). Současné přístupy ovšem umožňují generovat text pomocí systémů
+postavených pouze na datech (např. Dušek & Jurčíček, 2015; Wen et al. 2016; Lampouras & Vlachos, 2016). Pro
+tyto modely jsou využívány techniky strojového učení, které se osvědčily i v jiných oblastech zpracování
+přirozeného jazyka (např. ve strojovém překladu, sumarizaci nebo klasifikaci textů) jako jsou rekurentní
+neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter &
+Schmidhuber, 1997), a modely s vrstvami typu attention (attention-based; Vaswani et al., 2017). V architektuře
+používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér
+(Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace,
+která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i
+pro neanotovaná data (neobsahující souvislosti mezi jednotlivými částmi vstupu a výstupu), která jsou snadněji
+dostupná.
-Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (Böhmová et al. 2003, Hajič et al. 2004, Čmejrek et al. 2004, Džeroski et al. 2006, Ramasamy a Žaboktský 2012). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (Zeman 2008), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu PDT (Böhmová et al. 2003) zejména v případě koordinací, kde se pražský styl ukázal být dostatečně expresivním pro zachycení většiny koordinačních struktur jednotlivých jazyků, mnohé další odlišnosti ale zůstaly ponechány (například anotace složených sloves). Značky závislostních vztahů (deprely) byly namapovány na sadu analytických funkcí definovaných pro PDT, která umožňuje správně zachytit nejdůležitější role jako podmět, předmět či přísudek, ale některé další role zachytit neumí (například členy či negativní částice) a dochází tak ke ztrátě informace při konverzi. Navíc nepodporuje podspecifikovanost deprelů, takže v případě že zdrojový treebank neobsahuje dostatek informací pro rozlišení jednotlivých deprelů, musejí být použity heuristiky.
+Systémy postavené na strojovém učení mají výhodu škálovatelnosti a snadné rozšiřitelnosti bez nutnosti
+ručních zásahů do architektury. V oblasti generování přirozeného jazyka ovšem tyto systémy nedosahují
+takových výsledků, jako např. ve strojovém překladu, kde modely postavené na neuronových sítích během
+několika posledních let zcela nahradily předchozí statistické modely (Bojar et al., 2016; 2017). Důvodem je i
+nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních
+doménách (aplikačních oblastech). To značně snižuje přesnost výstupu systémů, omezuje jejich použitelnost
+pouze na několik ukázkových datových sad a znemožňuje jejich nasazení v reálném světě v mnoha doménách s
+praktickým (potenciálně i komerčním) využitím a v dialogových systémech pokrývajících současně velké
+množství domén (Wen et al., 2016).
-Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada deprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, zejména pomocí rozšíření definice některých deprelů a spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývoji, anotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená.
+Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci je model natrénovaný na
-//
+doméně (resp. doménách), pro kterou existuje trénovacích dat dostatek, a následně otestovaný na doméně
+(resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky je naučit
+model generalizovat lingvistické reprezentace a vzory tak, aby byl schopný produkovat srozumitelné výstupy
+nezávisle na aktuální doméně.
-Zdroje:
+V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného
+jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro
+cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017)
+využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning
+Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé
+lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky
+adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, která
+využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat
+reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě
+sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení,
+které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény.
+Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako
+např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací
+vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále
+omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích
+metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez
+potřebné lingvistické variability.
-BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127.
+Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu
+vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název
+restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve
+vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách,
+není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s
+morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, 2019).
-ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004.
-DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation (LREC). 2006.
+===== Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem =====
+Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem
+Duškem – Natural Multi-domain Dialogue Systems (PRIMUS/19/SCI/10). Projekt PRIMUS se soustředí
+zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o
+generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat.
-HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117.
+===== Materiální zajištění projektu =====
+Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely
+disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research
+Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách.
-KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004. p. 478.
+Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je
+dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu.
-MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK.
+===== Cíle řešení projektu =====
+Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat
+nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které
+umožňují dostatečnou škálovatelnost, robustnost a rozšiřitelnost; model bude ovšem zároveň fungovat i v
+doménách s nedostatkem vhodných trénovacích dat.
-MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building a large annotated corpus of English: The Penn Treebank. Computational linguistics, 1993, 19.2: 313-330.
+Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba
+programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních
+systémů), pomohou tak zvýšit přenositelnost a robustnost těchto systémů a zásadně snížit náklady na jejich
+vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v
+současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z
+libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu,
+přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka.
-DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008. p. 1-8.
+Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka,
+který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit
+vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost.
+V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací
+znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování
+přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na
+neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci.
-MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005. p. 91-98.
+===== Způsob řešení =====
+Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu.
-MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530.
+Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na
+doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství
+neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných
+kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin et al.,
+). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v
+oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al.
+). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při
+generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je
+využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019)
+tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi
+malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi
+omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace.
-MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72.
+Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp.
+domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme
+kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých
+datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016)
+pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika
+byla použita ve strojovém překladu, její možný přínos pro generování přirozeného jazyka zatím není
+prozkoumaný.
-MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013.
+Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek &
+Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data
+poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími
+modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto
+datových sad.
-NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932.
+Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et
+al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002),
+ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, 2007), a subjektivní metriky založených na lidském
+hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo
+Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní
+vyhodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením. Tento
+model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019).
-NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219.
+===== Prezentace výsledků =====
+Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky
+práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru
+počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na
+interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na
+webové stránce projektu.
-PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012.
+Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí.
+Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání
+navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu
+generování přirozeného jazyka.
-RAMASAMY, Loganathan; ŽABOKRTSKÝ, Zdenek. Prague Dependency Style Treebank for Tamil. In: LREC. 2012. p. 1888-1894.
+Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu.
-ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008.
-ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
+===== Přílohy =====
+  * Ondřej Dušek – CV.pdf (životopis vedoucího)
+  * Zdeněk Kasner – CV.pdf (životopis řešitele)
+  * {{user:kasner:literatura_gauk.pdf|Seznam citované literatury}}
+  * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019)
+===== Závěrečná zpráva =====
-==== Přínos projektu k rozvoji fakulty / VŠ: ====
+==== Splnění cílů projektu ====
-(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)
+Hlavním cílem projektu bylo vytvořit techniku pro generování textu ze strukturovaných dat nezávisle na konkrétní doméně. Při našem řešení jsme se zaměřili na využití schopností předtrénovaných jazykových modelů pracovat s textem v přirozeném jazyce. Abychom tyto modely mohli aplikovat na náš problém, přeformulovali jsme úkol "generování textu z dat" - pro který je potřeba získat trénovací data z konkrétní domény - na úkol "vylepšování kvality textu pomocí postupných úprav" - který lze natrénovat i na generickém, veřejně dostupném textu.
-//
+V článku Kasner and Dušek (2020) jsme publikovali techniku, která iterativně zlepšovala text pomocí postupné editace šablon. Technika využívala jazykový model, který mohl provádět jen omezenou sadu operací zaměřenou na syntézu vět. Kromě toho, že tím došlo k omezení tzv. "halucinací" (faktů neodpovídajícím vstupu) ve výstupním textu, model mohl být navíc po natrénování na jedné doméně aplikovaný i na datovou sadu z jiné domény.
-První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman et al. 2012). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (Nilsson et al. 2007).
-Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsingu (Mareček a Straka 2013) či jazykovým projekcím.  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (Böhmová et al. 2003), valence (Urešová 2009), koreference (Nedoluzhko et al. 2009) či sentimentu (Veselovská 2012).
+Tuto myšlenku jsme dále rozpracovali v článku Kasner and Dušek (2022). V návaznosti na předchozí práci se podařilo vyvinout systém, který nepotřeboval zcela žádná trénovací data z konkrétní domény a mohl být natrénovaný pouze na předzpracovaných volně dostupných datech (v našem případě na článcích z Wikipedie). Tento systém pomocí sekvence tří modulů postupně seřadil, zagregoval a zlepšil plynulost jednoduchých šablon, díky čemuž dosáhl na dvou datových sadách výsledků srovnatelných s obdobnými systémy z předchozích let, které využívaly trénovací data z konkrétní domény.
-Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus.
+Jedním z výsledků nejnovějšího článku Kasner et al. (2023) pak je i možnost generování šablon pomocí jazykových modelů, díky čemuž je možné eliminovat zbývající manuální část v předchozím přístupu, tedy tvorbu šablon, a celkově tím zlepšit doménovou nezávislost našeho přístupu.
-Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí pravděpodobně bude možné využít jako benchmark pro úlohy tohoto typu.
+Vedlejším cílem projektu pak bylo vytvořit systém pro objektivní hodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením než současné objektivní metriky. Tento cíl se povedlo splnit v článku Dušek and Kasner (2020), ve kterém jsme popsali systém pro hodnocení vygenerovaných textů pomocí modelu založeném na tzv. natural language inference (tedy hodnocení logické provázanosti hypotézy a premisy). Naše metoda dokáže využít existujícího předtrénovaného modelu, díky čemuž je jednoduše použitelná, a zároveň dokáže automatizovat lidské hodnocení s obdobnými nebo lepšími výsledky.
-Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k syntaktickému překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština.
+Oba cíle projektu se tedy podařilo splnit. Na našem přístupu založeném na úpravách textu je možné stavět další přístupy pro generování textu z dat pomocí velkých jazykových modelů, které nedokáží pracovat se strukturovanými daty, ale dosahují velmi dobrých výsledků při práci s textem. Na náš přístup pro evaluaci textu pak již v současnosti navazuje řada dalších přístupů pro evaluaci textu založených na specializovaných modelech.
-Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu.
+==== Závěrečná zpráva za celý projekt ====
-//
+Tento grantový projekt měl za cíl vyvinout techniky pro generování přirozeného jazyka, zejména se zaměřením na techniky pro doménově nezávislé generování textu ze strukturovaných dat.
-Zdroje:
+V průběhu práce jsme vyvinuli techniky, které pomohly naplnit cíle projektu (viz sekce Splnění cílů projektu). Naše výsledky byly publikované na významných mezinárodních konferencích pro zpracování přirozeného jazyka (ACL, EACL, INLG) a všechna naše data a kódy byly publikované pod svobodnou otevřenou licencí.
-BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127.
+Díky grantovým prostředkům se řešitel mimo jiné osobně zúčastnil konference ACL 2022, letní školy DeepLearn 2021 a stáže na Heriot-Watt University v Edinburghu. Zbylé grantové prostředky byly využity na nákup vybavení, které přímo pomohly splnění cílů projektu.
-MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL'13), 2013.
+Výsledky projektu mimo jiné umožnily i přijetí řešitele na stáž v prestižním výzkumném institutu strojového učení MILA (Montreal, Kanada) na jaře roku 2023, kde bude řešitel navazovat na svůj dosavadní výzkum.
-NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16.
-NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932.
+===== Hodnocení projektu - 2022 =====
+==== Zpráva o řešení za minulý rok ====
+V roce 2022 jsme se dále zaměřili na generování textu z dat pomocí jazykových modelů a úspěšně jsme vyvinuli způsob pro použití těchto modelů bez potřeby trénovacích dat z konkrétní domény. Výsledky této práce jsme publikovali v článku Kasner and Dušek (2022) na konferenci ACL 2022 v Dublinu. Této konference jsem se jako první autor článku zúčastnil a prezentoval zde o článku poster.
-UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009.
+Ve spolupráci s Dr. Ioannisem Konstasem z Heriot-Watt University v Edinburgu, kde jsem se zúčastnil stáže na podzim roku 2021, vzniknul článek Kasner et al. (2023), který se zabývá analýzou schopností jazykových modelů generovat popisy zcela nových relací ve znalostních grafech. Tento článek je v současnosti přijatý na konferenci EACL 2023.
-VESELOVSKÁ, Kateřina. Sentence-level sentiment analysis in Czech. In: Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics. ACM, 2012. p. 65.
+Spolupracoval jsem i na článcích s kolegy: v článku Mukherjee et al. (2022) jsme se zabývali zachováním obsahu při transferu stylu ve vygenerovaném textu a v článku Huidrom et al. (2022) jsme provedli reprodukční studii dřívějších experimentů. Tyto projekty byly také publikovány na konferencích.
-ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
+Celkově jsme tak úspěšně pokračovali ve výzkumu ohledně doménové adaptace pro generování textu z dat a publikovali významné výsledky na mezinárodních konferencích pro zpracování přirozeného jazyka.
-ŽABOKRTSKÝ, Zdeněk; PTÁČEK, Jan; PAJAS, Petr. TectoMT: Highly modular MT system with tectogrammatics used as transfer layer. In: Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008. p. 167-170.
-==== Materiální zajištění projektu: ====
+===== Hodnocení projektu - 2021 =====
-//Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, ukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.//
+==== Zpráva o řešení za minulý rok ====
+V minulém roce jsme úspěšně rozpracovali a publikovali prvotní části projektu.
-==== Cíle řešení projektu: ====
+Pozornost jsme věnovali především technikám pro doménově nezávislé generování přirozeného jazyka. Experimenty s neuronovými modely modely pro editaci textu (Libovický et al., 2020; prezentováno na WNGT 2020) nám umožnily vyvinutí techniky, která využívá model pro syntézu vět (sentence fusion) pro iterativní zlepšování textu vygenerovaného pomocí jednoduchých šablon. Výsledky této práce jsme prezentovali a publikovali na 13th International Conference on Natural Language Generation (INLG 2020; prosinec, online) (Kasner and Dušek, 2020a).
-(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.)
-//
+Předtrénované neuronové modely jsme dále aplikovali na datové sady pro generování jazyka a vytvořili soutěžní systém pro WebNLG Challenge 2020. Tento model je vícejazyčný (angličtina + ruština) a v soutěži se umístil na předních příčkách. Popis systému jsme publikovali a prezentovali na workshopu WebNLG+ (3rd Workshop on Natural Language Generation from the Semantic Web), který se konal během INLG 2020 (Kasner and Dušek, 2020b).
-Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky.
-Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinutých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice.
+Podařilo se rozpracovat i vedlejší záměr projektu: vyvinout automatickou metriku pro evaluaci generovaní přirozeného jazyka, která bude lépe korelovat s lidským hodnocením. Za tímto účelem jsme vyvinuli a experimentálně ověřili techniku založenou na předtrénovaném modelu pro inferenci v přirozeném jazyce (Natural Language Inference, NLI). Metrika je plně automatická a na jednoduchých datových sadách dosahuje při hodnocení sémantické přesnosti výsledků lépe korelujících s lidským hodnocením než dosavadní metriky. Práce, publikovaná na INLG 2020, získala ocenění Best Short Paper Award (Dušek and Kasner, 2020).
-Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vytvořit potřebná data, což je časově i finančně náročné.
+Veškeré výsledky práce jsme zároveň prezentovali i na interním semináři Ústavu formální a aplikované lingvistiky (září 2020, online).
-Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu.
+==== Výhled pro další rok ====
+V první části roku dokončíme a zveřejníme pod open-source licencí zdrojový kód a data použitá v části práce zabývající se iterativní syntézou vět. Tento kód umožní navázat na publikovanou práci a do budoucna ji rozšířit.
-Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou.
+Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování jazyka, než současné přístupy pro generování bez mezikroků.
-Zároveň půjde o cenný zdroj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků.
+V oblasti evaluace generování přirozeného jazyka pak plánujeme vytvořit systém pro vyhodnocování přesnosti vygenerovaných výstupů na složitějších datových sadách zahrnující netriviální výběr, agregaci a manipulaci s daty.
-//
-(Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]])
+==== Seznam dosažených výsledků ====
+//(přidáváno po položkách i s detaily)//
-==== Způsob řešení: ====
+  * článek ve sborníku - Data-to-Text Generation with Iterative Text Editing
+  * článek ve sborníku - Expand and filter: CUNI and LMU systems for the WNGT 2020 Duolingo shared task
-//
+  * článek ve sborníku - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference
-Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012).  Naším cílem bude vylepšit kvalitu této kolekce pomocí opravy chyb a nepřesností v konverzích zdrojových treebanků tak, aby bylo správně zachováno co nejvíce původních informací. Bude také nutné harmonizovat odlišně anotované závislostní struktury, které v rámci projektu HamleDT harmonizovány nebyly -- například složená slovesa a podřadící spojky.
+  * článek ve sborníku - Train Hard, Finetune Easy: Multilingual Denoising for RDF-to-Text Generation
+  * ostatní - prezentace - ÚFAL seminář
-Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně.
-Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku.
-Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008).
-Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu.
-V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka.
-V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které je možné využít, je tzv. delexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy.  Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme -- zda budou zachycovat pouze slovní druhy slov, nebo i některé jejich morfologické rysy, apod.  Tato úloha je užitečná pro analýzu jazyků, pro něž nejsou k dispozici dostatečné datové zdroje pro natrénování parseru standardním způsobem.  Očekáváme, že pro analýzu daného jazyka bude nejvhodnější natrénování parseru na jednom nebo několika nejpodobnějších jazycích.  Naším cílem je dosáhnout s námi vyvinutou metodou úspěšnosti srovnatelné s nejlepšími světovými systémy.
-V úloze přenositelnosti jednojazyčných technologií se zejména pokusíme sestrojit závislostní parser, založený na některém z nejlepších současných parserů (např.  Nivre et al. 2006, McDonald et al. 2005), který bude dosahovat vysoké úspěšnosti na všech jazycích s dostatečnými datovými zdroji, přičemž bude stačit jej natrénovat na treebanku tohoto jazyka, bez nutnosti jej navíc ručně ladit na daný jazyk. V současnosti používané parsery je totiž obvykle nutné pro každý jazyk vyladit, tj. nalézt vhodné hodnoty jejich parametrů, tak aby dosahovaly vysoké úspěšnosti. Věříme, že díky harmonizaci treebanků se nám podaří nalézt takovou sadu parametrů, aby ladění na jednotlivé jazyky nebylo nutné. Může se stát, že toto nebude možné, pak bude naším cílem rozdělit jazyky do jednotlivých typologicky odlišných skupin, a vyladit parser na každou takovou skupinu zvlášť.
-Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie - výpočetní cluster, programovací model MapReduce, kódování Unicode, a podobně.
-//
-Zdroje:
-BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127.
-DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008. p. 1-8.
-MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530.
-MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72.
-NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932.
-NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219.
-ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
-==== Prezentace výsledků: ====
-//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML.
-Průběžné výsledky budeme popisovat také v technických zprávách.
-Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí.
-U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
-===== Přílohy =====
-Moje CV a publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}}
-ZŽ CV {{:user:rosa:cv-zz.pdf|}}
-ZŽ publikace {{:user:rosa:zz-pub.pdf|}}
-HM CV {{:user:rosa:cv_masek.pdf|}}
-===== Posudky =====
+==== Komentář zpravodaje ====
-==== Posudek 1. ====
+**Čerpání finančních prostředků:** Finance byly využity korektně.
-Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, má bohaté zkušenosti v oboru, o čemž svědčí jeho publikační výstupy. Lze tedy očekávat, že pod jeho vedením projekt přinese slibované výsledky. Za klad považuji i to, že se jedná o projekt, který přímo navazuje na dosavadní výzkum na ÚFAL - konkrétně se jedná o projekt HamleDT - , na němž se hlavní řešitel aktivně podílel (viz jeho CV a pubikační činnost; mimo jiné získal také ocenění UFAL best paper award 2012 – 2013). Předpokládané publikační výstupy - účast na nejvýznamnějších světových konferencích - odpovídají celkové intenci projektu. Finanční požadavky jsou přiměřené a účelné.
+**Komentář zpravodaje projektu:** Projekt přinesl hned v prvním roce několik publikací prezentovaných na mezinárodních konferencích, a jedna z nich získala ocenění Best Short Paper Award.
+Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit.
-==== Posudek 2. ====
+===== Hodnocení projektu - 2020 =====
-Projekt řeší velmi aktuální téma a klade si velmi ambiciózní cíle. Navazuje však na kvalitní existující práci, které se účastnili i odborně fundovaní členové řešitelského týmu, takže je splnitelný. Po formální stránce je návrh dobře a výstižné strukturován, výtku by si zasloužily snad jen ojedinělé překlepy. Zajímavý problém představuje harmonizace různých typů syntaktické anotace. Autoři zřejmě předpokládají, že výsledkem bude – podobně jako v citované práci Zeman et al. (2012) – anotační schéma Pražského závislostního korpusu (PDT) a nezmiňují způsob řešení případů, kdy konkrétní anotační styl obsahuje méně nebo více informace než cílové anotační schéma. Ve všech ostatních ohledech projekt splňuje a přesahuje požadavky GA UK. Lze oprávněně očekávat, že jeho výsledky budou významným přínosem po stránce praktické i teoretické, a to i v podobě publikací vynikajících i v mezinárodním srovnání.
+* **Shrnutí zpravodaje:** Mimořádně kvalitní projekt. Na základě oponentských posudků předložený projekt
+doporučuji k financování. Oba dva oponenti shodně hodnotili projekt jako vynikající. V textu posudků oponenti
+nezávisle vyzvedli tytéž kvality řešitele a jeho týmu. Ani jeden z oponentů nezmiňuje žádné podstatné slabší
+stránky projektu. Projekt má realistické cíle, metodiku řešení i vhodnou představu, kdy, kde a jak nově získané
+poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení
+projektu.
+* **Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje:** nadprůměrný
+* **Doporučení při novém podání:** Podat znovu, jedná se o kvalitní projekt
+* **Celkové umístění projektu v rámci sekce:** v 1. třetině
+* **Doporučení zpravodaje:** Doporučený
+* **Doporučení Oborové rady:** Doporučený
+* **Závěrečné doporučení Grantové rady:** Doporučený
-==== Shrnutí zpravodaje k projektu ====
-Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, že struktura projektu je v pořádku. Rovněž tak řešitelský tým i pracoviště poskytuje záruku, že bude dosaženo vytyčených cílů. Projekt doporučím k financování. Bohužel vzhledem k velikosti přidělených finančních prostředků jsem byl nucen přistoupit ke krácení finančních prostředků pro projekt. Zdůvodnění ostatních neinvestičních nákladů (nákup pevných disků) pro projekt mi přijde dost pochybné.
-==== Posudek zpravodaje projektu za rok 2015 ====
-Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní ("...očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy"), těším se na publikované výsledky. V kontextu nutných drobných přesunů financí v minulém roce mi není jasné, proč je na ostatní neinvestiční náklady plánováno jen 1000Kč, to je tak na jeden poster.
-==== Posudek zpravodaje projektu za rok 2016 ====
-Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences