Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
user:kasner:gauk [2021/10/25 12:21] kasner created |
user:kasner:gauk [2023/03/05 22:36] (current) kasner |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Domain Adaptation for Natural Language Generation | + | {{ : |
- | //Žádost o GAUK pro téma mé disertační práce// | + | Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí. |
+ | |||
+ | Pokud máte nějaké dotazy, klidně mi [[https://ufal.mff.cuni.cz/ | ||
* GAUK podán 2.11.2019 | * GAUK podán 2.11.2019 | ||
* GAUK přijatý k financování 11. 03. 2020 | * GAUK přijatý k financování 11. 03. 2020 | ||
- | * | + | |
===== Základní informace o projektu č. 140320 ===== | ===== Základní informace o projektu č. 140320 ===== | ||
- | * Český název projektu: | ||
- | * Anglický název projektu: Domain Adaptation for Natural Language Generation | ||
- | * Aktuální řešitel: Ing. Zdeněk Kasner | ||
- | * První žadatel: Zdeněk Kasner | ||
- | * Studium: Matematicko-fyzikální fakulta | ||
- | * Program: Matematická lingvistika | ||
- | * Obor: Matematická lingvistika | ||
- | * Typ studia: doktorské studium | ||
- | * Rok založení projektu: 2020 | ||
- | * Délka řešení projektu: 3 | ||
- | * Sekce oborové rady: Společenské vědy - Informatika (INF) | ||
- | * Pracoviště Ústav formální a aplikované lingvistiky | ||
- | ===== Řešitelský kolektiv ===== | ||
- | ==== Charakteristika | + | | Český název projektu | Doménová adaptace pro generování přirozeného jazyka | |
- | Mgr. Rudolf Rosa | + | | Anglický název projektu | Domain Adaptation for Natural Language Generation | |
- | Stipendia < | + | | Aktuální |
+ | | První žadatel |Zdeněk Kasner | | ||
+ | | Studium | Matematicko-fyzikální fakulta | | ||
+ | | Program |Matematická lingvistika | | ||
+ | | Obor |Matematická lingvistika | | ||
+ | | Typ studia |doktorské studium | | ||
+ | | Rok založení projektu |2020 | | ||
+ | | Délka řešení projektu | 3 | | ||
+ | | Sekce oborové rady | Společenské vědy - Informatika (INF) | | ||
+ | | Pracoviště | ||
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | ===== Řešitelský kolektiv ===== |
- | Osobní náklady (mzdy a odvody) < | + | |
- | Mgr. Martin Popel | + | ==== Charakteristika řešitelského kolektivu - rok 2020: ==== |
- | Stipendia | + | | Ing. Zdeněk Kasner | Stipendia |
+ | | Mgr. et Mgr. Ondřej Dušek Ph.D. | Osobní náklady (mzdy a odvody) | 20/10 | | ||
- | Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem | + | Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika |
+ | Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium | ||
+ | magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na | ||
+ | téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, | ||
+ | Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou | ||
+ | pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka. | ||
+ | Výstupem diplomové práce je i článek, který bude zaslán | ||
+ | disertační práce řešitele odpovídá tématu tohoto grantového projektu. | ||
- | Martinovi navrhuju 39 a ne 40 protože 40 mě to nenechalo zadat (když jsem zadal cokoliv | + | Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na |
+ | generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na | ||
+ | Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených | ||
+ | interakce s počítači a roboty v přirozeném jazyce. Zde se také podílel na vedení týmu doktorandů v soutěži | ||
+ | dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil na 3. místě. Od ledna 2019 je | ||
+ | vědeckým pracovníkem na ÚFAL MFF UK v rámci grantového projektu PRIMUS/ | ||
+ | výzkum dialogových systémů a generování jazyka. Ve svém výzkumu se zabývá zejména generováním | ||
+ | přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu. | ||
+ | Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je | ||
+ | spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci | ||
+ | projektu bude hlavnímu řešiteli poskytovat konzultace. | ||
- | //Složení řešitelského kolektivu je stejné jako v roce 2015. | + | ===== Finanční požadavky ===== |
+ | ^ Položky ^ Rok 2020 ^ Rok 2021 ^ Rok 2022 ^ | ||
+ | | Ostatní neinvestiční náklady | ||
+ | | Pobytové náklady | ||
+ | | Doplňkové náklady | ||
+ | | Osobní náklady (mzdy) a stipendia | ||
+ | | Celkem | 178/166 | 150/141 | 162 | | ||
- | Martin Popel se od harmonizace treebanků (HamleDT/ | + | ==== Struktura finančních prostředků - rok 2022 ==== |
+ | Částky | ||
- | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | + | Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | Association for Computational Linguistics Annual Meeting (ACL): 22.-27. květen 2022 / Dublin, Irsko |
- | Osobní náklady (mzdy a odvody) < | + | konferenční poplatek: 12 000 Kč |
+ | cesta: 5 000 Kč | ||
+ | stravné: 5 000 Kč | ||
+ | ubytování: | ||
+ | → celkem: 29 000 Kč | ||
- | Mgr. Martin Popel | + | International Conference on Natural Language Generation (INLG): 18.-22. červenec 2022 / Maine, USA |
- | Stipendia < | + | konferenční poplatek: 10 000 Kč |
+ | cesta: | ||
+ | stravné: 5 000 Kč | ||
+ | ubytování: | ||
+ | → celkem: 55 000 Kč | ||
- | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | + | International Conference for Computational Linguistics (COLING): 12.-17. říjen 2022 / Gyeongju, Jižní Korea |
- | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | + | konferenční poplatek: 12 000 Kč |
+ | cesta: 30 000 Kč | ||
+ | stravné: 6 000 Kč | ||
+ | ubytování: | ||
+ | → celkem: 58 000 Kč | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem | + | V případě hybridního formátu |
- | Životopis a seznam vybraných publikací | + | |
- | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky | + | Ostatní neinvestiční náklady budou použity |
- | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | + | |
+ | ==== Struktura finančních prostředků - rok 2021 ==== | ||
+ | Částky na osobní náklady a stipendia jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | + | Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | Empirical Methods in Natural Language Processing |
- | Osobní náklady | + | - konferenční poplatek: 11 000 Kč |
+ | - cesta: 25 000 Kč | ||
+ | - stravné: 5 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 48 000 Kč | ||
- | Bc. Jan Mašek | + | International Conference on Natural Language Generation (INLG): září 2021 (4 dny) / Aberdeen, Velká Británie |
- | Stipendia < | + | konferenční poplatek: 7 000 Kč |
+ | - cesta: 5 000 Kč | ||
+ | - stravné: 4 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 21 000 Kč | ||
+ | Obě konference se budou konat v druhé polovině tohoto roku, je tedy potřeba počítat s tím, že se mohou konat osobně. Podle aktuálních informací je tato varianta preferována, | ||
- | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | + | Ostatní neinvestiční náklady budou použity na nákup odborné literatury |
- | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | + | |
- | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | + | |
- | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky | + | ==== Struktura finančních prostředků - rok 2020: ==== |
- | Životopis | + | Částky |
+ | Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: | ||
+ | Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle, | ||
+ | USA | ||
+ | - konferenční poplatek: 12 000 Kč | ||
+ | - cesta: 28 000 Kč | ||
+ | - stravné: 8 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 60 000 Kč | ||
+ | Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko | ||
+ | - konferenční poplatek: 8 000 Kč | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 5 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 18 000 Kč | ||
+ | Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana, | ||
+ | Dominikánská republika | ||
+ | - konferenční poplatek: 11 000 Kč | ||
+ | - cesta: 22 000 Kč | ||
+ | - stravné: 4 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 32 000 Kč | ||
+ | International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 / | ||
+ | Dublin, Irsko | ||
+ | - konferenční poplatek: 6 000 Kč | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 3 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 17 000 Kč | ||
+ | Náklady na konference jsou odhadnuty na základě informací z minulých let a aktuálních informací na webu. | ||
+ | Ostatní neinvestiční náklady budou použity na nákup odborné literatury | ||
+ | (kancelářských potřeb, tonerů, apod.). | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | |||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. | ||
- | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | ||
- | |||
- | ===== Finanční požadavky ===== | ||
- | |||
- | ==== Struktura finančních prostředků - rok 2016: ==== | ||
- | Položky Rok 2016 | ||
- | Ostatní neinvestiční náklady 1 | ||
- | Cestovné 50 | ||
- | Doplňkové náklady 28 | ||
- | Osobní náklady (mzdy) a stipendia 139 | ||
- | Celkem 218 | ||
- | |||
- | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, | ||
- | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | ||
- | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | ||
- | |||
- | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
- | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | ||
- | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | ||
- | - ITAT/ | ||
- | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | |||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.// | ||
- | |||
- | ==== Struktura finančních prostředků - rok 2015: ==== | ||
- | Položky Rok 2015 | ||
- | Ostatní neinvestiční náklady 1 | ||
- | Cestovné 100 | ||
- | Doplňkové náklady (počítá se automaticky) (28) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
- | Celkem (počítá se automaticky) (219) | ||
- | |||
- | //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | ||
- | * ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky | ||
- | * EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená na použití empirických metod v počítačové lingvistice | ||
- | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy | ||
- | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
- | Dle okolností (přijetí/ | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | |||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
- | |||
- | |||
- | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady < | ||
- | Cestovné 90 | ||
- | Doplňkové náklady (počítá se automaticky) (27) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
- | Celkem (počítá se automaticky) (212) | ||
- | |||
- | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
- | |||
- | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje | ||
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky | ||
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy | ||
- | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
==== Finanční výhled na další roky ==== | ==== Finanční výhled na další roky ==== | ||
- | Rok 2015: 250 | + | | **Rok 2021** | 180 | |
- | Rok 2016: 250 | + | | **Rok 2022** | 180 | |
- | + | ||
- | ===== Závěrečná zpráva projektu ===== | + | |
- | ==== Zpráva o řešení za minulý rok ==== | + | |
- | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | + | |
- | Martin se dále podílel zejména na Udapi (http:// | + | |
- | + | ||
- | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | + | |
- | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | + | |
- | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | + | |
- | + | ||
- | ==== Splnění cílů projektu ==== | + | |
- | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | + | |
- | + | ||
- | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | + | |
- | + | ||
- | ==== Závěrečná zpráva ==== | + | |
- | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | + | |
- | + | ||
- | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | + | |
- | + | ||
- | ==== Komentář k vyčerpaným financím ==== | + | |
- | // | + | |
- | + | ||
- | ==== Seznam dosažených výsledků ==== | + | |
- | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | + | |
- | + | ||
- | ===== Výroční zpráva za 2015 ===== | + | |
- | ==== Zpráva o řešení za minulý rok ==== | + | |
- | // | + | |
- | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | + | |
- | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | + | |
- | + | ||
- | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | + | |
- | + | ||
- | ==== Výhled pro další rok ==== | + | |
- | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | + | |
- | + | ||
- | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | + | |
- | + | ||
- | ==== Komentář k vyčerpaným financím ==== | + | |
- | // | + | |
- | + | ||
- | ==== Seznam dosažených výsledků ==== | + | |
- | Následující text je můj komentář, není součástí Zprávy. | + | |
- | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | + | |
- | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | + | |
- | + | ||
- | ===== Výroční zpráva za 2014 ===== | + | |
- | ==== Zpráva o řešení za minulý rok ==== | + | |
- | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | + | |
- | Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.// | + | |
- | + | ||
- | ==== Výhled pro další rok ==== | + | |
- | //V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT. | + | |
- | Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.// | + | |
- | ==== Komentář k vyčerpaným financím ==== | ||
- | //V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, | ||
- | Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University of Edinburgh.// | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace | + | ==== Anotace ==== |
- | // | + | Kvalita výstupu systémů pro generování |
- | V grantovém projektu budeme zkoumat vzájemné podobnosti | + | množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou |
- | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka | + | omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku |
- | Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje a postupy vyvinuté pro práci | + | delexikalizace, |
+ | generování | ||
+ | dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích | ||
+ | vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat | ||
+ | doméně, a technice selekce dat, která | ||
+ | projektu zlepší praktickou využitelnost systémů pro generování přirozeného | ||
+ | sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také | ||
+ | bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů | ||
+ | jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti. | ||
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | ||
- | // | ||
- | ==== Anotace v anglickém jazyce | + | ==== Anotace v anglickém jazyce ==== |
- | + | The performance of neural natural language generation (NLG) systems is dependent on the amount of available | |
- | // | + | in-domain training data. Current solutions for domain adaptation are limited – they require very similar |
- | In this grant project, we will explore mutual similarities of natural languages, | + | domains or complex input representations |
- | The first task type will be cross-lingual projection technologies, | + | will aim to develop |
- | The second task type will focus on portability | + | domain training data. The model will use domain-independent semantic representations learned from large |
- | + | amounts | |
- | Although there exist vast language resources | + | domain |
- | // | + | practice and help current understanding |
+ | also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG | ||
+ | research. | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové | ||
+ | lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných | ||
+ | dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským | ||
+ | uživatelům, | ||
+ | Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče | ||
+ | (Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi | ||
+ | počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního | ||
+ | zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování | ||
+ | přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech | ||
+ | (Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu, | ||
+ | stylem výstupu i použitými metodami. | ||
- | // | + | Generování přirozeného |
- | Syntaktická analýza | + | každý dílčí úkol), všechny naráz |
+ | extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu | ||
+ | jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci | ||
+ | výrazů do smysluplného sdělení (Gatt & Krahmer, 2018). | ||
- | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje | + | Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon |
- | Na významu také získává zaměření na jazyky, pro které | + | (template-based; |
+ | gramatikách a pravidlech (rule-based; | ||
+ | systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro | ||
+ | nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost | ||
+ | neočekávaným vstupům a nedostatečná | ||
+ | Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami | ||
+ | učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu | ||
+ | sdělení (Duboue & McKeown, 2003). Současné | ||
+ | postavených pouze na datech | ||
+ | tyto modely jsou využívány techniky strojového učení, které | ||
+ | přirozeného jazyka (např. ve strojovém | ||
+ | neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter & | ||
+ | Schmidhuber, | ||
+ | používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér | ||
+ | (Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace, | ||
+ | která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i | ||
+ | pro neanotovaná data (neobsahující souvislosti mezi jednotlivými | ||
+ | dostupná. | ||
- | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních | + | Systémy postavené na strojovém učení mají výhodu |
+ | ručních | ||
+ | takových výsledků, jako např. ve strojovém překladu, kde modely postavené | ||
+ | několika | ||
+ | nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních | ||
+ | doménách | ||
+ | pouze na několik ukázkových datových sad a znemožňuje | ||
+ | praktickým (potenciálně i komerčním) využitím | ||
+ | množství domén (Wen et al., 2016). | ||
- | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků | + | Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci |
- | // | + | doméně |
+ | (resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky | ||
+ | model generalizovat lingvistické reprezentace | ||
+ | nezávisle na aktuální doméně. | ||
- | Zdroje: | + | V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného |
+ | jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro | ||
+ | cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017) | ||
+ | využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning | ||
+ | Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé | ||
+ | lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky | ||
+ | adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, | ||
+ | využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat | ||
+ | reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě | ||
+ | sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení, | ||
+ | které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény. | ||
+ | Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako | ||
+ | např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací | ||
+ | vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále | ||
+ | omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích | ||
+ | metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez | ||
+ | potřebné lingvistické variability. | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. | + | Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu |
+ | vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název | ||
+ | restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve | ||
+ | vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách, | ||
+ | není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s | ||
+ | morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, | ||
- | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. | ||
- | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation | + | ===== Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem ===== |
+ | Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem | ||
+ | Duškem – Natural Multi-domain Dialogue Systems | ||
+ | zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o | ||
+ | generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat. | ||
- | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. | + | ===== Materiální zajištění projektu ===== |
+ | Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely | ||
+ | disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research | ||
+ | Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách. | ||
- | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004. p. 478. | + | Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je |
+ | dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu. | ||
- | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | + | ===== Cíle řešení projektu ===== |
+ | Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat | ||
+ | nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které | ||
+ | umožňují dostatečnou škálovatelnost, | ||
+ | doménách s nedostatkem vhodných trénovacích dat. | ||
- | MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building | + | Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba |
+ | programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních | ||
+ | systémů), pomohou tak zvýšit přenositelnost | ||
+ | vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v | ||
+ | současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z | ||
+ | libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu, | ||
+ | přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka. | ||
- | DE MARNEFFE, Marie-Catherine; | + | Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka, |
+ | který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit | ||
+ | vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost. | ||
+ | V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací | ||
+ | znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování | ||
+ | přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na | ||
+ | neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci. | ||
- | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | + | ===== Způsob řešení ===== |
+ | Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu. | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530. | + | Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na |
+ | doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství | ||
+ | neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných | ||
+ | kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin | ||
+ | 2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v | ||
+ | oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al. | ||
+ | 2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při | ||
+ | generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je | ||
+ | využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019) | ||
+ | tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi | ||
+ | malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi | ||
+ | omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace. | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods | + | Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp. |
+ | domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme | ||
+ | kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých | ||
+ | datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016) | ||
+ | pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika | ||
+ | byla použita ve strojovém | ||
+ | prozkoumaný. | ||
- | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | + | Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek & |
+ | Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data | ||
+ | poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími | ||
+ | modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto | ||
+ | datových sad. | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et |
+ | al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002), | ||
+ | ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, | ||
+ | hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo | ||
+ | Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní | ||
+ | vyhodnocení výstupu generování | ||
+ | model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019). | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | + | ===== Prezentace výsledků ===== |
+ | Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky | ||
+ | práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru | ||
+ | počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na | ||
+ | interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na | ||
+ | webové stránce projektu. | ||
- | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | + | Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí. |
+ | Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání | ||
+ | navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu | ||
+ | generování přirozeného jazyka. | ||
- | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | + | Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu. |
- | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | ===== Přílohy ===== |
+ | * Ondřej Dušek – CV.pdf (životopis vedoucího) | ||
+ | * Zdeněk Kasner – CV.pdf (životopis řešitele) | ||
+ | * {{user:kasner: | ||
+ | * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019) | ||
+ | ===== Závěrečná zpráva ===== | ||
- | ==== Přínos | + | ==== Splnění cílů |
- | (Popis návaznosti | + | Hlavním cílem |
- | // | + | V článku Kasner and Dušek |
- | První | + | |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | + | Tuto myšlenku jsme dále rozpracovali v článku Kasner and Dušek (2022). V návaznosti |
- | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských | + | Jedním z výsledků nejnovějšího článku Kasner et al. (2023) pak je i možnost generování šablon pomocí jazykových modelů, díky čemuž je možné eliminovat zbývající manuální část v předchozím přístupu, tedy tvorbu šablon, a celkově tím zlepšit doménovou nezávislost našeho |
- | Potřebu masivně paralelního zpracovávání velkých dat při práci | + | Vedlejším cílem projektu pak bylo vytvořit systém pro objektivní hodnocení výstupu generování |
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu | + | Oba cíle projektu se tedy podařilo splnit. Na našem |
- | Na experimenty samotné pak mohou navázat další diplomové | + | ==== Závěrečná zpráva za celý projekt ==== |
- | // | + | Tento grantový projekt měl za cíl vyvinout techniky pro generování přirozeného jazyka, zejména se zaměřením na techniky pro doménově nezávislé generování textu ze strukturovaných dat. |
- | Zdroje: | + | V průběhu práce jsme vyvinuli techniky, které pomohly naplnit cíle projektu (viz sekce Splnění cílů projektu). Naše výsledky byly publikované na významných mezinárodních konferencích pro zpracování přirozeného jazyka (ACL, EACL, INLG) a všechna naše data a kódy byly publikované pod svobodnou otevřenou licencí. |
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. | + | Díky grantovým prostředkům se řešitel mimo jiné osobně zúčastnil konference ACL 2022, letní školy DeepLearn 2021 a stáže na Heriot-Watt University v Edinburghu. Zbylé grantové prostředky byly využity na nákup vybavení, které |
- | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | + | Výsledky projektu mimo jiné umožnily i přijetí řešitele na stáž v prestižním výzkumném institutu strojového učení MILA (Montreal, Kanada) na jaře roku 2023, kde bude řešitel navazovat na svůj dosavadní výzkum. |
- | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | ===== Hodnocení projektu |
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | V roce 2022 jsme se dále zaměřili na generování textu z dat pomocí jazykových modelů a úspěšně jsme vyvinuli způsob pro použití těchto modelů bez potřeby trénovacích dat z konkrétní domény. Výsledky této práce jsme publikovali v článku Kasner and Dušek (2022) na konferenci ACL 2022 v Dublinu. Této konference jsem se jako první autor článku zúčastnil a prezentoval zde o článku poster. | ||
- | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. | + | Ve spolupráci s Dr. Ioannisem Konstasem z Heriot-Watt University |
- | VESELOVSKÁ, | + | Spolupracoval jsem i na článcích s kolegy: v článku Mukherjee et al. (2022) jsme se zabývali zachováním obsahu při transferu stylu ve vygenerovaném textu a v článku Huidrom et al. (2022) jsme provedli reprodukční studii dřívějších experimentů. Tyto projekty byly také publikovány na konferencích. |
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | Celkově jsme tak úspěšně pokračovali ve výzkumu ohledně doménové adaptace pro generování textu z dat a publikovali významné výsledky na mezinárodních konferencích pro zpracování |
- | ŽABOKRTSKÝ, | ||
- | ==== Materiální zajištění | + | ===== Hodnocení |
- | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, | + | ==== Zpráva o řešení za minulý rok ==== |
+ | V minulém roce jsme úspěšně rozpracovali | ||
- | ==== Cíle řešení projektu: ==== | + | Pozornost jsme věnovali především technikám pro doménově nezávislé generování přirozeného jazyka. Experimenty s neuronovými modely modely pro editaci textu (Libovický et al., 2020; prezentováno na WNGT 2020) nám umožnily vyvinutí techniky, která využívá model pro syntézu vět (sentence fusion) pro iterativní zlepšování textu vygenerovaného pomocí jednoduchých šablon. Výsledky této práce jsme prezentovali a publikovali na 13th International Conference on Natural Language Generation (INLG 2020; prosinec, online) (Kasner and Dušek, 2020a). |
- | (Předpokládaný výsledek a jeho využití, význam projektu | + | |
- | // | + | Předtrénované neuronové modely jsme dále aplikovali na datové sady pro generování jazyka a vytvořili soutěžní systém pro WebNLG Challenge 2020. Tento model je vícejazyčný (angličtina + ruština) a v soutěži se umístil na předních příčkách. Popis systému jsme publikovali a prezentovali na workshopu WebNLG+ (3rd Workshop on Natural Language Generation from the Semantic Web), který se konal během INLG 2020 (Kasner and Dušek, 2020b). |
- | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč | + | |
- | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit | + | Podařilo se rozpracovat |
- | Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat | + | Veškeré výsledky práce jsme zároveň prezentovali |
- | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | + | ==== Výhled pro další rok ==== |
+ | V první | ||
- | Možností využití této datové sady v komputační lingvistice | + | Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování |
- | Zároveň | + | V oblasti evaluace generování |
- | // | + | |
- | (Původní verze zde: [[user: | + | ==== Seznam dosažených výsledků ==== |
- | + | //(přidáváno po položkách i s detaily)// | |
- | ==== Způsob řešení: | + | |
- | + | | |
- | // | + | * článek ve sborníku |
- | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů | + | * článek ve sborníku |
- | + | * ostatní | |
- | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory | + | |
- | + | ||
- | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která | + | |
- | + | ||
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují | + | |
- | + | ||
- | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | + | |
- | + | ||
- | V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka. | + | |
- | + | ||
- | V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které je možné využít, je tzv. delexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy. Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme | + | |
- | + | ||
- | V úloze přenositelnosti jednojazyčných technologií se zejména pokusíme sestrojit závislostní parser, založený na některém z nejlepších současných parserů (např. | + | |
- | + | ||
- | Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie | + | |
- | // | + | |
- | + | ||
- | Zdroje: | + | |
- | + | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | + | |
- | + | ||
- | DE MARNEFFE, Marie-Catherine; | + | |
- | + | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings | + | |
- | + | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language | + | |
- | + | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | |
- | + | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator | + | |
- | + | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | |
- | + | ||
- | ==== Prezentace výsledků: ==== | + | |
- | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | + | |
- | Budeme publikovat příspěvky na mezinárodních konferencích | + | |
- | Průběžné výsledky budeme popisovat také v technických zprávách. | + | |
- | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | + | |
- | + | ||
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | + | |
- | + | ||
- | ===== Přílohy ===== | + | |
- | Moje CV a publikace {{: | + | |
- | ZŽ CV {{: | + | |
- | ZŽ publikace {{: | + | |
- | HM CV {{: | + | |
- | ===== Posudky ===== | + | ==== Komentář zpravodaje |
- | ==== Posudek 1. ==== | + | **Čerpání finančních prostředků:** Finance byly využity korektně. |
- | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, | + | **Komentář zpravodaje projektu:** Projekt |
+ | Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit. | ||
- | ==== Posudek 2. ==== | + | ===== Hodnocení projektu - 2020 ===== |
- | Projekt | + | * **Shrnutí zpravodaje: |
+ | doporučuji k financování. Oba dva oponenti shodně hodnotili projekt | ||
+ | nezávisle vyzvedli tytéž kvality řešitele | ||
+ | stránky projektu. Projekt má realistické cíle, metodiku | ||
+ | poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení | ||
+ | projektu. | ||
+ | * **Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje: | ||
+ | * **Doporučení při novém podání:** Podat znovu, jedná se o kvalitní projekt | ||
+ | * **Celkové umístění projektu | ||
+ | * **Doporučení zpravodaje: | ||
+ | * **Doporučení Oborové rady:** Doporučený | ||
+ | * **Závěrečné doporučení Grantové rady:** Doporučený | ||
- | ==== Shrnutí zpravodaje k projektu ==== | ||
- | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
- | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
- | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
- | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
- | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |