Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:kasner:gauk [2021/10/25 12:22] kasner [Charakteristika řešitelského kolektivu - rok 2016:] |
user:kasner:gauk [2021/10/25 12:47] kasner [Přílohy] |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Domain Adaptation for Natural Language Generation | + | ===== GAUK – Zdeněk Kasner |
- | //Žádost o GAUK pro téma mé disertační práce// | + | Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí. |
+ | |||
+ | Pokud máte nějaké dotazy, klidně mi [[https://ufal.mff.cuni.cz/ | ||
* GAUK podán 2.11.2019 | * GAUK podán 2.11.2019 | ||
* GAUK přijatý k financování 11. 03. 2020 | * GAUK přijatý k financování 11. 03. 2020 | ||
- | * | + | |
===== Základní informace o projektu č. 140320 ===== | ===== Základní informace o projektu č. 140320 ===== | ||
- | * Český název projektu: | ||
- | * Anglický název projektu: Domain Adaptation for Natural Language Generation | ||
- | * Aktuální řešitel: Ing. Zdeněk Kasner | ||
- | * První žadatel: Zdeněk Kasner | ||
- | * Studium: Matematicko-fyzikální fakulta | ||
- | * Program: Matematická lingvistika | ||
- | * Obor: Matematická lingvistika | ||
- | * Typ studia: doktorské studium | ||
- | * Rok založení projektu: 2020 | ||
- | * Délka řešení projektu: 3 | ||
- | * Sekce oborové rady: Společenské vědy - Informatika (INF) | ||
- | * Pracoviště Ústav formální a aplikované lingvistiky | ||
- | ===== Řešitelský kolektiv ===== | ||
- | ==== Charakteristika | + | | Český název projektu | Doménová adaptace pro generování přirozeného jazyka | |
- | Ing. Zdeněk Kasner | + | | Anglický název projektu | Domain Adaptation for Natural Language Generation | |
- | Stipendia 70/70 | + | | Aktuální |
+ | | První žadatel |Zdeněk Kasner | | ||
+ | | Studium | Matematicko-fyzikální fakulta | | ||
+ | | Program |Matematická lingvistika | | ||
+ | | Obor |Matematická lingvistika | | ||
+ | | Typ studia |doktorské studium | | ||
+ | | Rok založení projektu |2020 | | ||
+ | | Délka řešení projektu | 3 | | ||
+ | | Sekce oborové rady | Společenské vědy - Informatika (INF) | | ||
+ | | Pracoviště | ||
- | Mgr. et Mgr. Ondřej Dušek Ph.D. | + | ===== Řešitelský kolektiv ===== |
- | Osobní náklady (mzdy a odvody) 20/10 | + | |
- | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | + | |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | doc. Ing. Zdeněk | + | ==== Charakteristika řešitelského kolektivu - rok 2020: ==== |
- | Osobní náklady (mzdy a odvody) | + | | Ing. Zdeněk |
+ | | Mgr. et Mgr. Ondřej Dušek | ||
- | Mgr. Martin Popel | + | Řešitel Ing. Zdeněk Kasner je studentem prvního ročníku doktorského programu Matematická lingvistika na |
- | Stipendia < | + | Ústavu formální a aplikované lingvistiky (ÚFAL) MFF UK v Praze. V červnu 2019 dokončil studium |
+ | magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na | ||
+ | téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém překladu”, | ||
+ | Jindřichem Helclem z ÚFAL, se řešitel seznámil s výpočetní infrastrukturou na ÚFAL, kterou bude používat | ||
+ | pro svou disertační práci, a získal zkušenosti s neuronovými modely a zpracováním přirozeného jazyka. | ||
+ | Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma | ||
+ | disertační práce řešitele odpovídá tématu tohoto grantového projektu. | ||
- | // | + | Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací |
- | Životopis a seznam vybraných publikací řešitele se nacházejí | + | generování |
- | + | Heriot-Watt University | |
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem | + | interakce s počítači |
- | Životopis a seznam vybraných publikací školitele se nacházejí | + | dialogových systémů Amazon Alexa Prize, který v letech 2017 a 2018 skončil |
- | + | vědeckým pracovníkem | |
- | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky | + | výzkum dialogových systémů |
- | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | + | přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu. |
- | + | Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge | |
- | + | spoluautorem více než 30 publikací | |
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | + | projektu bude hlavnímu |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | + | ||
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | |
- | Osobní náklady (mzdy a odvody) < | + | |
- | + | ||
- | Bc. Jan Mašek | + | |
- | Stipendia < | + | |
- | + | ||
- | + | ||
- | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | + | |
- | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | + | |
- | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | + | |
- | + | ||
- | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných | + | |
- | Životopis | + | |
- | + | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | |
- | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | + | |
- | + | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu | + | |
- | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | + | |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
- | ==== Struktura finančních prostředků - rok 2016: ==== | + | ==== Struktura finančních prostředků - rok 2020: ==== |
- | Položky Rok | + | ^ Položky |
- | Ostatní neinvestiční náklady 1 | + | | Ostatní neinvestiční náklady |
- | Cestovné 50 | + | | Pobytové náklady |
- | Doplňkové náklady 28 | + | | Doplňkové náklady |
- | Osobní náklady (mzdy) a stipendia 139 | + | | Osobní náklady (mzdy) a stipendia |
- | Celkem 218 | + | | Celkem |
- | Žádám o půlku míň na cestovné protože jsem část roku na stáži | + | Částky |
- | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou | + | Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné z následujících konferencí: |
- | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku | + | Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle, |
+ | USA | ||
+ | - konferenční poplatek: 12 000 Kč | ||
+ | - cesta: 28 000 Kč | ||
+ | - stravné: 8 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 60 000 Kč | ||
+ | Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko | ||
+ | - konferenční poplatek: 8 000 Kč | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 5 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 18 000 Kč | ||
+ | Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana, | ||
+ | Dominikánská republika | ||
+ | - konferenční poplatek: 11 000 Kč | ||
+ | - cesta: 22 000 Kč | ||
+ | - stravné: 4 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 32 000 Kč | ||
+ | International Conference on Natural Language Generation | ||
+ | Dublin, Irsko | ||
+ | - konferenční poplatek: 6 000 Kč | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 3 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 17 000 Kč | ||
+ | Náklady | ||
+ | Ostatní neinvestiční náklady budou použity na nákup odborné literatury | ||
+ | (kancelářských potřeb, tonerů, apod.). | ||
- | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
- | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | ||
- | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | ||
- | - ITAT/ | ||
- | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | |||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.// | ||
- | |||
- | ==== Struktura finančních prostředků - rok 2015: ==== | ||
- | Položky Rok 2015 | ||
- | Ostatní neinvestiční náklady 1 | ||
- | Cestovné 100 | ||
- | Doplňkové náklady (počítá se automaticky) (28) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
- | Celkem (počítá se automaticky) (219) | ||
- | |||
- | //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | ||
- | * ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky | ||
- | * EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená na použití empirických metod v počítačové lingvistice | ||
- | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy | ||
- | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
- | Dle okolností (přijetí/ | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | |||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
- | |||
- | |||
- | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady < | ||
- | Cestovné 90 | ||
- | Doplňkové náklady (počítá se automaticky) (27) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
- | Celkem (počítá se automaticky) (212) | ||
- | |||
- | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
- | |||
- | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje | ||
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky | ||
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy | ||
- | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
==== Finanční výhled na další roky ==== | ==== Finanční výhled na další roky ==== | ||
- | Rok 2015: 250 | + | | Rok 2015 | 180 | |
- | Rok 2016: 250 | + | | Rok 2016 | 180 | |
- | ===== Závěrečná zpráva projektu ===== | + | ==== Anotace |
- | ==== Zpráva o řešení | + | Kvalita výstupu systémů pro generování přirozeného jazyka založených na neuronových sítích závisí na |
- | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků | + | množství dostupných trénovacích dat pro konkrétní doménu. Současná |
- | Martin se dále podílel zejména | + | omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace |
+ | delexikalizace, | ||
+ | generování přirozeného jazyka schopný generovat srozumitelný text i v doménách, pro které neexistuje | ||
+ | dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích | ||
+ | vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat | ||
+ | doméně, a technice selekce dat, která umožní efektivní ladění modelu pro konkrétní doménu. Výstupy z | ||
+ | projektu zlepší praktickou využitelnost systémů pro generování přirozeného jazyka založených | ||
+ | sítích a pomohou lépe pochopit podstatu doménově nezávislých sémantických reprezentací. Projekt se také | ||
+ | bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů | ||
+ | jazyka pro zvýšení efektivity dalšího výzkumu v této oblasti. | ||
- | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
- | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
- | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
- | ==== Splnění cílů projektu ==== | + | ==== Anotace |
- | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | + | The performance of neural natural language generation |
- | + | in-domain training | |
- | Druhým a hlavním cílem projektu bylo dosažení světové úrovně | + | domains or complex input representations and use a rather crude technique |
- | + | will aim to develop | |
- | ==== Závěrečná zpráva | + | domain training data. The model will use domain-independent semantic representations learned from large |
- | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | + | amounts |
- | + | domain | |
- | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University | + | practice and help current understanding |
- | + | also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG | |
- | ==== Komentář k vyčerpaným financím ==== | + | research. |
- | // | + | |
- | + | ||
- | ==== Seznam dosažených výsledků ==== | + | |
- | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | + | |
- | + | ||
- | ===== Výroční zpráva za 2015 ===== | + | |
- | ==== Zpráva o řešení za minulý rok ==== | + | |
- | // | + | |
- | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | + | |
- | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | + | |
- | + | ||
- | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | + | |
- | + | ||
- | ==== Výhled pro další rok ==== | + | |
- | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | + | |
- | + | ||
- | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | + | |
- | + | ||
- | ==== Komentář k vyčerpaným financím ==== | + | |
- | // | + | |
- | + | ||
- | ==== Seznam dosažených výsledků ==== | + | |
- | Následující text je můj komentář, není součástí Zprávy. | + | |
- | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | + | |
- | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | + | |
- | + | ||
- | ===== Výroční zpráva za 2014 ===== | + | |
- | ==== Zpráva o řešení za minulý rok ==== | + | |
- | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | + | |
- | Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.// | + | |
- | + | ||
- | ==== Výhled pro další rok ==== | + | |
- | //V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT. | + | |
- | Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.// | + | |
- | + | ||
- | ==== Komentář k vyčerpaným financím ==== | + | |
- | //V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, | + | |
- | Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University | + | |
- | + | ||
- | ===== Rozšiřující informace ===== | + | |
- | + | ||
- | ==== Anotace (max 200 slov): ==== | + | |
- | // | + | |
- | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků | + | |
- | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | + | |
- | Druhým typem úloh bude přenositelnost jednojazyčných technologií, | + | |
- | + | ||
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | + | |
- | // | + | |
- | + | ||
- | ==== Anotace v anglickém jazyce (max 200 slov): ==== | + | |
- | + | ||
- | // | + | |
- | In this grant project, we will explore mutual similarities | + | |
- | The first task type will be cross-lingual projection technologies, | + | |
- | The second task type will focus on portability | + | |
- | + | ||
- | Although there exist vast language resources for a number of languages, | + | |
- | // | + | |
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové | ||
+ | lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných | ||
+ | dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským | ||
+ | uživatelům, | ||
+ | Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče | ||
+ | (Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi | ||
+ | počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního | ||
+ | zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování | ||
+ | přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech | ||
+ | (Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu, | ||
+ | stylem výstupu i použitými metodami. | ||
- | // | + | Generování přirozeného |
- | Syntaktická analýza | + | každý dílčí úkol), všechny naráz |
- | + | extrémy | |
- | Jedním | + | jeho základní strukturu, a problém „jak |
- | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. | + | výrazů do smysluplného sdělení (Gatt & Krahmer, 2018). |
- | + | ||
- | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT | + | |
- | + | ||
- | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks | + | |
- | // | + | |
- | + | ||
- | Zdroje: | + | |
- | + | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | + | |
- | + | ||
- | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. | + | |
- | + | ||
- | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation (LREC). 2006. | + | |
- | + | ||
- | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. | + | |
- | + | ||
- | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | + | |
- | + | ||
- | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | + | |
- | + | ||
- | MARCUS, Mitchell P.; MARCINKIEWICZ, | + | |
- | + | ||
- | DE MARNEFFE, Marie-Catherine; | + | |
- | + | ||
- | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | + | |
- | + | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | + | |
- | + | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | + | |
- | + | ||
- | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | + | |
- | + | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | |
- | + | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | + | |
- | + | ||
- | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | + | |
- | + | ||
- | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | + | |
- | + | ||
- | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | + | |
- | + | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | |
- | + | ||
- | + | ||
- | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | + | |
- | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | + | |
- | + | ||
- | // | + | |
- | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman | + | |
- | + | ||
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, | + | |
- | + | ||
- | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. | + | |
- | + | ||
- | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | + | |
- | + | ||
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k syntaktickému překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. | + | |
- | + | ||
- | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující | + | |
- | // | + | |
- | + | ||
- | Zdroje: | + | |
- | + | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | + | |
- | + | ||
- | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | + | |
- | + | ||
- | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | + | |
- | + | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | |
- | + | ||
- | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009. | + | |
- | + | ||
- | VESELOVSKÁ, | + | |
- | + | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | |
- | + | ||
- | ŽABOKRTSKÝ, | + | |
- | + | ||
- | ==== Materiální zajištění projektu: ==== | + | |
- | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, | + | |
- | + | ||
- | ==== Cíle řešení projektu: ==== | + | |
- | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | + | |
- | + | ||
- | // | + | |
- | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | + | |
- | + | ||
- | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinutých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje | + | |
- | + | ||
- | Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti | + | |
- | + | ||
- | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | + | |
- | + | ||
- | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | + | |
- | Zároveň půjde o cenný zdroj i pro formální lingvisty, kterým umožní snadno zkoumat | + | Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon |
- | // | + | (template-based; |
+ | gramatikách a pravidlech (rule-based; | ||
+ | systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro | ||
+ | nasazení těchto systémů | ||
+ | neočekávaným vstupům a nedostatečná škálovatelnost na více jazyků nebo domén (Gatt & Krahmer, 2018). | ||
+ | Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány | ||
+ | učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu | ||
+ | sdělení (Duboue & McKeown, 2003). Současné přístupy ovšem umožňují generovat text pomocí systémů | ||
+ | postavených pouze na datech (např. Dušek & Jurčíček, 2015; Wen et al. 2016; Lampouras & Vlachos, 2016). Pro | ||
+ | tyto modely jsou využívány techniky strojového učení, které se osvědčily i v jiných oblastech zpracování | ||
+ | přirozeného jazyka (např. ve strojovém překladu, sumarizaci nebo klasifikaci textů) jako jsou rekurentní | ||
+ | neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter & | ||
+ | Schmidhuber, | ||
+ | používané v současných výzkumných systémech založené | ||
+ | (Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace, | ||
+ | která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i | ||
+ | pro neanotovaná data (neobsahující souvislosti mezi jednotlivými částmi vstupu a výstupu), která jsou snadněji | ||
+ | dostupná. | ||
- | (Původní verze zde: [[user: | + | Systémy postavené na strojovém učení mají výhodu škálovatelnosti a snadné rozšiřitelnosti bez nutnosti |
+ | ručních zásahů do architektury. V oblasti generování přirozeného jazyka ovšem tyto systémy nedosahují | ||
+ | takových výsledků, jako např. ve strojovém překladu, kde modely postavené na neuronových sítích během | ||
+ | několika posledních let zcela nahradily předchozí statistické modely | ||
+ | nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních | ||
+ | doménách (aplikačních oblastech). To značně snižuje přesnost výstupu systémů, omezuje jejich použitelnost | ||
+ | pouze na několik ukázkových datových sad a znemožňuje jejich nasazení v reálném světě v mnoha doménách s | ||
+ | praktickým (potenciálně i komerčním) využitím a v dialogových systémech pokrývajících současně velké | ||
+ | množství domén (Wen et al., 2016). | ||
- | ==== Způsob řešení: ==== | + | Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci je model natrénovaný na |
+ | doméně (resp. doménách), | ||
+ | (resp. doménách), | ||
+ | model generalizovat lingvistické reprezentace a vzory tak, aby byl schopný produkovat srozumitelné výstupy | ||
+ | nezávisle na aktuální doméně. | ||
- | // | + | V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného |
- | Východiskem | + | jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) |
+ | cílovou doménu, vytvořených | ||
+ | využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning | ||
+ | Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé | ||
+ | lingvistické vztahy vyskytující | ||
+ | adversariálního učení | ||
+ | využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat | ||
+ | reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě | ||
+ | sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení, | ||
+ | které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně | ||
+ | Výkon | ||
+ | např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací | ||
+ | vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále | ||
+ | omezují použitelnost | ||
+ | metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez | ||
+ | potřebné lingvistické variability. | ||
- | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit | + | Všechny zmíněné |
+ | vstupní položky nahrazeny zástupnými symboly odkazujícími | ||
+ | restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve | ||
+ | vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách, | ||
+ | není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s | ||
+ | morfologií | ||
- | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | ||
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť | + | ===== Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem ===== |
+ | Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem | ||
+ | Duškem – Natural Multi-domain Dialogue Systems | ||
+ | zejména na vývoj dialogových systémů, generování jazyka | ||
+ | generování odpovědí v dialogu; navrhovaný projekt | ||
- | Dalším z podúkolů | + | ===== Materiální zajištění |
+ | Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely | ||
+ | disponuje dostatečným hardwarovým | ||
+ | Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech | ||
- | V druhé fázi projektu | + | Trénovací data v projektu |
+ | dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu. | ||
- | V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které | + | ===== Cíle řešení projektu ===== |
+ | Hlavním cílem projektu | ||
+ | nezávisle | ||
+ | umožňují | ||
+ | doménách | ||
- | V úloze | + | Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba |
+ | programovat systém manuálně s pomocí experta | ||
+ | systémů), pomohou tak zvýšit přenositelnost a robustnost těchto systémů a zásadně snížit náklady | ||
+ | vývoj. Doménově nezávislé modely pro generování | ||
+ | současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z | ||
+ | libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu, | ||
+ | přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka. | ||
- | Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování | + | Vedlejším cílem |
- | // | + | který |
+ | vývoj systémů pro generování přirozeného | ||
+ | V teoretické rovině projekt | ||
+ | znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování | ||
+ | přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na | ||
+ | neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci. | ||
- | Zdroje: | + | ===== Způsob řešení ===== |
+ | Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu. | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. | + | Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na |
+ | doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství | ||
+ | neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných | ||
+ | kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin | ||
+ | 2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v | ||
+ | oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al. | ||
+ | 2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při | ||
+ | generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je | ||
+ | využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019) | ||
+ | tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi | ||
+ | malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi | ||
+ | omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace. | ||
- | DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework | + | Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp. |
+ | domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme | ||
+ | kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých | ||
+ | datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison | ||
+ | pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika | ||
+ | byla použita ve strojovém | ||
+ | prozkoumaný. | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530. | + | Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek & |
+ | Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data | ||
+ | poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími | ||
+ | modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto | ||
+ | datových sad. | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72. | + | Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et |
+ | al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002), | ||
+ | ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, 2007), a subjektivní metriky založených na lidském | ||
+ | hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo | ||
+ | Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní | ||
+ | vyhodnocení výstupu generování přirozeného jazyka, který bude lépe korelovat s lidským hodnocením. Tento | ||
+ | model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019). | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | ===== Prezentace výsledků ===== |
+ | Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky | ||
+ | práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru | ||
+ | počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, | ||
+ | interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na | ||
+ | webové stránce projektu. | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | + | Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí. |
- | + | Zveřejněna budou i všechna | |
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu |
+ | generování | ||
- | ==== Prezentace výsledků: ==== | + | Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu. |
- | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | + | |
- | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí | + | |
- | Průběžné výsledky budeme popisovat také v technických zprávách. | + | |
- | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | + | |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace {{: | + | * Ondřej Dušek – CV.pdf |
- | ZŽ CV {{: | + | * Zdeněk Kasner – CV.pdf |
- | ZŽ publikace | + | |
- | HM CV {{: | + | * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019) |
- | ===== Posudky ===== | ||
- | ==== Posudek 1. ==== | ||
- | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, | ||
- | ==== Posudek 2. ==== | + | ===== Celkové hodnocení projektu ===== |
- | Projekt | + | * Shrnutí zpravodaje: Mimořádně |
+ | doporučuji k financování. Oba dva oponenti shodně hodnotili projekt | ||
+ | nezávisle vyzvedli tytéž kvality řešitele | ||
+ | stránky projektu. Projekt má realistické cíle, metodiku | ||
+ | poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení | ||
+ | projektu. | ||
+ | * Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje: nadprůměrný | ||
+ | * Doporučení při novém podání: Podat znovu, jedná se o kvalitní projekt | ||
+ | * Celkové umístění projektu | ||
+ | * Doporučení zpravodaje: Doporučený | ||
+ | * Doporučení Oborové rady: Doporučený | ||
+ | * Závěrečné doporučení Grantové rady: Doporučený | ||
- | ==== Shrnutí zpravodaje k projektu ==== | ||
- | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
- | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
- | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
- | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
- | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |