Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:kasner:gauk [2021/10/25 12:22] kasner [Charakteristika řešitelského kolektivu - rok 2016:] |
user:kasner:gauk [2022/01/11 18:44] kasner [Finanční požadavky] |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Domain Adaptation for Natural Language Generation | + | {{ : |
- | //Žádost o GAUK pro téma mé disertační práce// | + | Žádost o GAUK pro téma mojí disertační práce, volně k využití jako inspirace při psaní vlastních žádostí. |
+ | |||
+ | Pokud máte nějaké dotazy, klidně mi [[https://ufal.mff.cuni.cz/ | ||
* GAUK podán 2.11.2019 | * GAUK podán 2.11.2019 | ||
* GAUK přijatý k financování 11. 03. 2020 | * GAUK přijatý k financování 11. 03. 2020 | ||
- | * | + | |
===== Základní informace o projektu č. 140320 ===== | ===== Základní informace o projektu č. 140320 ===== | ||
- | * Český název projektu: | ||
- | * Anglický název projektu: Domain Adaptation for Natural Language Generation | ||
- | * Aktuální řešitel: Ing. Zdeněk Kasner | ||
- | * První žadatel: Zdeněk Kasner | ||
- | * Studium: Matematicko-fyzikální fakulta | ||
- | * Program: Matematická lingvistika | ||
- | * Obor: Matematická lingvistika | ||
- | * Typ studia: doktorské studium | ||
- | * Rok založení projektu: 2020 | ||
- | * Délka řešení projektu: 3 | ||
- | * Sekce oborové rady: Společenské vědy - Informatika (INF) | ||
- | * Pracoviště Ústav formální a aplikované lingvistiky | ||
- | ===== Řešitelský kolektiv ===== | ||
- | ==== Charakteristika | + | | Český název projektu | Doménová adaptace pro generování přirozeného jazyka | |
- | Ing. Zdeněk Kasner | + | | Anglický název projektu | Domain Adaptation for Natural Language Generation | |
- | Stipendia 70/70 | + | | Aktuální |
+ | | První žadatel |Zdeněk Kasner | | ||
+ | | Studium | Matematicko-fyzikální fakulta | | ||
+ | | Program |Matematická lingvistika | | ||
+ | | Obor |Matematická lingvistika | | ||
+ | | Typ studia |doktorské studium | | ||
+ | | Rok založení projektu |2020 | | ||
+ | | Délka řešení projektu | 3 | | ||
+ | | Sekce oborové rady | Společenské vědy - Informatika (INF) | | ||
+ | | Pracoviště | ||
- | Mgr. et Mgr. Ondřej Dušek Ph.D. | + | ===== Řešitelský kolektiv |
- | Osobní náklady (mzdy a odvody) 20/10 | + | |
- | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | + | |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | + | ||
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | |
- | Osobní náklady (mzdy a odvody) < | + | |
- | + | ||
- | Mgr. Martin Popel | + | |
- | Stipendia < | + | |
- | + | ||
- | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | + | |
- | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | + | |
- | + | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | |
- | Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | + | |
- | + | ||
- | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, | + | |
- | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | + | |
- | + | ||
- | + | ||
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | + | |
- | Mgr. Rudolf Rosa | + | |
- | Stipendia < | + | |
- | + | ||
- | doc. Ing. Zdeněk Žabokrtský Ph.D. | + | |
- | Osobní náklady (mzdy a odvody) < | + | |
- | + | ||
- | Bc. Jan Mašek | + | |
- | Stipendia < | + | |
- | + | ||
- | + | ||
- | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | + | |
- | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | + | |
- | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | + | |
- | // | + | ==== Charakteristika |
- | Životopis | + | | Ing. Zdeněk Kasner | Stipendia | 70/70 | |
+ | | Mgr. et Mgr. Ondřej Dušek Ph.D. | Osobní náklady (mzdy a odvody) | 20/10 | | ||
- | Školitel doc. Ing. Zdeněk | + | Řešitel |
- | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | + | Ústavu formální a aplikované lingvistiky |
+ | magisterského programu Umělá inteligence na Fakultě elektrotechnické ČVUT. V rámci své diplomové práce na | ||
+ | téma “Použití jazykových modelů v neautoregresivním neuronovém strojovém | ||
+ | Jindřichem Helclem z ÚFAL, | ||
+ | pro svou disertační práci, a získal zkušenosti s neuronovými modely | ||
+ | Výstupem diplomové práce je i článek, který bude zaslán na mezinárodní konferenci ACL 2020. Téma | ||
+ | disertační práce | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace | + | Vedoucí Mgr. et Mgr. Ondřej Dušek, Ph.D. získal doktorský titul v roce 2017 disertační prací zaměřenou na |
- | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | + | generování přirozeného jazyka. Mezi lety 2016 - 2018 působil jako vědecký pracovník v Interaction Lab na |
+ | Heriot-Watt University v Edinburghu, jedné z předních skupin zaměřených | ||
+ | interakce s počítači | ||
+ | dialogových systémů Amazon Alexa Prize, který | ||
+ | vědeckým pracovníkem na ÚFAL MFF UK v rámci | ||
+ | výzkum dialogových systémů | ||
+ | přirozeného jazyka v kontextu dialogových systémů a evaluací automaticky vygenerovaného textu. | ||
+ | Spolupořádal velmi úspěšnou soutěž v generování jazyka E2E NLG Challenge (17 účastníků z 11 zemí). Je | ||
+ | spoluautorem více než 30 publikací na mezinárodních konferencích a v odborných časopisech. V rámci | ||
+ | projektu bude hlavnímu | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
+ | ^ Položky ^ Rok 2020 ^ Rok 2021 ^ Rok 2022 ^ | ||
+ | | Ostatní neinvestiční náklady | ||
+ | | Pobytové náklady | ||
+ | | Doplňkové náklady | ||
+ | | Osobní náklady (mzdy) a stipendia | ||
+ | | Celkem | 178/166 | 150/141 | 162 | | ||
- | ==== Struktura finančních prostředků - rok 2016: ==== | + | ==== Struktura finančních prostředků - rok 2021 ==== |
- | Položky Rok 2016 | + | Částky na osobní |
- | Ostatní neinvestiční | + | |
- | Cestovné 50 | + | |
- | Doplňkové náklady 28 | + | |
- | Osobní náklady (mzdy) | + | |
- | Celkem 218 | + | |
- | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu | + | Pobytové náklady by měly umožnit účast a prezentování výsledků na jedné |
- | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | + | |
- | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | + | |
- | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí | + | Empirical Methods in Natural Language Processing |
- | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | + | - konferenční poplatek: 11 000 Kč |
- | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | + | - cesta: 25 000 Kč |
- | - ITAT/ | + | - stravné: 5 000 Kč |
- | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | + | - ubytování: |
+ | → celkem: 48 000 Kč | ||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | + | International Conference on Natural Language Generation (INLG): září 2021 (4 dny) / Aberdeen, Velká Británie |
+ | konferenční poplatek: 7 000 Kč | ||
+ | - cesta: 5 000 Kč | ||
+ | - stravné: 4 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 21 000 Kč | ||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje | + | Obě konference se budou konat v druhé polovině tohoto roku, je tedy potřeba počítat s tím, že se mohou konat osobně. Podle aktuálních informací je tato varianta preferována, |
- | ==== Struktura finančních prostředků - rok 2015: ==== | + | Ostatní neinvestiční náklady |
- | Položky Rok 2015 | + | |
- | Ostatní neinvestiční náklady 1 | + | |
- | Cestovné 100 | + | |
- | Doplňkové náklady (počítá se automaticky) (28) | + | |
- | Osobní náklady (mzdy) | + | |
- | Celkem (počítá se automaticky) (219) | + | |
- | // | + | ==== Struktura finančních prostředků - rok 2020: ==== |
- | * ACL 2015, Peking (poplatek | + | Částky na osobní náklady a stipendia jsou navrženy |
- | * EMNLP 2015, Lisabon (poplatek | + | Pobytové náklady by měly umožnit účast a prezentování výsledků |
- | * TLT 2015, Varšava (poplatek | + | Annual Conference of the Association for Computational Linguistics (ACL) : 5.-10. červenec 2020 / Seattle, |
- | Náklady na pobyty | + | USA |
- | Dle okolností (přijetí/ | + | - konferenční |
+ | - cesta: 28 000 Kč | ||
+ | - stravné: 8 000 Kč | ||
+ | - ubytování: 12 000 Kč | ||
+ | → celkem: 60 000 Kč | ||
+ | Conference on Computational Linguistics (COLING): 13.-18. září 2020 / Barcelona, Španělsko | ||
+ | - konferenční poplatek: 8 000 Kč | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 5 000 Kč | ||
+ | - ubytování: | ||
+ | → celkem: 18 000 Kč | ||
+ | Empirical Methods in Natural Language Processing (EMNLP): 8.-12. listopad 2020 / Punta Cana, | ||
+ | Dominikánská republika | ||
+ | - konferenční | ||
+ | - cesta: 22 000 Kč | ||
+ | - stravné: 4 000 Kč | ||
+ | - ubytování: 5 000 Kč | ||
+ | → celkem: 32 000 Kč | ||
+ | International Conference on Natural Language Generation (INLG): (4 dny, datum prozatím neurčeno) 2020 / | ||
+ | Dublin, Irsko | ||
+ | - konferenční | ||
+ | - cesta: 4 000 Kč | ||
+ | - stravné: 3 000 Kč | ||
+ | - ubytování: 4 000 Kč | ||
+ | → celkem: 17 000 Kč | ||
+ | Náklady na konference | ||
+ | Ostatní neinvestiční náklady budou použity | ||
+ | (kancelářských potřeb, tonerů, apod.). | ||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
- | |||
- | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
- | |||
- | |||
- | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady < | ||
- | Cestovné 90 | ||
- | Doplňkové náklady (počítá se automaticky) (27) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
- | Celkem (počítá se automaticky) (212) | ||
- | |||
- | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
- | |||
- | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje | ||
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky | ||
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy | ||
- | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
- | |||
- | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
==== Finanční výhled na další roky ==== | ==== Finanční výhled na další roky ==== | ||
- | Rok 2015: 250 | + | | **Rok 2021** | 180 | |
- | Rok 2016: 250 | + | | **Rok 2022** | 180 | |
- | ===== Závěrečná zpráva projektu ===== | ||
- | ==== Zpráva o řešení za minulý rok ==== | ||
- | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | ||
- | Martin se dále podílel zejména na Udapi (http:// | ||
- | |||
- | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
- | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
- | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
- | |||
- | ==== Splnění cílů projektu ==== | ||
- | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | ||
- | |||
- | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | ||
- | |||
- | ==== Závěrečná zpráva ==== | ||
- | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | ||
- | |||
- | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | ||
- | |||
- | ==== Komentář k vyčerpaným financím ==== | ||
- | // | ||
- | |||
- | ==== Seznam dosažených výsledků ==== | ||
- | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | ||
- | |||
- | ===== Výroční zpráva za 2015 ===== | ||
- | ==== Zpráva o řešení za minulý rok ==== | ||
- | // | ||
- | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | ||
- | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | ||
- | |||
- | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | ||
- | |||
- | ==== Výhled pro další rok ==== | ||
- | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | ||
- | |||
- | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | ||
- | |||
- | ==== Komentář k vyčerpaným financím ==== | ||
- | // | ||
- | |||
- | ==== Seznam dosažených výsledků ==== | ||
- | Následující text je můj komentář, není součástí Zprávy. | ||
- | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | ||
- | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | ||
- | |||
- | ===== Výroční zpráva za 2014 ===== | ||
- | ==== Zpráva o řešení za minulý rok ==== | ||
- | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | ||
- | Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.// | ||
- | |||
- | ==== Výhled pro další rok ==== | ||
- | //V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT. | ||
- | Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.// | ||
- | |||
- | ==== Komentář k vyčerpaným financím ==== | ||
- | //V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, | ||
- | Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University of Edinburgh.// | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace | + | ==== Anotace ==== |
- | // | + | Kvalita výstupu systémů pro generování |
- | V grantovém projektu budeme zkoumat vzájemné podobnosti | + | množství dostupných trénovacích dat pro konkrétní doménu. Současná řešení pro doménovou adaptaci jsou |
- | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme | + | omezená – vyžadují velmi podobné domény nebo komplexní vstupní reprezentace a využívají techniku |
- | Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje a postupy vyvinuté pro práci | + | delexikalizace, která zanedbává detaily výstupu. Cílem projektu bude vyvinout neuronový |
- | + | generování | |
- | Přestože existují rozsáhlé jazykové zdroje | + | dostatek trénovacích dat. Model bude postaven na doménově nezávislých sémantických reprezentacích |
- | // | + | vytvořených z velkého množství neanotovaných dat, které zlepší jeho schopnost pracovat |
- | + | doméně, a technice selekce dat, která | |
- | ==== Anotace | + | projektu zlepší praktickou využitelnost systémů |
+ | sítích | ||
+ | bude zabývat možnostmi zlepšení automatického hodnocení výstupu systémů pro generování přirozeného | ||
+ | jazyka pro zvýšení efektivity dalšího výzkumu | ||
- | // | ||
- | In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. | ||
- | The first task type will be cross-lingual projection technologies, | ||
- | The second task type will focus on portability of monolingual technologies, | ||
- | Although there exist vast language resources for a number | + | ==== Anotace v anglickém jazyce ==== |
- | // | + | The performance |
+ | in-domain training data. Current solutions for domain adaptation | ||
+ | domains or complex input representations | ||
+ | will aim to develop a neural NLG model capable of generating comprehensible text in domains with lack of in- | ||
+ | domain training data. The model will use domain-independent semantic representations learned from large | ||
+ | amounts of unannotated data to improve implicit language understanding and selecting data matching the | ||
+ | domain for efficient fine-tuning. Outcomes from the project | ||
+ | practice | ||
+ | also explore ways of improving automatic evaluation of NLG system outputs for accelerating future NLG | ||
+ | research. | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | Generování přirozeného jazyka (Natural Language Generation) je odvětvím umělé inteligence a počítačové | ||
+ | lingvistiky. Zabývá se tvorbou systémů, které dokáží generovat srozumitelný text na základě strukturovaných | ||
+ | dat (Reiter & Dale, 2000). Výstup z těchto systémů je používán pro vysvětlení komplexních dat lidským | ||
+ | uživatelům, | ||
+ | Konkrétním příkladem může být reportování klinických údajů o novorozencích na jednotkách intenzivní péče | ||
+ | (Portet et al., 2009), tvorba novinových článků z údajů ze seismografů (Oremus, 2014), tvorba předpovědi | ||
+ | počasí na základě meteorologických dat (Belz, 2008) nebo prezentování firemních dat v podobě obchodního | ||
+ | zpravodajství (business intelligence reports; komerčně např. Arria NLG, Narrative Science). Generování | ||
+ | přirozeného jazyka je také základem formulace promluvy od systému k uživateli v dialogových systémech | ||
+ | (Walker et al., 2007). Systémy pro generování přirozeného jazyka se mohou značně lišit formátem vstupu, | ||
+ | stylem výstupu i použitými metodami. | ||
- | // | + | Generování přirozeného |
- | Syntaktická analýza | + | každý dílčí úkol), všechny naráz |
+ | extrémy (menší počet složitějších modulů). Dílčí úkoly zahrnují zejména problém „co říct“, tedy výběr obsahu | ||
+ | jeho základní strukturu, a problém „jak to říct“ – rozdělení do vět, výběr vhodných výrazů a kombinaci | ||
+ | výrazů do smysluplného sdělení (Gatt & Krahmer, 2018). | ||
- | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje | + | Až do nedávné doby byly systémy pro generování přirozeného jazyka založené především na vyplňování šablon |
- | Na významu také získává zaměření na jazyky, pro které | + | (template-based; |
+ | gramatikách a pravidlech (rule-based; | ||
+ | systémů je možnost kontrolovat výstup a přizpůsobovat ho zpětné vazbě, což jsou základní předpoklady pro | ||
+ | nasazení těchto systémů v praxi. Jejich problémem je ale vysoká náročnost vývoje, chybějící robustnost | ||
+ | neočekávaným vstupům a nedostatečná | ||
+ | Tyto přístupy začaly být s rostoucím výpočetním výkonem kombinovány se statistickými metodami | ||
+ | učením. Původně byly tyto techniky využívány pouze k řešení některého z dílčích úkolů, např. výběr obsahu | ||
+ | sdělení (Duboue & McKeown, 2003). Současné | ||
+ | postavených pouze na datech | ||
+ | tyto modely jsou využívány techniky strojového učení, které | ||
+ | přirozeného jazyka (např. ve strojovém | ||
+ | neuronové sítě (RNN; Rumelhart, 1988) vybavené tzv. long short-term memory (LSTM; Hochreiter & | ||
+ | Schmidhuber, | ||
+ | používané v současných výzkumných systémech založené na neuronových sítích, tzv. enkodér-dekodér | ||
+ | (Sutskever et al., 2014), jsou vstupní strukturovaná data pomocí enkodéru zakódovaná do vnitřní reprezentace, | ||
+ | která je následně dekódovaná dekodérem do výstupního textu v přirozeném jazyce. Tento postup je vhodný i | ||
+ | pro neanotovaná data (neobsahující souvislosti mezi jednotlivými | ||
+ | dostupná. | ||
- | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních | + | Systémy postavené na strojovém učení mají výhodu |
+ | ručních | ||
+ | takových výsledků, jako např. ve strojovém překladu, kde modely postavené | ||
+ | několika | ||
+ | nedostatek trénovacích dat (strukturovaných dat a odpovídajících srozumitelných textů) v mnoha konkrétních | ||
+ | doménách | ||
+ | pouze na několik ukázkových datových sad a znemožňuje | ||
+ | praktickým (potenciálně i komerčním) využitím | ||
+ | množství domén (Wen et al., 2016). | ||
- | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků | + | Tento problém může být řešen tzv. doménovou adaptací. Při doménové adaptaci |
- | // | + | doméně |
+ | (resp. doménách), pro kterou existuje trénovacích dat pouze omezené množství. Cílem této techniky | ||
+ | model generalizovat lingvistické reprezentace | ||
+ | nezávisle na aktuální doméně. | ||
- | Zdroje: | + | V nedávné době bylo navrženo několik přístupů pro doménovou adaptaci v oblasti generování přirozeného |
+ | jazyka. Wen et al. (2016) navrhují využití “podvržených” syntetických trénovacích dat (data counterfeiting) pro | ||
+ | cílovou doménu, vytvořených na základě podobností jednotlivých položek mezi doménami. Dethlefs (2017) | ||
+ | využívá data, která jsou poloautomaticky doplněna o sémantické reprezentace typu Abstract Meaning | ||
+ | Representation (AMR; Banarescu et al., 2013), na základě kterých je model schopný zachytit některé | ||
+ | lingvistické vztahy vyskytující se v původní i cílové doméně. Tran & Nguyen (2018) aplikují techniky | ||
+ | adversariálního učení (adversarial learning) s architekturou postavenou na variačních autoenkodérech, | ||
+ | využívá latentní proměnné pro zachycení mezidoménových reprezentací. Tseng et al. (2019) navrhují zakódovat | ||
+ | reprezentaci vstupu v podobě stromu napojeného na LSTM dekodér, který má uzly vytvořené na základě | ||
+ | sémantiky jednotlivých vstupních položek. Postup Mi et al. (2019) je pak založený na paradigmatu meta-učení, | ||
+ | které využívají pro simulaci ladění (fine-tuning) modelu na cílové doméně pomocí dat ze zdrojové domény. | ||
+ | Výkon všech zmíněných přístupů je zatím omezený. Jsou testovány na datech z velmi podobných domén, jako | ||
+ | např. popis technických parametrů televizí vs. technických parametrů notebooků nebo doporučení restaurací | ||
+ | vs. doporučení hotelů. Anotace spoléhající se na ruční doladění a znalostní databázi (jako např. AMR) dále | ||
+ | omezují použitelnost a robustnost modelu. Mi et al. (2019) ve své práci tvrdí, že částečné úspěchy předchozích | ||
+ | metod jsou postavené i na jednoduchosti datových sad, které umožňují generovat smysluplné texty bez | ||
+ | potřebné lingvistické variability. | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. | + | Všechny zmíněné přístupy se navíc spoléhají na delexikalizaci – postup, při kterém jsou ve výstupním textu |
+ | vstupní položky nahrazeny zástupnými symboly odkazujícími na tyto položky (tedy např. konkrétní název | ||
+ | restaurace je ve vstupních datech nahrazený odkazem “@restaurant-inform-name” a následně ve | ||
+ | vygenerovaném textu dosazen zpět). Tento postup usnadňuje trénování modelů na malých datových sadách, | ||
+ | není ovšem vhodný pro morfologicky bohatší jazyky (např. češtinu), ve kterých je potřeba pracovat i s | ||
+ | morfologií těchto delexikalizovaných slov (Dušek & Jurčíček, | ||
- | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. | ||
- | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation | + | ===== Vysvětlení návaznosti na jiné projekty řešené vedoucím nebo navrhovatelem ===== |
+ | Projekt se nekryje, ale tematicky souvisí s grantovým projektem, řešeným na ÚFAL vedoucím Ondřejem | ||
+ | Duškem – Natural Multi-domain Dialogue Systems | ||
+ | zejména na vývoj dialogových systémů, generování jazyka je jeho vedlejším cílem a jedná se zejména o | ||
+ | generování odpovědí v dialogu; navrhovaný projekt se soustředí na obecné generování textu z dat. | ||
- | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. | + | ===== Materiální zajištění projektu ===== |
+ | Práce s modely založenými na neuronových sítích je výpočetně velmi náročná úloha. ÚFAL pro tyto účely | ||
+ | disponuje dostatečným hardwarovým i softwarovým vybavením: výpočetní grid LRC (Linguistic Research | ||
+ | Cluster) na ÚFAL umožňuje výpočty na více než 1700 procesorových jádrech a 90 grafických kartách. | ||
- | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004. p. 478. | + | Trénovací data v projektu plánujeme získávat z volně dostupných zdrojů na webu. Většina potřebné literatury je |
+ | dostupná online nebo v knihovně MFF, menší počet potřebných svazků bude dokoupen z prostředků projektu. | ||
- | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | + | ===== Cíle řešení projektu ===== |
+ | Hlavním cílem projektu je vytvořit model, který je schopný generovat srozumitelný text ze strukturovaných dat | ||
+ | nezávisle na konkrétní doméně. Tento model bude založený současných technikách strojového učení, které | ||
+ | umožňují dostatečnou škálovatelnost, | ||
+ | doménách s nedostatkem vhodných trénovacích dat. | ||
- | MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building | + | Výsledky práce umožní využít generování přirozeného jazyka i v případech, kde je v současnosti potřeba |
+ | programovat systém manuálně s pomocí experta na konkrétní doménu (mj. většina současných komerčních | ||
+ | systémů), pomohou tak zvýšit přenositelnost | ||
+ | vývoj. Doménově nezávislé modely pro generování jazyka mohou zároveň i umožnit vznik aplikací, které v | ||
+ | současnosti pro nedostatek vhodných algoritmů v praxi neexistují, např. tvorba personalizovaných zpráv z | ||
+ | libovolných dat nebo popis rozsáhlých databází. Zdrojový kód a publikace, které vzniknou během projektu, | ||
+ | přispějí dalšímu rozvoji systémů pro generování přirozeného jazyka. | ||
- | DE MARNEFFE, Marie-Catherine; | + | Vedlejším cílem projektu je vytvořit model pro objektivní hodnocení výstupu generování přirozeného jazyka, |
+ | který bude lépe korelovat s lidským hodnocením než současné objektivní metriky, což může značně usnadnit | ||
+ | vývoj systémů pro generování přirozeného jazyka a zlepšit jejich vzájemnou porovnatelnost. | ||
+ | V teoretické rovině projekt přispěje k lepšímu pochopení doménově nezávislých distribuovaných reprezentací | ||
+ | znalostí, které jsou v současnosti jedním z hlavních pilířů rozvoje i v řadě dalších oblastí zpracování | ||
+ | přirozeného jazyka nebo počítačového vidění. Poznatky z projektu pomohou pochopit, jak modely postavené na | ||
+ | neuronových sítích reprezentují znalosti a jak je možné potřebné znalosti zachovat při doménové adaptaci. | ||
- | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | + | ===== Způsob řešení ===== |
+ | Řešení se bude opírat o dva hlavní koncepty, které budou postupně rozpracovávány během práce na projektu. | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530. | + | Prvním konceptem je vytvoření předtrénovaného modelu, který bude schopný pracovat s jazykem nezávisle na |
+ | doméně. Tento model bude založen na sémantických reprezentacích získaných učením z velkého množství | ||
+ | neanotovaných dat. Jednou možností je využití předtrénovaných vektorových reprezentací textu podmíněných | ||
+ | kontextem (contextualized embeddings) z modelů jako např. ELMo (Peters et al., 2018) a BERT (Devlin | ||
+ | 2018). Tyto modely v posledním roce umožnily značný rozvoj metod postavených na transfer-learningu v | ||
+ | oblasti zpracování přirozeného jazyka a zlepšení řady existujících výsledků (např. Liu et al., 2019; Sun et al. | ||
+ | 2019). Jejich robustnost a nezávislost na konkrétním jazyce může mimo jiné pomoci zbavit se delexikalizace při | ||
+ | generování jazyka a dosáhnout díky tomu přesnějších a jazykově vhodnějších výstupů. Druhou možností je | ||
+ | využití předtrénovaných jazykových modelů, jako je OpenAI GPT-2 (Radford et al., 2019). Chen et al. (2019) | ||
+ | tento jazykový model využívají jako základ pro generování jazyka z datové sady WikiBio a s použitím velmi | ||
+ | malého množství trénovacích dat dosahují kompetitivních výsledků; jejich cílová doména je však velmi | ||
+ | omezená. Vytvořený model může na tuto práci navázat a rozšířit možnosti její aplikace. | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods | + | Druhým konceptem je vytvoření metody pro efektivní ladění (fine-tuning) modelu pro konkrétní doménu (resp. |
+ | domény). Protože jsou cílem naší práce domény s nedostatečným množstvím trénovacích dat, vyzkoušíme | ||
+ | kromě ladění zmíněných modelů s již existujicími daty také vyhledávat data ve velkých, doménově nezávislých | ||
+ | datových sadách jako např. Gigaword (Parker et al., 2011) nebo OpenSubtitles (Lison and Tiedemann, 2016) | ||
+ | pomocí techniky pseudo-in-domain selekce dat (Moore and Lewis, 2010; Axelrod et al., 2011). Tato technika | ||
+ | byla použita ve strojovém | ||
+ | prozkoumaný. | ||
- | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | + | Pro trénování a testování modelu jsou k dispozici data vytvořená pro shared task E2E NLG Challenge (Dušek & |
+ | Jurčíček, 2019) a datové sady MultiWOZ (Budzianowski et al., 2018) a SFX (Wen et al., 2016). Tato data | ||
+ | poskytují dostatečnou doménovou i lingvistickou rozmanitost a zároveň umožňují srovnání s předchozími | ||
+ | modely. Domény s nedostatečným množstvím dat budeme simulovat pomocí omezených podmožin těchto | ||
+ | datových sad. | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | Protože neexistuje jednoznačný standard při vyhodnocení výstupu generování přirozeného jazyka (Novikova et |
+ | al., 2017), použijeme pro vyhodnocení kvality modelu objektivní metriky jako je BLEU (Papineni et al. 2002), | ||
+ | ROUGE (Lin, 2004) nebo METEOR (Lavie & Agarwal, | ||
+ | hodnocení získaných přes crowdsourcing platformu jako např. Amazon Mechanical Turk (mturk.com) nebo | ||
+ | Figure Eight (figure-eight.com). Projekt se zároveň bude zabývat vytvořením modelu pro objektivní | ||
+ | vyhodnocení výstupu generování | ||
+ | model bude vycházet z modelu postaveného na rekurentních neuronových sítích (Dušek et al., 2019). | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | + | ===== Prezentace výsledků ===== |
+ | Zadání projektu pokrývá značnou část obsahu disertační práce hlavního řešitele Zdeňka Kasnera. Výsledky | ||
+ | práce budou průběžně publikovány; cílem publikací budou nejvýznamější mezinárodní konference v oboru | ||
+ | počítačové lingvistiky a generování přirozeného jazyka (ACL, EMNLP, INLG). Práce bude prezentována na | ||
+ | interním semináři Ústavu formální a aplikované lingvistiky a výsledky práce budou průběžně zveřejňovány na | ||
+ | webové stránce projektu. | ||
- | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | + | Ke všem modelům vytvořených v rámci projektu bude zveřejněn zdrojový kód pod open-source licencí. |
+ | Zveřejněna budou i všechna data použitá při trénování a vyhodnocení modelů, což umožní srovnání | ||
+ | navazujícího výzkumu s touto prací. Společně se zdrojovým kódem budou data tvořit cenný zdroj pro komunitu | ||
+ | generování přirozeného jazyka. | ||
- | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | + | Na veškerých výstupech bude uvedeno poděkování Grantové agentuře UK za finanční podporu. |
- | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | ===== Přílohy ===== |
+ | * Ondřej Dušek – CV.pdf (životopis vedoucího) | ||
+ | * Zdeněk Kasner – CV.pdf (životopis řešitele) | ||
+ | * {{user:kasner: | ||
+ | * Ondřej Dušek – 10 nejdůležitějších publikací (2015-2019) | ||
- | ==== Přínos | + | ===== Hodnocení |
- | (Popis návaznosti projektu na další | + | ==== Zpráva o řešení za minulý rok ==== |
+ | V minulém roce jsme úspěšně rozpracovali a publikovali prvotní | ||
- | // | + | Pozornost jsme věnovali především technikám pro doménově nezávislé generování |
- | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT | + | |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | + | Předtrénované neuronové modely jsme dále aplikovali |
- | Vytvořený datový zdroj bude využitelný | + | Podařilo se rozpracovat |
- | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing | + | Veškeré výsledky práce jsme zároveň prezentovali |
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), | + | ==== Výhled pro další rok ==== |
+ | V první | ||
- | Na experimenty samotné pak mohou navázat další diplomové | + | Dále se plánujeme zabývat zlepšováním klasických modulů pro generování přirozeného jazyka pomocí moderních technik strojového učení s cílem zlepšit doménovou nezávislost technik, které se v současnosti používají pro generování jazyka v praxi. Kombinace jednotlivých modulů by měla měla zaručit kontrolovatelnější generování jazyka, než současné |
- | // | + | |
- | Zdroje: | + | V oblasti evaluace generování přirozeného jazyka pak plánujeme vytvořit systém pro vyhodnocování přesnosti vygenerovaných výstupů na složitějších datových sadách zahrnující netriviální výběr, agregaci a manipulaci s daty. |
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | + | ==== Seznam dosažených výsledků ==== |
- | + | //(přidáváno po položkách i s detaily)// | |
- | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | + | |
- | + | | |
- | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | + | * článek ve sborníku |
- | + | * článek ve sborníku | |
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | * ostatní |
- | + | ||
- | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009. | + | |
- | + | ||
- | VESELOVSKÁ, | + | |
- | + | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | |
- | + | ||
- | ŽABOKRTSKÝ, | + | |
- | + | ||
- | ==== Materiální zajištění projektu: ==== | + | |
- | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, | + | |
- | + | ||
- | ==== Cíle řešení projektu: | + | |
- | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | + | |
- | + | ||
- | // | + | |
- | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | + | |
- | + | ||
- | Dosažení snadné | + | |
- | + | ||
- | Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vytvořit potřebná data, což je časově i finančně náročné. | + | |
- | + | ||
- | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. | + | |
- | + | ||
- | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | + | |
- | + | ||
- | Zároveň půjde o cenný zdroj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. | + | |
- | // | + | |
- | + | ||
- | (Původní verze zde: [[user: | + | |
- | + | ||
- | ==== Způsob řešení: ==== | + | |
- | + | ||
- | // | + | |
- | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). | + | |
- | + | ||
- | Pro odhalení chyb a nepravidelností | + | |
- | + | ||
- | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku | + | |
- | + | ||
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují | + | |
- | + | ||
- | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | + | |
- | + | ||
- | V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka. | + | |
- | + | ||
- | V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které je možné využít, je tzv. delexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy. Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme -- zda budou zachycovat pouze slovní druhy slov, nebo i některé jejich morfologické rysy, apod. Tato úloha je užitečná pro analýzu jazyků, pro něž nejsou k dispozici dostatečné datové zdroje pro natrénování parseru standardním způsobem. | + | |
- | + | ||
- | V úloze přenositelnosti jednojazyčných technologií se zejména pokusíme sestrojit závislostní parser, založený na některém z nejlepších současných parserů (např. | + | |
- | + | ||
- | Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie | + | |
- | // | + | |
- | + | ||
- | Zdroje: | + | |
- | + | ||
- | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | + | |
- | + | ||
- | DE MARNEFFE, Marie-Catherine; | + | |
- | + | ||
- | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings | + | |
- | + | ||
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language | + | |
- | + | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | + | |
- | + | ||
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator | + | |
- | + | ||
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | |
- | + | ||
- | ==== Prezentace výsledků: ==== | + | |
- | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | + | |
- | Budeme publikovat příspěvky na mezinárodních konferencích | + | |
- | Průběžné výsledky budeme popisovat také v technických zprávách. | + | |
- | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | + | |
- | + | ||
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | + | |
- | + | ||
- | ===== Přílohy ===== | + | |
- | Moje CV a publikace {{: | + | |
- | ZŽ CV {{: | + | |
- | ZŽ publikace {{: | + | |
- | HM CV {{: | + | |
- | ===== Posudky ===== | + | ==== Komentář zpravodaje |
- | ==== Posudek 1. ==== | + | **Čerpání finančních prostředků:** Finance byly využity korektně. |
- | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, | + | **Komentář zpravodaje projektu:** Projekt |
+ | Pokud cestovní prostředky nebudou ve druhém a třetím roce využitelné vzhledem k cestovním omezením, doporučuji je jako nespotřebované vrátit. | ||
- | ==== Posudek 2. ==== | + | ===== Hodnocení projektu - 2020 ===== |
- | Projekt | + | * **Shrnutí zpravodaje: |
+ | doporučuji k financování. Oba dva oponenti shodně hodnotili projekt | ||
+ | nezávisle vyzvedli tytéž kvality řešitele | ||
+ | stránky projektu. Projekt má realistické cíle, metodiku | ||
+ | poznatky prezentovat. Skladba řešitelského kolektivu je adekvátní. Souhlasím i s výší odměn za zdárné vedení | ||
+ | projektu. | ||
+ | * **Celkové hodnocení projektu ve srovnání s ostatními projekty zpravodaje: | ||
+ | * **Doporučení při novém podání:** Podat znovu, jedná se o kvalitní projekt | ||
+ | * **Celkové umístění projektu | ||
+ | * **Doporučení zpravodaje: | ||
+ | * **Doporučení Oborové rady:** Doporučený | ||
+ | * **Závěrečné doporučení Grantové rady:** Doporučený | ||
- | ==== Shrnutí zpravodaje k projektu ==== | ||
- | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
- | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
- | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
- | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
- | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |