Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 23:47] rosa |
user:rosa:gauk [2015/01/06 17:06] ufal |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
- | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | + | |
+ | GAUK podán 13.11.2013 {{: | ||
+ | GAUK přijatý k financování 24. 03. 2014 | ||
+ | Číslo účtu: 207-10/ | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát možná vymyslí lepší název?** | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Český název projektu: Odhalování a vytěžování multilingválních similarit | + | Anglický název projektu: Modelling dependency syntax across languages |
- | Anglický název projektu: Discovery and exploitation of multilingual similarities | + | |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 18: | Line 20: | ||
Sekce oborové rady: Společenské vědy - Informatika | Sekce oborové rady: Společenské vědy - Informatika | ||
Pracoviště ÚFAL MFF UK | Pracoviště ÚFAL MFF UK | ||
- | Historie stavu: | ||
- | 07. 11. 2013 - nový | ||
- | ===== Řešitelský kolektiv ===== | + | ===== Řešitelský kolektiv |
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
Stipendia 60 | Stipendia 60 | ||
Line 28: | Line 28: | ||
Osobní náklady (mzdy a odvody) 20 | Osobní náklady (mzdy a odvody) 20 | ||
- | Bc. Jan Mašek | + | Mgr. Martin Popel |
Stipendia 40 | Stipendia 40 | ||
+ | |||
+ | ===== Řešitelský kolektiv 2014 ===== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Bc. Jan Mašek | ||
+ | Stipendia < | ||
Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | ||
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | + | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== |
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, jakou roli na projektu bude kdo mít... Nevim, jestli tam u sebe mam psát "bude dělat všechno" :-))** | + | // |
+ | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. [GAUK1051188] | ||
+ | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
+ | Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
+ | |||
+ | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, | ||
+ | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | ||
+ | |||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
- | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 90 | ||
- | Doplňkové náklady (počítá se automaticky) | ||
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
- | Celkem (počítá se automaticky) | ||
- | **90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude | + | ==== Struktura finančních prostředků - rok 2015: ==== |
+ | //Máme v plánu prezentovat výsledky výzkumu v rámci projektu GAUK na následujících konferencích: | ||
+ | * ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky | ||
+ | * EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená | ||
+ | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy | ||
+ | Náklady na pobyty jsou určeny | ||
+ | Dle okolností (přijetí/nepřijetí našich příspěvků na výše uvedené konference, případně získání dalšího finančního příspěvku z jiných zdrojů) zvážíme účast na jiných konferencích či letních školách -- např. TSD, LxMLS, apod. | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
+ | Položky Rok 2014 | ||
+ | Ostatní neinvestiční náklady < | ||
+ | Cestovné 90 | ||
+ | Doplňkové náklady (počítá se automaticky) (27) | ||
+ | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
+ | Celkem (počítá se automaticky) (212) | ||
+ | |||
//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | |||
- | Neinvest náklady: | ||
- | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
- | Kancelářský potřeby se tam prej psát nemaj. | ||
- | Literaturu nevim jestli nějakou chcem kupovat. | ||
- | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal. | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 81: | Line 107: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
+ | // | ||
+ | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, | ||
+ | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | ||
+ | Druhým typem úloh bude přenositelnost jednojazyčných technologií, | ||
+ | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | ||
// | // | ||
- | V grantovém projektu budeme zkoumat vzájemné similarity přirozených jazyků, a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, | ||
- | Prvním typem úloh budou technologie crosslingvální projekce, kdy schopnost zpracovávat jeden jazyk využijeme pro zpracování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | ||
- | Druhým typem bude přenositelnost monolingválních technologií, | ||
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, | + | ==== Anotace |
// | // | ||
+ | In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. | ||
+ | The first task type will be cross-lingual projection technologies, | ||
+ | The second task type will focus on portability of monolingual technologies, | ||
+ | Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, | ||
+ | // | ||
+ | ==== Současný stav poznání: ==== | ||
- | Lidské jazyky jsou si navzájem více či méně podobné, a znalost jednoho | + | // |
+ | Syntaktická analýza | ||
+ | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, | ||
+ | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. | ||
- | ==== Anotace | + | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných |
- | //To se přeloží až to bude česky.// | + | |
- | ==== Současný stav poznání: ==== | + | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada deprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, |
// | // | ||
- | Treebanky se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
- | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | + | Zdroje: |
- | Rozdíly nejen ve struktuře stromů (předložky, | + | |
- | Každé anotační schéma je nějak lingvisticky motivované, nicméně u každého anotačního schématu je třeba vyřešit mnohé otázky, na které je těžké najít jednoznačnou odpověď na základě lingvistické motivace, a jde tedy v důsledku o rozhodnutí spíše technická než lingvistická. Existuje hypotéza, že mnoho rozdílů v anotačních schématech je ve skutečnosti spíše technického rázu, a opravdu dobře lingvisticky motivovaných rozdílů je poměrně málo. | + | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. |
- | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější. | + | |
- | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. | + | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. |
- | Snahy o sjednocení obvykle na několika málo treebancích | + | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation |
- | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | + | |
- | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. | + | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. |
- | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | + | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004. p. 478. |
- | Dependency | + | MAREČEK, David. Unsupervised |
- | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | + | |
+ | MARCUS, Mitchell P.; MARCINKIEWICZ, | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
+ | |||
+ | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods | ||
+ | |||
+ | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | ||
+ | |||
+ | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | ||
+ | |||
+ | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | ||
+ | |||
+ | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
- | HamleDT má mnoho problémů - chyby v konverzích, | ||
- | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
- | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | ||
// | // | ||
- | Tento projekt | + | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo |
- | Hlavním výstupem projektu bude kolekce | + | Zejména díky svému velkému rozsahu, jakož i existenci |
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka |
- | Srovnávací lingvistika, | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít |
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k syntaktickému překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. |
+ | |||
+ | Na experimenty samotné pak mohou navázat | ||
// | // | ||
+ | |||
+ | Zdroje: | ||
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | ||
+ | |||
+ | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009. | ||
+ | |||
+ | VESELOVSKÁ, | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
+ | |||
+ | ŽABOKRTSKÝ, | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 147: | Line 219: | ||
// | // | ||
- | 1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých | + | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. |
- | 2. Vytvoření velké kolekce existujících treebanků | + | |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné jazyky, doloženo experimenty na vytvořené datové sadě. | + | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových |
+ | |||
+ | Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vytvořit potřebná data, což je časově i finančně náročné. | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | ||
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky | + | Zároveň půjde o cenný zdroj i pro formální lingvisty, kterým umožní snadno |
- | Kolekce bude také cenná pro srovnávací výzkum jazyků, neboť umožní postihnout skutečné rozdíly mezi jazyky odstíněním rozdílů daných pouze různými anotačními styly různých datových zdrojů. Navíc umožní zkoumat různé jazyky | + | |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti či odlišnosti | + | |
// | // | ||
- | Původní | + | (Původní |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | |
- | Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem. | + | |
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
// | // | ||
- | Práce | + | Východiskem pro práci |
- | Základem práce na projektu bude navržení | + | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme |
- | Vytvořené testy budou použity na existující sbírku treebanků HamleDT 1.0, která se stane východiskem pro práci na tomto projektu. | + | |
- | S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. | + | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. |
- | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT | + | |
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - půjde pravděpodobně zejména | + | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například |
- | Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů | + | |
- | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT | + | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, |
- | Vrcholem | + | V druhé fázi projektu |
+ | |||
+ | V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které je možné využít, je tzv. delexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy. Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme -- zda budou zachycovat pouze slovní druhy slov, nebo i některé jejich morfologické rysy, apod. Tato úloha je užitečná pro analýzu jazyků, pro něž nejsou k dispozici dostatečné datové zdroje pro natrénování parseru standardním způsobem. | ||
+ | |||
+ | V úloze přenositelnosti jednojazyčných technologií se zejména pokusíme sestrojit závislostní parser, založený na některém z nejlepších současných parserů (např. Nivre et al. 2006, McDonald et al. 2005), který bude dosahovat vysoké úspěšnosti na všech jazycích s dostatečnými datovými zdroji, přičemž bude stačit jej natrénovat na treebanku tohoto jazyka, bez nutnosti jej navíc ručně ladit na daný jazyk. V současnosti používané parsery je totiž obvykle nutné | ||
+ | |||
+ | Práce na projektu | ||
// | // | ||
+ | |||
+ | Zdroje: | ||
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
+ | |||
+ | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | Plus se budem snažit o časopisy. | + | Vytvořený |
- | A taky budem publikovat | + | |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// |
- | Grantovou agenturou Univerzity Karlovy.// | + | |
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace {{: | ||
+ | HM CV {{: | ||
+ | |||
+ | ===== Posudky ===== | ||
+ | ==== Posudek 1. ==== | ||
+ | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, má bohaté zkušenosti v oboru, o čemž svědčí jeho publikační výstupy. Lze tedy očekávat, že pod jeho vedením projekt přinese slibované výsledky. Za klad považuji i to, že se jedná o projekt, který přímo navazuje na dosavadní výzkum na ÚFAL - konkrétně se jedná o projekt HamleDT - , na němž se hlavní řešitel aktivně podílel (viz jeho CV a pubikační činnost; mimo jiné získal také ocenění UFAL best paper award 2012 – 2013). Předpokládané publikační výstupy - účast na nejvýznamnějších světových konferencích - odpovídají celkové intenci projektu. Finanční požadavky jsou přiměřené a účelné. | ||
+ | |||
+ | ==== Posudek 2. ==== | ||
+ | Projekt řeší velmi aktuální téma a klade si velmi ambiciózní cíle. Navazuje však na kvalitní existující práci, které se účastnili i odborně fundovaní členové řešitelského týmu, takže je splnitelný. Po formální stránce je návrh dobře a výstižné strukturován, | ||
+ | |||
+ | ==== Shrnutí zpravodaje k projektu ==== | ||
+ | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, |