Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 01:52] rosa |
user:rosa:gauk [2013/11/13 21:48] rosa |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
- | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát možná vymyslí lepší název?** | ||
Český název projektu: Modelování závislostní syntaxe napříč jazyky | Český název projektu: Modelování závislostní syntaxe napříč jazyky | ||
- | Anglický název projektu: Modelling | + | Anglický název projektu: Modelling dependency syntax across languages |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 36: | Line 34: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Už chybí jen doladit Honzu.** | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
Line 44: | Line 40: | ||
Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 54: | Line 50: | ||
Osobní náklady (mzdy) a stipendia (počítá se automaticky) | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
Celkem (počítá se automaticky) | Celkem (počítá se automaticky) | ||
- | |||
- | **90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...** | ||
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
Line 91: | Line 85: | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | **To se přeloží | + | // |
+ | In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. | ||
+ | The first task type will be cross-lingual projection technologies, | ||
+ | The second task type will focus on portability of monolingual technologies, | ||
- | //// | + | Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, |
+ | // | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | **Doplnit dle poznámek z meetingu, doladit, reference.** | + | **TODO citace** |
// | // | ||
- | Syntakticky anotované korpusy | + | Syntaktická analýza jazyka |
- | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým | + | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje |
- | Rozdíly nejen ve struktuře stromů (předložky, koordinace, složená slovesa) | + | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu |
- | Každé anotační schéma je nějak lingvisticky motivované, nicméně u každého anotačního | + | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského |
- | Krom toho se ví (snad?), že některý | + | |
- | Heterogenní treebanky představují překážku v mnoha oblastech | + | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci |
+ | // | ||
- | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. | + | MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building |
- | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | + | |
- | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. | + | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. |
- | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře | + | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. |
- | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afuny, jejichž definice trochu rozšířil, | + | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. |
- | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | + | |
- | HamleDT má mnoho problémů | + | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530. |
+ | |||
+ | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | ||
+ | |||
+ | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
+ | |||
+ | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
+ | |||
+ | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | ||
+ | |||
+ | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. | ||
+ | |||
+ | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. | ||
+ | |||
+ | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation (LREC). 2006. | ||
+ | |||
+ | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | ||
+ | |||
+ | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
+ | |||
+ | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | ||
+ | |||
+ | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
- | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
- | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
+ | **TODO citace** | ||
+ | |||
+ | // | ||
+ | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. | ||
+ | |||
+ | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, | ||
+ | |||
+ | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. | ||
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | ||
+ | |||
+ | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | ||
+ | // | ||
- | **Napsat znova** | ||
(Původní verze zde: [[user: | (Původní verze zde: [[user: | ||
Line 136: | Line 170: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | **Napsat znova** | + | // |
+ | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | ||
+ | |||
+ | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. | ||
+ | |||
+ | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. | ||
+ | // | ||
(Původní verze zde: [[user: | (Původní verze zde: [[user: | ||
Line 173: | Line 220: | ||
ZŽ CV {{: | ZŽ CV {{: | ||
ZŽ publikace {{: | ZŽ publikace {{: | ||
- | HM CV | + | HM CV {{: |