Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/11 22:08] rosa |
user:rosa:gauk [2014/03/24 18:54] rosa +posudky |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== GAUK na HamleDT ====== | ====== GAUK na HamleDT ====== | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
+ | Co není kurzívou, to je moje poznámka. | ||
+ | |||
+ | GAUK podán 13.11.2013 {{: | ||
+ | GAUK přijatý k financování 24. 03. 2014 | ||
+ | |||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát vymyslí lepší název** | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Český název projektu: HamleDT | + | Anglický název projektu: Modelling dependency syntax across languages |
- | Anglický název projektu: HamleDT | + | |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 15: | Line 19: | ||
Sekce oborové rady: Společenské vědy - Informatika | Sekce oborové rady: Společenské vědy - Informatika | ||
Pracoviště ÚFAL MFF UK | Pracoviště ÚFAL MFF UK | ||
- | Historie stavu: | ||
- | 07. 11. 2013 - nový | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
- | **ty částky teď tady jsou maximální možný** | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 80 | + | Stipendia < |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
- | Osobní náklady (mzdy a odvody) 20 | + | Osobní náklady (mzdy a odvody) <del>20</ |
Bc. Jan Mašek | Bc. Jan Mašek | ||
- | Stipendia 40 | + | Stipendia <del>40</ |
- | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil** | ||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
+ | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
+ | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu |
+ | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady 10 | + | Ostatní neinvestiční náklady <del>10</ |
- | Cestovné 93 | + | Cestovné 90 |
- | Doplňkové náklady (počítá se automaticky) | + | Doplňkové náklady (počítá se automaticky) (27) |
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | + | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) |
- | Celkem (počítá se automaticky) | + | Celkem (počítá se automaticky) (212) |
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | //Za prostředky na ostatní neinvestiční náklady | + | //Za prostředky na ostatní neinvestiční náklady |
- | literatura, případně | + | |
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | |||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
+ | |||
+ | Neinvest náklady: | ||
+ | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
+ | Kancelářský potřeby se tam prej psát nemaj. | ||
+ | Literaturu nevim jestli nějakou chcem kupovat. | ||
+ | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal. | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 62: | Line 75: | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace: ==== | + | ==== Anotace |
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají. | + | V grantovém projektu budeme |
- | Za tím účelem | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka |
- | Bude navržena sada testů, které umožní nalézt nedostatky | + | Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje |
- | Důraz bude kladen | + | |
- | TODO | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné |
+ | // | ||
+ | |||
+ | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
+ | |||
+ | // | ||
+ | In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. | ||
+ | The first task type will be cross-lingual projection technologies, | ||
+ | The second task type will focus on portability of monolingual technologies, | ||
+ | |||
+ | Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, | ||
// | // | ||
- | < | ||
- | Přidání nových treebanků. | ||
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | ||
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | ||
- | ==== Anotace v anglickém jazyce: ==== | ||
- | //To se přeloží až to bude česky.// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión | + | |
+ | // | ||
+ | Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) | ||
+ | |||
+ | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze | ||
+ | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. | ||
+ | |||
+ | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT | ||
+ | |||
+ | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem | ||
+ | // | ||
+ | |||
+ | Zdroje: | ||
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference. 2004. | ||
+ | |||
+ | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation (LREC). 2006. | ||
+ | |||
+ | HAJIČ, Jan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117. | ||
+ | |||
+ | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
+ | |||
+ | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | ||
+ | |||
+ | MARCUS, Mitchell P.; MARCINKIEWICZ, | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
+ | |||
+ | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | ||
+ | |||
+ | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | ||
+ | |||
+ | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | ||
+ | |||
+ | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
+ | |||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
- | //Posuneme hranice poznání, | + | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) |
+ | |||
+ | // | ||
+ | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman et al. 2012). Výstupy této práce | ||
+ | |||
+ | Zejména díky svému velkému rozsahu, jakož | ||
+ | |||
+ | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. | ||
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | ||
+ | |||
+ | Poznatky získané | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | ||
+ | // | ||
+ | |||
+ | Zdroje: | ||
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | ||
+ | |||
+ | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009. | ||
+ | |||
+ | VESELOVSKÁ, | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
+ | |||
+ | ŽABOKRTSKÝ, | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
- | //V poho, ale mohli bysme asi koupit harddisk.// | + | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, ukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// |
==== Cíle řešení projektu: ==== | ==== Cíle řešení projektu: ==== | ||
- | //Vytvoření | + | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) |
+ | |||
+ | // | ||
+ | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | ||
+ | |||
+ | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové | ||
+ | |||
+ | Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | ||
+ | |||
+ | Zároveň půjde o cenný zdroj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. | ||
+ | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
- | //Budem testovat treebanky v HamleDT, | + | |
- | Na základě | + | // |
- | Což povede ke vzniku | + | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) |
- | Taky budeme experimentálně ověřovat přenositelnost | + | |
+ | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, | ||
+ | |||
+ | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | ||
+ | |||
+ | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008). | ||
+ | |||
+ | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky | ||
+ | |||
+ | V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka. | ||
+ | |||
+ | V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metod, které je možné využít, je tzv. delexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy. Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme -- zda budou zachycovat pouze slovní druhy slov, nebo i některé jejich morfologické rysy, apod. Tato úloha je užitečná pro analýzu jazyků, pro něž nejsou k dispozici dostatečné datové zdroje pro natrénování parseru standardním způsobem. | ||
+ | |||
+ | V úloze | ||
+ | |||
+ | Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie - výpočetní cluster, programovací model MapReduce, kódování Unicode, a podobně. | ||
+ | // | ||
+ | |||
+ | Zdroje: | ||
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
+ | |||
+ | MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. |
- | Grantovou agenturou Univerzity Karlovy.// | + | |
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace {{: | ||
+ | HM CV {{: | ||
+ | |||
+ | ===== Posudky ===== | ||
+ | ==== Posudek 1. ==== | ||
+ | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, má bohaté zkušenosti v oboru, o čemž svědčí jeho publikační výstupy. Lze tedy očekávat, že pod jeho vedením projekt přinese slibované výsledky. Za klad považuji i to, že se jedná o projekt, který přímo navazuje na dosavadní výzkum na ÚFAL - konkrétně se jedná o projekt HamleDT - , na němž se hlavní řešitel aktivně podílel (viz jeho CV a pubikační činnost; mimo jiné získal také ocenění UFAL best paper award 2012 – 2013). Předpokládané publikační výstupy - účast na nejvýznamnějších světových konferencích - odpovídají celkové intenci projektu. Finanční požadavky jsou přiměřené a účelné. | ||
+ | |||
+ | ==== Posudek 2. ==== | ||
+ | Projekt řeší velmi aktuální téma a klade si velmi ambiciózní cíle. Navazuje však na kvalitní existující práci, které se účastnili i odborně fundovaní členové řešitelského týmu, takže je splnitelný. Po formální stránce je návrh dobře a výstižné strukturován, | ||
+ | |||
+ | ==== Shrnutí zpravodaje k projektu ==== | ||
+ | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, |