Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/09 01:56] rosa |
user:rosa:gauk [2013/11/13 21:10] rosa |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== GAUK na HamleDT ====== | ====== GAUK na HamleDT ====== | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
+ | Co není kurzívou, to je moje poznámka. | ||
+ | |||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát vymyslí lepší název** | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Český název projektu: HamleDT | + | Anglický název projektu: Modelling dependency syntax across languages |
- | Anglický název projektu: HamleDT | + | |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 20: | Line 21: | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 80 | + | Stipendia 60 |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
Line 27: | Line 28: | ||
Bc. Jan Mašek | Bc. Jan Mašek | ||
Stipendia 40 | Stipendia 40 | ||
+ | |||
+ | |||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | //Mgr. Rudolf Rosa je super doktorand. | + | //Hlavní řešitel, |
+ | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Doc. Ing. Zdeněk Žabokrtský Ph.D. je super docent. | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
+ | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Bc. Jan Mašek je super magistrand.// | + | Spoluřešitel |
+ | Životopis spoluřešitele se nachází v příloze. [GAUK1040145]// | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 40 | + | Cestovné 90 |
- | Doplňkové náklady 28 | + | Doplňkové náklady (počítá se automaticky) |
- | Osobní náklady (mzdy) a stipendia 140 | + | Osobní náklady (mzdy) a stipendia (počítá se automaticky) |
- | Celkem 218 | + | Celkem (počítá se automaticky) |
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | //Koupíme si harddisk a kancelářské potřeby. | + | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. |
- | Pojedem na LREC a TLT a zkusíme ACL.// | + | Plánované konference a pobyty: |
+ | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování | ||
+ | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky | ||
+ | * TLT 2014 (poplatek 3500 Kč, ubytování | ||
+ | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
+ | |||
+ | Neinvest náklady: | ||
+ | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
+ | Kancelářský potřeby se tam prej psát nemaj. | ||
+ | Literaturu nevim jestli nějakou chcem kupovat. | ||
+ | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal. | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 54: | Line 74: | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace: ==== | + | ==== Anotace |
- | //Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. | + | // |
- | Přidání nových treebanků. | + | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, |
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. |
- | Zkoumání | + | Druhým typem úloh bude přenositelnost jednojazyčných |
- | ==== Anotace v anglickém jazyce: ==== | + | |
- | //To se přeloží | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně |
+ | // | ||
+ | |||
+ | ==== Anotace v anglickém jazyce | ||
+ | |||
+ | // | ||
+ | In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. | ||
+ | The first task type will be cross-lingual projection technologies, | ||
+ | The second task type will focus on monolingual technologies portability, | ||
+ | |||
+ | Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, | ||
+ | // | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión | + | |
+ | **TODO citace** | ||
+ | |||
+ | // | ||
+ | Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) | ||
+ | |||
+ | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze | ||
+ | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce, kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje CITE. Příbuzným odvětvím je neřízený parsing, kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti, | ||
+ | |||
+ | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT | ||
+ | |||
+ | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem | ||
+ | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
- | //Posuneme hranice poznání, | + | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) |
+ | **TODO citace** | ||
+ | |||
+ | // | ||
+ | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce | ||
+ | |||
+ | Zejména díky svému velkému rozsahu, jakož | ||
+ | |||
+ | Vytvořený | ||
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | ||
+ | |||
+ | Poznatky získané | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | ||
+ | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
- | //V poho, ale mohli bysme asi koupit harddisk.// | + | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, ukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// |
==== Cíle řešení projektu: ==== | ==== Cíle řešení projektu: ==== | ||
- | //Vytvoření | + | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) |
+ | |||
+ | // | ||
+ | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. | ||
+ | |||
+ | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové | ||
+ | |||
+ | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet | ||
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), | ||
+ | |||
+ | Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné. | ||
+ | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
- | //Budem testovat treebanky | + | |
- | Na základě toho budem opravovat chyby v konverzi (iterativní proces). | + | **Významně přepsat** |
- | Což povede ke vzniku | + | |
- | Taky budeme | + | // |
+ | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
+ | |||
+ | Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí | ||
+ | Vytvořené testy budou použity na existující sbírku treebanků | ||
+ | |||
+ | S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly | ||
+ | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT 1.0 jako zdroj obvykle používá data ze sad CoNLL, která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, | ||
+ | |||
+ | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - půjde pravděpodobně zejména o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Dependencies. | ||
+ | Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů a anotačních schémat | ||
+ | |||
+ | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky | ||
+ | |||
+ | Vrcholem projektu pak bude jeho závěrečná část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno | ||
+ | // | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
- | //Posíláme to na LREC, pošleme to na TLT, zkusím to i na ACL. A možná to odprezentuju i na WDS.// | + | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. |
+ | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku | ||
+ | konferenci | ||
+ | Průběžné výsledky budeme popisovat také v technických zprávách. | ||
+ | Vytvořený software bude průběžně zveřejňován | ||
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | **ASI: | + | Moje CV a publikace |
+ | ZŽ CV {{: | ||
+ | ZŽ publikace | ||
+ | HM CV {{: |