This is an old revision of the document!
Table of Contents
GAUK na HamleDT
Co je kurzívou, to je obsah velkého textového pole – obvykle je požadavek na min. 50 znaků.
Základní informace o projektu č. 1572314
Tady se akorát možná vymyslí lepší název?
Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků
Anglický název projektu: HamleDT: Collection of harmonized dependency treebanks for many languages
Aktuální řešitel: Mgr. Rudolf Rosa
První žadatel: Rudolf Rosa
Studium: Matematicko-fyzikální fakulta
Program: Informatika
Obor: Matematická lingvistika
Typ studia: doktorské studium
Rok založení projektu: 2014
Délka řešení projektu: 3
Sekce oborové rady: Společenské vědy - Informatika
Pracoviště ÚFAL MFF UK
Historie stavu:
07. 11. 2013 - nový
Řešitelský kolektiv
Mgr. Rudolf Rosa
Stipendia 60
doc. Ing. Zdeněk Žabokrtský Ph.D.
Osobní náklady (mzdy a odvody) 20
Bc. Jan Mašek
Stipendia 40
Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100.
Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo).
Charakteristika řešitelského kolektivu - rok 2014:
Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, jakou roli na projektu bude kdo mít… Nevim, jestli tam u sebe mam psát “bude dělat všechno” )
Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.
Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh a vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu.
Finanční požadavky
Položky Rok 2014
Ostatní neinvestiční náklady 10
Cestovné 93
Doplňkové náklady (počítá se automaticky)
Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Celkem (počítá se automaticky)
90k na cestování je asi celkem dost – není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší…
Struktura finančních prostředků - rok 2014:
Za prostředky na ostatní neinvestiční náklady bude pořízena odborná
literatura a nezbytně nutný hardware. Koupit harddisk třeba? Dá se i třeba notebook? Kancelářský potřeby se tam prej psát nemaj.
Plánované konference a pobyty:
* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč)
* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč)
* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)
Náklady na pobyty jsou určeny přibližně na základě minulých let.
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.
Finanční výhled na další roky
Rok 2015: 250
Rok 2016: 250
Rozšiřující informace
Anotace:
Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají.
Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0, která bude vylepšením a rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu.
Bude navržena sada testů, které umožní nalézt nedostatky v existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že), a bude navržena jazykově univerzální sada značek pro závislostní vztahy.
Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů.
TODO
<!–Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb.
Přidání nových treebanků.
Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace.
Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně “univerzální”. Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing. to až do způsobu řešení –>
Anotace v anglickém jazyce:
To se přeloží až to bude česky.
Současný stav poznání:
Teď je bžilión treebanků s různorodými anotačními schématy atd. Taky je HamleDT a Universal Dependency Treebanks, kdy HamleDT je dobrej ale má ty a ty problémy, a UDT je malej…
Přínos projektu k rozvoji fakulty / VŠ:
Posuneme hranice poznání, umožníme lepší nadhled při treebankingu, který tu má dlouhou tradici, stvoříme cenný datový zdroj pro multilinguální experimenty, např. pro unsupervised parsing… To už u nás lidi dělaj, tak to budou moct využít, a spousta dalších lidí by to pak mohla využít na spoustu dalších věcí…
Materiální zajištění projektu:
V poho, ale mohli bysme asi koupit harddisk.
Cíle řešení projektu:
Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů.
Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.
Způsob řešení:
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.
Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně.
Vytvořené testy budou použity na existující sbírku treebanků HamleDT 1.0, která se stane východiskem pro práci na tomto projektu.
S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně.
Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku – HamleDT 1.0 jako zdroj obvykle používá data ze sad CoNLL, která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku.
Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - půjde pravděpodobně zejména o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Dependencies.
Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů a anotačních schémat (CoNLL, Stanford Dependencies, Google Universal Dependency Treebanks), tak aby byly co nejpřístupnější pro koncové uživatele.
Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu.
Vrcholem projektu pak bude jeho závěrečná část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno například využitím kolekce pro vyhodnocování úspěšnosti neřízené závislostní analýzy vět, pro delexikalizovaný parsing, pro paralelní parsing, a podobně. Zároveň bude provedeno vyhodnocení různých anotačních schémat z pohledu vhodnosti pro trénování parserů.
Prezentace výsledků:
Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
Budeme také publikovat příspěvky na mezinárodních konferencích – plánujeme účast na
konferencích LREC, ACL, a/nebo TLT.
U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány
Grantovou agenturou Univerzity Karlovy.
Přílohy
Moje CV a publikace (http://cv.nikde.eu/rosa_rudolf_cv_cs.php),
ZŽ CV, ZŽ publikace, HM CV.