This is an old revision of the document!
Table of Contents
GAUK na HamleDT
Co je kurzívou, to je obsah velkého textového pole – obvykle je požadavek na min. 50 znaků.
Základní informace o projektu č. 1572314
Tady se akorát vymyslí lepší název
Český název projektu: HamleDT
Anglický název projektu: HamleDT
Aktuální řešitel: Mgr. Rudolf Rosa
První žadatel: Rudolf Rosa
Studium: Matematicko-fyzikální fakulta
Program: Informatika
Obor: Matematická lingvistika
Typ studia: doktorské studium
Rok založení projektu: 2014
Délka řešení projektu: 3
Sekce oborové rady: Společenské vědy - Informatika
Pracoviště ÚFAL MFF UK
Historie stavu:
07. 11. 2013 - nový
Řešitelský kolektiv
ty částky teď tady jsou maximální možný
Mgr. Rudolf Rosa
Stipendia 80
doc. Ing. Zdeněk Žabokrtský Ph.D.
Osobní náklady (mzdy a odvody) 20
Bc. Jan Mašek
Stipendia 40
Charakteristika řešitelského kolektivu - rok 2014:
Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech a je spoluautorem článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.
Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce.
Finanční požadavky
Položky Rok 2014
Ostatní neinvestiční náklady 10
Cestovné 93
Doplňkové náklady (počítá se automaticky)
Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Celkem (počítá se automaticky)
Struktura finančních prostředků - rok 2014:
Za prostředky na ostatní neinvestiční náklady budou pořízeny kancelářské potřeby, odborná
literatura, případně nezbytně nutný hardware. Koupit harddisk třeba? Dá se i třeba notebook?
Plánované konference a pobyty:
* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč)
* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč)
* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)
Náklady na pobyty jsou určeny přibližně na základě minulých let.
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.
Finanční výhled na další roky
Rok 2015: 250
Rok 2016: 250
Rozšiřující informace
Anotace:
Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají.
Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0, která bude vylepšením a rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu.
Bude navržena sada testů, které umožní nalézt nedostatky v existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že), a bude navržena jazykově univerzální sada značek pro závislostní vztahy.
Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů.
TODO
<!–Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb.
Přidání nových treebanků.
Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace.
Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně “univerzální”. Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing. to až do způsobu řešení –>
Anotace v anglickém jazyce:
To se přeloží až to bude česky.
Současný stav poznání:
Teď je bžilión treebanků s různorodými anotačními schématy atd. Taky je HamleDT a Universal Dependency Treebanks, kdy HamleDT je dobrej ale má ty a ty problémy, a UDT je malej…
Přínos projektu k rozvoji fakulty / VŠ:
Posuneme hranice poznání, umožníme lepší nadhled při treebankingu, který tu má dlouhou tradici, stvoříme cenný datový zdroj pro multilinguální experimenty, např. pro unsupervised parsing…
Materiální zajištění projektu:
V poho, ale mohli bysme asi koupit harddisk.
Cíle řešení projektu:
Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů.
Způsob řešení:
Budem testovat treebanky v HamleDT, tím najdeme chyby v konverzi.
Na základě toho budem opravovat chyby v konverzi (iterativní proces).
Což povede ke vzniku HamleDT 2.5.
Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.
Prezentace výsledků:
Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
Budeme také publikovat příspěvky na mezinárodních konferencích – plánujeme účast na
konferencích LREC, ACL, TLT.
U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány
Grantovou agenturou Univerzity Karlovy.
Přílohy
ASI: Moje CV, moje publikace, ZŽ CV, ZŽ publikace, HM CV.