[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

GAUK na HamleDT

Co je kurzívou, to je obsah velkého textového pole – obvykle je požadavek na min. 50 znaků.

Základní informace o projektu č. 1572314

Tady se akorát vymyslí lepší název
Český název projektu: HamleDT
Anglický název projektu: HamleDT
Aktuální řešitel: Mgr. Rudolf Rosa
První žadatel: Rudolf Rosa
Studium: Matematicko-fyzikální fakulta
Program: Informatika
Obor: Matematická lingvistika
Typ studia: doktorské studium
Rok založení projektu: 2014
Délka řešení projektu: 3
Sekce oborové rady: Společenské vědy - Informatika
Pracoviště ÚFAL MFF UK
Historie stavu:
07. 11. 2013 - nový

Řešitelský kolektiv

ty částky teď tady jsou maximální možný
Mgr. Rudolf Rosa
Stipendia 80

doc. Ing. Zdeněk Žabokrtský Ph.D.
Osobní náklady (mzdy a odvody) 20

Bc. Jan Mašek
Stipendia 40

Charakteristika řešitelského kolektivu - rok 2014:

Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech a je spoluautorem článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.

Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.

Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce.

Finanční požadavky

Položky Rok 2014
Ostatní neinvestiční náklady 10
Cestovné 93
Doplňkové náklady (počítá se automaticky)
Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Celkem (počítá se automaticky)

Struktura finančních prostředků - rok 2014:

Za prostředky na ostatní neinvestiční náklady budou pořízeny kancelářské potřeby, odborná
literatura, případně nezbytně nutný hardware.
Plánované konference a pobyty:
* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč)
* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč)
* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)
Náklady na pobyty jsou určeny přibližně na základě minulých let.
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.

Finanční výhled na další roky

Rok 2015: 250
Rok 2016: 250

Rozšiřující informace

Anotace:

Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb.
Přidání nových treebanků.
Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace.
Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně “univerzální”. Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing.

Anotace v anglickém jazyce:

To se přeloží až to bude česky.

Současný stav poznání:

Teď je bžilión treebanků s různorodými anotačními schématy atd. Taky je HamleDT a Universal Dependency Treebanks, kdy HamleDT je dobrej ale má ty a ty problémy, a UDT je malej…

Přínos projektu k rozvoji fakulty / VŠ:

Posuneme hranice poznání, umožníme lepší nadhled při treebankingu, který tu má dlouhou tradici, stvoříme cenný datový zdroj pro multilinguální experimenty, např. pro unsupervised parsing…

Materiální zajištění projektu:

V poho, ale mohli bysme asi koupit harddisk.

Cíle řešení projektu:

Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů.

Způsob řešení:

Budem testovat treebanky v HamleDT, tím najdeme chyby v konverzi.
Na základě toho budem opravovat chyby v konverzi (iterativní proces).
Což povede ke vzniku HamleDT 2.5.
Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.

Prezentace výsledků:

Posíláme to na LREC, pošleme to na TLT, zkusím to i na ACL. A možná to odprezentuju i na WDS.

Přílohy

ASI: Moje CV, moje publikace, CV, publikace, HM CV.


[ Back to the navigation ] [ Back to the content ]