Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 03:24] rosa |
user:rosa:gauk [2013/11/13 01:36] rosa |
||
---|---|---|---|
Line 6: | Line 6: | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: HamleDT: Collection | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | + | **Už chybí jen doladit Honzu.** |
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh a vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh a vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. | ||
Line 50: | Line 50: | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 93 | + | Cestovné 90 |
Doplňkové náklady (počítá se automaticky) | Doplňkové náklady (počítá se automaticky) | ||
Osobní náklady (mzdy) a stipendia (počítá se automaticky) | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
Line 61: | Line 61: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 69: | Line 69: | ||
Neinvest náklady: | Neinvest náklady: | ||
- | Mam tam harddisky (viz materiální todleto). | + | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. |
Kancelářský potřeby se tam prej psát nemaj. | Kancelářský potřeby se tam prej psát nemaj. | ||
Literaturu nevim jestli nějakou chcem kupovat. | Literaturu nevim jestli nějakou chcem kupovat. | ||
Line 81: | Line 81: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
- | **Tohle chce doladit, vlastně asi úplně napsat znova...** | + | // |
+ | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe. | ||
+ | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | ||
+ | Druhým typem úloh bude přenositelnost jednojazyčných technologií, | ||
+ | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | ||
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, | ||
- | Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0, která bude vylepšením a rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu. | ||
- | Bude navržena sada testů, které umožní nalézt nedostatky v existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že), a bude navržena jazykově univerzální sada značek pro závislostní vztahy. | ||
- | Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů. | ||
- | // | ||
- | |||
- | |||
- | Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. | ||
- | Přidání nových treebanků. | ||
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | ||
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
Line 101: | Line 94: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
// | // | ||
- | Treebanky | + | Syntakticky anotované korpusy (treebanky) |
Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | ||
Line 130: | Line 123: | ||
// | // | ||
- | Tento projekt navazuje na dlouhou a úspěšnou tradici | + | Tento projekt navazuje na dlouhou a úspěšnou tradici |
Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. | Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. | ||
Line 138: | Line 131: | ||
Srovnávací lingvistika, | Srovnávací lingvistika, | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti | + | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti |
// | // | ||
Line 181: | Line 174: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | Grantovou agenturou Univerzity Karlovy.// | + | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. |
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV |