Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 19:11] rosa |
user:rosa:gauk [2013/11/13 01:07] rosa popis konf |
||
---|---|---|---|
Line 6: | Line 6: | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: HamleDT: Collection | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 61: | Line 61: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 81: | Line 81: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
- | **Tohle chce doladit, vlastně asi úplně napsat znova...** | + | // |
+ | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe. | ||
+ | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | ||
+ | Druhým typem úloh bude přenositelnost jednojazyčných technologií, | ||
+ | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | ||
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, | ||
- | Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0, která bude vylepšením a rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu. | ||
- | Bude navržena sada testů, které umožní nalézt nedostatky v existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že), a bude navržena jazykově univerzální sada značek pro závislostní vztahy. | ||
- | Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů. | ||
- | // | ||
- | |||
- | |||
- | Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. | ||
- | Přidání nových treebanků. | ||
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | ||
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
Line 101: | Line 94: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
// | // | ||
- | Treebanky | + | Syntakticky anotované korpusy (treebanky) |
Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | ||
Line 130: | Line 123: | ||
// | // | ||
- | Tento projekt navazuje na dlouhou a úspěšnou tradici | + | Tento projekt navazuje na dlouhou a úspěšnou tradici |
Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. | Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. | ||
Line 138: | Line 131: | ||
Srovnávací lingvistika, | Srovnávací lingvistika, | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti | + | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti |
// | // | ||
Line 181: | Line 174: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | Grantovou agenturou Univerzity Karlovy.// | + | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. |
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
Moje CV a publikace ([[http:// | Moje CV a publikace ([[http:// | ||
ZŽ CV, ZŽ publikace, HM CV. | ZŽ CV, ZŽ publikace, HM CV. |