[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/12 19:23]
rosa
user:rosa:gauk [2013/11/13 01:33]
rosa
Line 6: Line 6:
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
 **Tady se akorát možná vymyslí lepší název?** **Tady se akorát možná vymyslí lepší název?**
-Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Anglický název projektu: HamleDT: Collection of harmonized dependency treebanks for many languages+Anglický název projektu: Modelling of dependency syntax across languages
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 61: Line 61:
  
 Plánované konference a pobyty: Plánované konference a pobyty:
-* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) +* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje 
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky 
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč)+* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy
 Náklady na pobyty jsou určeny přibližně na základě minulých let. Náklady na pobyty jsou určeny přibližně na základě minulých let.
  
Line 81: Line 81:
  
 ==== Anotace (max 200 slov): ==== ==== Anotace (max 200 slov): ====
-**Tohle chce doladitvlastně asi úplně napsat znova...**+// 
 +V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistikyřešících aktuální problémy zpracování jazyka na úrovni syntaxe. 
 +Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. 
 +Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje a postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme tak, aby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje.
  
 +Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, používají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů.
 // //
-Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají. 
-Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0, která bude vylepšením a rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu. 
-Bude navržena sada testů, které umožní nalézt nedostatky v existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že), a bude navržena jazykově univerzální sada značek pro závislostní vztahy. 
-Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů. 
-// 
- 
- 
-Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. 
-Přidání nových treebanků. 
-Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. 
-Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně "univerzální". Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing. 
  
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
Line 101: Line 94:
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
 // //
-Treebanky se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...+Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...
  
 Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující.
Line 130: Line 123:
  
 // //
-Tento projekt navazuje na dlouhou a úspěšnou tradici treebankingu na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové špičce v této oblasti. Zároveň ještě více zpřístupní treebanky vytvořené na ÚFALu (PDT, PEDT, PADT, TamilTB) dalším výzkumníkům.+Tento projekt navazuje na dlouhou a úspěšnou tradici vytváření syntakticky anotovaných korpusů (treebanků) na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové špičce v této oblasti. Zároveň ještě více zpřístupní treebanky vytvořené na ÚFALu (PDT, PEDT, PADT, TamilTB) dalším výzkumníkům.
  
 Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky.
Line 138: Line 131:
 Srovnávací lingvistika, porovnávající vlastnosti různých jazyků -- usnadnění převedením treebanků do jednotného formátu a anotačního schámatu, včetně existence řady nástrojů vyvíjených na ÚFALu, které je možné použít pro práci s vytvořenými daty. Srovnávací lingvistika, porovnávající vlastnosti různých jazyků -- usnadnění převedením treebanků do jednotného formátu a anotačního schámatu, včetně existence řady nástrojů vyvíjených na ÚFALu, které je možné použít pro práci s vytvořenými daty.
  
-Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět další výzkumníci v této oblasti na ÚFALu i v zahraničí.+Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti vytváření syntakticky anotovaných korpusů, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět další výzkumníci v této oblasti na ÚFALu i v zahraničí.
 // //
  
Line 181: Line 174:
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
 //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na 
-konferencích LREC, ACL, a/nebo TLT. +konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML
-Plus se budem snažit o časopisy+Průběžné výsledky budeme popisovat také v technických zprávách
-A taky budem publikovat software, kterej z toho vznikne, s otevřenejma licencema+Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. 
-U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány + 
-Grantovou agenturou Univerzity Karlovy.//+U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
  
 ===== Přílohy ===== ===== Přílohy =====
-Moje CV a publikace ([[http://cv.nikde.eu/rosa_rudolf_cv_cs.php]]), +Moje CV a publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}} 
-ZŽ CVZŽ publikaceHM CV.+ZŽ CV {{:user:rosa:cv-zz.pdf|}} 
 +ZŽ publikace {{:user:rosa:zz-pub.pdf|}} 
 +HM CV

[ Back to the navigation ] [ Back to the content ]