[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/12 03:23]
rosa
user:rosa:gauk [2013/11/13 00:15]
rosa Modelování závislostní syntaxe napříč jazyky
Line 6: Line 6:
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
 **Tady se akorát možná vymyslí lepší název?** **Tady se akorát možná vymyslí lepší název?**
-Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Anglický název projektu: HamleDT: Collection of harmonized dependency treebanks for many languages+Anglický název projektu: Modelling of dependency syntax across languages
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 50: Line 50:
 Položky Rok 2014 Položky Rok 2014
 Ostatní neinvestiční náklady 10 Ostatní neinvestiční náklady 10
-Cestovné 93+Cestovné 90
 Doplňkové náklady (počítá se automaticky) Doplňkové náklady (počítá se automaticky)
 Osobní náklady (mzdy) a stipendia (počítá se automaticky) Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Line 62: Line 62:
 Plánované konference a pobyty: Plánované konference a pobyty:
 * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč)
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč) +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) 
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)+* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč)
 Náklady na pobyty jsou určeny přibližně na základě minulých let. Náklady na pobyty jsou určeny přibližně na základě minulých let.
  
Line 69: Line 69:
  
 Neinvest náklady: Neinvest náklady:
-Mam tam harddisky (viz materiální todleto).+Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam.
 Kancelářský potřeby se tam prej psát nemaj. Kancelářský potřeby se tam prej psát nemaj.
 Literaturu nevim jestli nějakou chcem kupovat. Literaturu nevim jestli nějakou chcem kupovat.
Line 81: Line 81:
  
 ==== Anotace (max 200 slov): ==== ==== Anotace (max 200 slov): ====
-**Tohle chce doladit, vlastně asi úplně napsat znova...** 
- 
 // //
-Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazykyvčetně vlivu použitých formalismů na úspěšnost technologiíkteré je využivají+V grantovém projektu budeme zkoumat vzájemné similarity [podobnosti?irozených jazykůzískané poznatky využijeme pro dva typy úloh komputační lingvistikyřešících aktuální problémy zpracování jazyka. 
-Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0která bude vylepšením rozšířením projektu HamleDT 1.0, sdružujícím existující treebanky do jednotného formátu+Prvním typem úloh budou technologie crosslingvální [mezijazyčné?] projekcekdy schopnost zpracovávat jeden jazyk využijeme pro zpracování jazyka podobného, pro který nemáme dostatečné jazykové zdroje
-Bude navržena sada testů, které umožní nalézt nedostatky existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že)a bude navržena jazykově univerzální sada značek pro závislostní vztahy. +Druhým typem bude přenositelnost monolingválních [jednojazyčných?] technologiíkdy nástroje postupy vyvinuté pro práci s jedním jazykem adaptujeme pro práci s jinými jazyky
-Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů.+ 
 +Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogennípoužívají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických rozhodnutí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících jazykových zdrojů, zejména syntakticky anotovaných korpusů.
 // //
-<!--//Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. 
-Přidání nových treebanků. 
-Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. 
-Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně "univerzální". Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing.// to až do způsobu řešení --> 
  
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
Line 181: Line 176:
 Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na
 konferencích LREC, ACL, a/nebo TLT. konferencích LREC, ACL, a/nebo TLT.
 +Plus se budem snažit o časopisy.
 +A taky budem publikovat software, kterej z toho vznikne, s otevřenejma licencema.
 U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány
 Grantovou agenturou Univerzity Karlovy.// Grantovou agenturou Univerzity Karlovy.//

[ Back to the navigation ] [ Back to the content ]