[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 19:52]
rosa
user:rosa:gauk [2013/11/13 21:10]
rosa
Line 2: Line 2:
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 Co není kurzívou, to je moje poznámka. Co není kurzívou, to je moje poznámka.
-**Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** 
  
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
-**Tady se akorát možná vymyslí lepší název?** 
 Český název projektu: Modelování závislostní syntaxe napříč jazyky Český název projektu: Modelování závislostní syntaxe napříč jazyky
 Anglický název projektu: Modelling dependency syntax across languages Anglický název projektu: Modelling dependency syntax across languages
Line 52: Line 50:
 Osobní náklady (mzdy) a stipendia (počítá se automaticky) Osobní náklady (mzdy) a stipendia (počítá se automaticky)
 Celkem (počítá se automaticky) Celkem (počítá se automaticky)
- 
-**90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...** 
  
 ==== Struktura finančních prostředků - rok 2014: ==== ==== Struktura finančních prostředků - rok 2014: ====
Line 89: Line 85:
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
  
-**To se přeloží až to bude česky.**+// 
 +In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. 
 +The first task type will be cross-lingual projection technologies, where a model of one language will be used to approximately model a similar language for which sufficient language resources are not available. 
 +The second task type will focus on portability of monolingual technologies, where tools and procedures developed for working with one or few languages will be generalized so that they can be used to process any or nearly any language for which the corresponding data are available.
  
-////+Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, are using different annotation schemes and are built on the basis of different linguistic traditions and conventions. A necessary by-step in reaching the main goals of the project is therefore an assembly and harmonization of existing syntactically annotated language corpora. 
 +//
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
Line 98: Line 98:
  
 // //
-Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícícm směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL).+Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech, a mnoho různých parserů, které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)
  
 Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery. Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery.

[ Back to the navigation ] [ Back to the content ]