[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 19:52]
rosa
user:rosa:gauk [2013/11/13 19:56]
rosa anotační styů
Line 98: Line 98:
  
 // //
-Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícícm směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL).+Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech, a mnoho parserů, které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)
  
 Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery. Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery.
Line 137: Line 137:
 Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky.
  
-Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice.+Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice.
  
 Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné.

[ Back to the navigation ] [ Back to the content ]