[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 22:47]
rosa
user:rosa:gauk [2013/11/13 22:57]
ufal chybějící písmneka
Line 151: Line 151:
 První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman et al. 2012). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (Nilsson et al. 2007). První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman et al. 2012). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (Nilsson et al. 2007).
  
-Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (Mareček a Straka 2013) či jazykovým projekcím.  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (Böhmová et al. 2003), valence (Urešová 2009), koreference (Nedoluzhko et al. 2009) či sentimentu (Veselovská 2012).+Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsingu (Mareček a Straka 2013) či jazykovým projekcím.  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (Böhmová et al. 2003), valence (Urešová 2009), koreference (Nedoluzhko et al. 2009) či sentimentu (Veselovská 2012).
  
 Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus.
  
-Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu.+Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí pravděpodobně bude možné využít jako benchmark pro úlohy tohoto typu.
  
-Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština.+Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k syntaktickému překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština.
  
 Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu.
Line 191: Line 191:
 Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice.
  
-Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné.+Úspěšné zvládnutí techniky mezijazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dispozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vytvořit potřebná data, což je časově i finančně náročné.
  
 Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu.
  
-Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou.+Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího anotačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou.
  
 Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků. Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků.

[ Back to the navigation ] [ Back to the content ]