[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 11:40]
rosa
user:rosa:gauk [2013/11/13 16:11]
rosa
Line 42: Line 42:
 Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání bude jeho hlavním úkolem návrh vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. +Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
-Životopis spoluřešitele se nachází v příloze.  [GAUK1040145]//+Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
Line 95: Line 95:
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
  
-**Doplnit dle poznámek z meetingu, doladit, reference.**+**Znova a lépe.** 
 + 
 +==== Přínos projektu k rozvoji fakulty / VŠ: ==== 
 +(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
 +**TODO citace**
  
 // //
-Syntakticky anotované korpusy (treebankyse dělaj už dlouho: Penn Treebank, nevim co ještě jsou starý treebankyFGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...+První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebankůs jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingunavazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
  
-Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více čméně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. +Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (CITE) či jazykovým projekcím (CITE) Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (CITE)valence (CITE), koreference (CITE) či sentimentu (CITE).
-Rozdíly nejen ve struktuře stromů (předložkykoordinace, složená slovesa) a značkách hran (dependency labels no, jak se to česky...), ale i v tagsetech (značkách pro slovní druhy a další morfologické rysy), a dokonce v tokenizaci **(citace, příklady)**.+
  
-Každé anotační schéma je jak lingvisticky motivované, nicméně u každého anotačního schématu je třeba vyřešit mnohé otázky, na které je těžké najít jednoznačnou odpověď na základě lingvistické motivace, a jde tedy v důsledku o rozhodnutí spíše technická než lingvistická. Existuje hypotézaže mnoho rozdílů v anotačních schématech je ve skutečnosti spíše technického rázua opravdu dobře lingvisticky motivovaných rozdílů je poměrně málo. +Vytvořený datový zdroj bude využitelný i ve výuce kterých magisterských předmětů garantovaných ÚFALemjako jsou Zdroje lingvistických datTechnologie zpracování přirozeného jazyka či Pražský závislostní korpus.
-Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější.+
  
-Heterogenní treebanky představují ekážku mnoha oblastech např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků.+Potřebu masivně paralelního zpracovávání velkých dat i práci s kolekcí lze využít předmětech zabývajících se oblastmi data-intesive computing paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu.
  
-Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. +Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeapna němž se ústav podílí. ÚFALu by se tak mohly otevřít dveřk překladu mezi jinými jazykovými párynež je jediný v současnosti podporovaný pár angličtina-čeština.
-Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styltak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý.+
  
-Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující prohlubující tyto experimenty a přinášející nové experimenty podobného typu.
- +
-Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. +
- +
-Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afunyjejichž definice trochu rozšířil, ale je to trochu pofidérní. Googlové to mapujou na upravené Stanford Labeled Dependencies maj to asi o něco hežčí, ale je to work in progress maj tam lecjaký nejasnosti. Je vidět, že tady je potřeba ještě zapracovat, ideálně najít nějakou dobrou sadu labelů který půjdou použít relativně univerzálně -- jakoby Interset na deprely, ale když už máme všechno možný v Intersetu, tak to asi nemusí bejt tak expresivní a spíš to může bejt něco jako SD. +
-Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. +
- +
-HamleDT má mnoho problémů - chyby v konverzích, ztrátovost, nedostatečná harmonizace (koordinace ano, ale co třeba slovesné skupiny?), podivná sada labelů... Asi je to dobrá cesta, ale chtělo by to dotáhnout. +
- +
-Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk.+
 // //
-==== Přínos projektu k rozvoji fakulty / VŠ: ==== 
-(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
  
-**Napsat znova** 
 (Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]]) (Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]])
  
Line 134: Line 123:
 (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.)
  
-**Napsat znova**+// 
 +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. 
 + 
 +Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. 
 + 
 +Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. 
 + 
 +Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků. 
 +// 
 (Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]]) (Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]])
  

[ Back to the navigation ] [ Back to the content ]