[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 11:40]
rosa
user:rosa:gauk [2013/11/13 21:12]
rosa
Line 2: Line 2:
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 Co není kurzívou, to je moje poznámka. Co není kurzívou, to je moje poznámka.
-**Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** 
  
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
-**Tady se akorát možná vymyslí lepší název?** 
 Český název projektu: Modelování závislostní syntaxe napříč jazyky Český název projektu: Modelování závislostní syntaxe napříč jazyky
-Anglický název projektu: Modelling of dependency syntax across languages+Anglický název projektu: Modelling dependency syntax across languages
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 42: Line 40:
 Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání bude jeho hlavním úkolem návrh vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. +Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
-Životopis spoluřešitele se nachází v příloze.  [GAUK1040145]//+Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
Line 52: Line 50:
 Osobní náklady (mzdy) a stipendia (počítá se automaticky) Osobní náklady (mzdy) a stipendia (počítá se automaticky)
 Celkem (počítá se automaticky) Celkem (počítá se automaticky)
- 
-**90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...** 
  
 ==== Struktura finančních prostředků - rok 2014: ==== ==== Struktura finančních prostředků - rok 2014: ====
Line 89: Line 85:
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
  
-**To se přeloží až to bude česky.**+// 
 +In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. 
 +The first task type will be cross-lingual projection technologies, where a model of one language will be used to approximately model a similar language for which sufficient language resources are not available. 
 +The second task type will focus on portability of monolingual technologies, where tools and procedures developed for working with one or few languages will be generalized so that they can be used to process any or nearly any language for which sufficient data are available.
  
-////+Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, are using different annotation schemes and are built on the basis of different linguistic traditions and conventions. A necessary by-step in reaching the main goals of the project is therefore to collect and harmonize existing syntactically annotated language corpora. 
 +//
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
  
-**Doplnit dle poznámek z meetingu, doladit, reference.**+**TODO citace**
  
 // //
-Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebankyFGD co dalo vzniknout PDT dalším pražským (PADT, PEDTPCEDT, TamilTB)...+Syntaktická analýza jazyka (parsings pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech, a mnoho různých parserů, které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencís použitím kterých byl daný datový zdroj lingvisticky anotován.)
  
-Obvykle každý treebank (ípadně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační stylKaždý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolikžpro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující+Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje i analýze různých jazyků dosahují různých úspěšnostícož odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebankůSpolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserůnapříklad neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery
-Rozdíly nejen ve struktuře stromů (edložkykoordinacesložená slovesa) a značkách hran (dependency labels nojak se to česky...)ale i v tagsetech (značkách pro slovní druhy a další morfologické rysy), a dokonce i v tokenizaci **(citace, příklady)**.+Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto ibližné techniky delexikalizovaného parsingu a mezijazyčné projekcekdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazykapro nějž nejsou k dispozici dostatečné datové zdroje CITE. Příbuzným odvětvím je neřízený parsingkdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromyPro vyhodnocení úspěšnosti obou těchto metod se používají existující treebankycož velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnostineboť odlišnosti v lingvistických tradicích konvencích vedou k heterogennosti jednotlivých treebanků
  
-Každé anotační schéma je jak lingvisticky motivovanénicméně u každého anotačního schématu je třeba vyřešit mnohé otázky, na které je těžké najít jednoznačnou odpověď na základě lingvistické motivace, a jde tedy v důsledku rozhodnutí spíše technická než lingvistická. Existuje hypotéza, že mnoho rozdílů anotačních schématech je ve skutečnosti spíše technického rázua opravdu dobře lingvisticky motivovaných rozdílů je poměrně málo. +Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebankůtak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT CITE, kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního sylunavazující na postupný vznik několika treebanků anotovaných v tomto stylu (CITE PDTPEDT, PADT, PCEDT, TamilTB, SlovinskejTB). Značky slovních druhů morfologických rysů (tagy) byly konvertovány do Intersetu (CITE), který je pokusem vytvoření jakési nadmnožiny ech takových značek (kromě těchkteré jsou příliš jazykově specifické)Závislostní struktury byly konvertovány do pražského stylu (PDTzejména v případě koordinacíkde se pražský styl ukázal být dostatečně expresivním pro zachycení většiny koordinačních struktur jednotlivých jazykůmnohé další odlišnosti ale zůstaly ponechány (například anotace složených sloves). Značky závislostních vztahů (deprely) byly namapovány na sadu analytických funkcí definovaných PDTkterá umožňuje správně zachytit nejdůležitější role jako podmětpředmět či přísudek, ale které další role zachytit neumí (například členy či negativní částice) a dochází tak ke ztrátě informace při konverziNavíc nepodporuje podspecifikovanost deprelůtakže v případě že zdrojový treebank neobsahuje dostatek informací pro rozlišení jednotivých deprelů, musejí být použity heuristiky.
-Krom toho se ví (snad?), žkterý anotační schémata se parserum líp učejtak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to jak říct vhodně.) Je otázkouzda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější.+
  
-Heterogenní treebanky představují překážku v mnoha oblastech napřvyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?viz Daviddelexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvistykteří chtějí provádět komparativní analýzu jednotlivých jazyků.+Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (CITE). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikostiSlovní druhy jsou reprezentovány pomocí UPT (CITE), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Labeled Dependencies (CITE). Jejich sada seprelů má hierachickou strukturucož umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely takaby byly jazykově nezávislé, zejména pomocí rozšíření definice některých deprelů a spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývojianotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená. 
 +//
  
-Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**+==== Přínos projektu k rozvoji fakulty / VŠ: ==== 
-Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý.+(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
 +**TODO citace**
  
-Tagset: řeší Danovo Interset a dělá to celkem dobř(snad?), my to asi nějak extra měnit nebudemTaky to řeší univerzální tagy od Googlůale dosti nepostačujícím způsobem.+// 
 +První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěžv parsingunavazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
  
-Struktura stromů: dá se dělat lecjaksale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej.+Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistikykterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (CITEči jazykovým projekcím (CITE).  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), koreference (CITE) či sentimentu (CITE).
  
-Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afuny, jejichž definice trochu rozšířil, ale je to trochu pofidérní. Googlové to mapujou na upravené Stanford Labeled Dependencies a maj to asi o co hežčí, ale je to work in progress a maj tam lecjaký nejasnosti. Je vidět, že tady je potřeba ještě zapracovatideálně najít nějakou dobrou sadu labelů který půjdou použít relativně univerzálně -- jakoby Interset na deprely, ale když už máme všechno možný v Intersetu, tak to asi nemusí bejt tak expresivní a spíš to může bejt něco jako SD. +Vytvořený datový zdroj bude využitelný i ve výuce kterých magisterských předmětů garantovaných ÚFALemjako jsou Zdroje lingvistických datTechnologie zpracování přirozeného jazyka či Pražský závislostní korpus.
-Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy.+
  
-HamleDT má mnoho problémů - chyby konverzích, ztrátovost, nedostatečná harmonizace (koordinace ano, ale co třeba slovesné skupiny?), podivná sada labelů... Asi je to dobrá cesta, ale chtělo by to dotáhnout.+Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu.
  
-Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SDto by taky asi šlo pak dělat co takovýho jakože jazykově nezávisle mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk.+Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na mž se ústav podílí. ÚFALu by se tak mohly otevřít dveřk překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující prohlubující tyto experimenty přinášející nové experimenty podobného typu.
 // //
-==== Přínos projektu k rozvoji fakulty / VŠ: ==== 
-(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
  
-**Napsat znova** 
 (Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]]) (Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]])
  
Line 134: Line 134:
 (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.)
  
-**Napsat znova**+// 
 +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. 
 + 
 +Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. 
 + 
 +Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. 
 + 
 +Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků. 
 +// 
 (Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]]) (Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]])
  

[ Back to the navigation ] [ Back to the content ]