[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 01:36]
rosa
user:rosa:gauk [2013/11/13 16:09]
rosa reformát
Line 36: Line 36:
  
 ==== Charakteristika řešitelského kolektivu - rok 2014: ==== ==== Charakteristika řešitelského kolektivu - rok 2014: ====
-**Už chybí jen doladit Honzu.** 
- 
 //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
 Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756]  Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
Line 44: Line 42:
 Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. +Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
-Životopis spoluřešitele se nachází v příloze.//+Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
Line 90: Line 88:
  
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
-//To se přeloží až to bude česky.//+ 
 +**To se přeloží až to bude česky.** 
 + 
 +////
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
 +
 +**Doplnit dle poznámek z meetingu, doladit, reference.**
 +
 // //
 Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...
Line 120: Line 124:
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====
 (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)
-**Tohle by pravděpodobně mělo být celkem konkrétní, tj. o poznání konkrétnější než je to teď. A asi by se tu nemělo mluvit moc o tom, na co to bude lidem mimo ÚFAL, na to jsou asi Cíle řešení projektu.**+**TODO citace**
  
 // //
-Tento projekt navazuje na dlouhou a úspěšnou tradici vytváření syntakticky anotovaných korpusů (treebanků) na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové špičce této oblasti. Zároveň ještě více zpřístupní treebanky vytvořené na ÚFALu (PDT, PEDT, PADT, TamilTBdalším výzkumníkům.+První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
  
-Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylucož bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové formální lingvistiky.+Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typuse kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (CITE) či jazykovým projekcím (CITE).  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), koreference (CITE) či sentimentu (CITE).
  
-Parsing. Využijou to lidi, který už dělaj unsupervised parsing (DavidValentýn Spitkovský)delexicalized parsing and projection of dependency structures (Loganathan, Googlové), syntax-based machine translation (TectoMT, a určitě ještě někdo) a tak.+Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALemjako jsou Zdroje lingvistických datTechnologie zpracování přirozeného jazyka či Pražský závislostní korpus.
  
-Srovnávací lingvistika, porovnávající vlastnosti různých jazyků -- usnadnění evedením treebanků do jednotného formátu a anotačního schámatu, včetně existence řady nástrojů vyvíjených na ÚFALu, které je možné použít pro práci s vytvořenými daty.+Potřebu masivně paralelního zpracovávání velkých dat i práci s kolekcí lze využít předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu.
  
-Kromě vytvoření datového zdroje věříme, žse nám podaří posunout i hranice poznání v oblasti vytváření syntakticky anotovaných korpusůzejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět další výzkumníci v této oblasti na ÚFALu v zahraničí.+Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxijako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými párynež je jediný v současnosti podporovaný pár angličtina-čtina. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové čdizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu.
 // //
 +
 +(Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]])
  
 ==== Materiální zajištění projektu: ==== ==== Materiální zajištění projektu: ====
Line 141: Line 149:
  
 // //
-1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky.
-2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných a harmonizovaných do tohoto univerzálního schématu. +
-3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné jazyky, doloženo experimenty na vytvořené datové sadě.+
  
-Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české zahraniční výzkumníky. Vytvořenou kolekci bude možné využít mnoha typech parsinguKlasický parsing využije jednotnost schématu a formátutakže bude snadné parser bez zásadních úprav natrénovat pro libovolný z jazyků obsažených v kolekciKolekce bude snadno využitelná pro všechny oblasti vícejazyčného parsingujako je crosslinguální parsingDíky sjednoceným značkám slovních druhů a morfologických rysů bude také dobře využitelná pro delexikalizovaný parsing. Měla by také být díky jednotnosti schématu vhodnější pro evaluaci neřízeného parsingu. +Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje komputační i formální lingvistice. 
-Kolekce bude také cenná pro srovnávací výzkum jazykůneboť umožní postihnout skutečné rozdíly mezi jazyky odstíněním rozdílů daných pouze různými anotačními styly různých datových zdrojů. Navíc umožní zkoumat různé jazyky bez nutnosti seznamovat se pro každý jazyk s anotačním schématem jeho treebankuzájemci bude postačovat seznámit se pouze s jedním anotačním stylem. + 
-Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti či odlišnosti jednotlivých jazyků a o míře existence či neexistence takzvaných jazykových univerzálií.+Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nichTechnologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazykybez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazykakde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. 
 + 
 +Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků.
 // //
  
-Původní text: +(Původní verze zde[[user:rosa:gauk_backup#cile-reseni-projektu]])
-Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. +
-Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.+
  
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
 +
 +**Významně přepsat**
 +
 // //
 Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.
Line 185: Line 198:
 ZŽ CV {{:user:rosa:cv-zz.pdf|}} ZŽ CV {{:user:rosa:cv-zz.pdf|}}
 ZŽ publikace {{:user:rosa:zz-pub.pdf|}} ZŽ publikace {{:user:rosa:zz-pub.pdf|}}
-HM CV+HM CV {{:user:rosa:cv_masek.pdf|}}

[ Back to the navigation ] [ Back to the content ]