[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/12 23:27]
rosa
user:rosa:gauk [2013/11/13 16:06]
rosa
Line 6: Line 6:
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
 **Tady se akorát možná vymyslí lepší název?** **Tady se akorát možná vymyslí lepší název?**
-Český název projektu: Odhalování a vytěžování multilingválních similarit +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Anglický název projektu: Discovery and exploitation of multilingual similarities+Anglický název projektu: Modelling of dependency syntax across languages
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 36: Line 36:
  
 ==== Charakteristika řešitelského kolektivu - rok 2014: ==== ==== Charakteristika řešitelského kolektivu - rok 2014: ====
-**Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, jakou roli na projektu bude kdo mít... Nevim, jestli tam u sebe mam psát "bude dělat všechno" :-))** 
- 
 //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
-Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756]+Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
  
 Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků. Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.
-Životopis a publikace školitele se nacházejí v příloze.+Životopis a publikace školitele se nacházejí v přílohách[GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. +Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
-Životopis spoluřešitele se nachází v příloze.//+Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
Line 61: Line 59:
  
 Plánované konference a pobyty: Plánované konference a pobyty:
-* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) +* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje 
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky 
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč)+* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy
 Náklady na pobyty jsou určeny přibližně na základě minulých let. Náklady na pobyty jsou určeny přibližně na základě minulých let.
  
Line 81: Line 79:
  
 ==== Anotace (max 200 slov): ==== ==== Anotace (max 200 slov): ====
- 
 // //
-V grantovém projektu využijeme vzájemných similarit přirozených jazyků pro dva typy úloh komputační lingvistiky. +V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe
-Prvním typem jsou technologie crosslingvální projekce, kdy schopnost zpracovávat jeden jazyk využijeme pro zpracování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. +Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. 
-Druhým typem je přenositelnost monolingválních technologií, kdy nástroje a postupy vyvinuté pro práci s jedním jazykem adaptujeme pro práci s jinými jazyky.+Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje a postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme tak, aby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje.
  
-Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, používají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických rozhodnutí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících jazykových zdrojů, zejména syntakticky anotovaných korpusů.+Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, používají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů.
 // //
  
 +==== Anotace v anglickém jazyce (max 200 slov): ====
  
 +**To se přeloží až to bude česky.**
  
-Lidské jazyky jsou si navzájem více či méně podobné, a znalost jednoho jazyka můžeme využít pro snazší porozumění jinému jazyku. Doklady toho můžeme pozorovat sami na sobě -- jsme schopni s malou nebo žádnou dopomocí porozumět neznámému jazyku, který je podobný jazyku nám již známému; a čím více cizích jazyků známe, tím snáze se nám učí každý další cizí jazyk, i pokud není blízce příbuzný s žádným nám známým jazykem.+////
  
 +==== Současný stav poznání: ====
  
-==== Anotace v anglickém jazyce (max 200 slov): ==== +**Doplnit dle poznámek z meetingu, doladit, reference.**
-//To se přeloží až to bude česky.//+
  
-==== Současný stav poznání: ==== 
 // //
-Treebanky se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...+Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)...
  
 Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující.
Line 126: Line 124:
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====
 (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)
-**Tohle by pravděpodobně mělo být celkem konkrétní, tj. o poznání konkrétnější než je to teď. A asi by se tu nemělo mluvit moc o tom, na co to bude lidem mimo ÚFAL, na to jsou asi Cíle řešení projektu.**+**TODO citace**
  
-// +První část projektu - vytvoření kolekce syntakticky anotovaných 
-Tento projekt navazuje na dlouhou a úspěšnou tradici treebankingu na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové špičce této oblasti. Zároveň ještě více zpřístupní treebanky vytvořené na ÚFALu (PDT, PEDT, PADT, TamilTBdalším výzkumníkům.+korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt 
 +HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované 
 +lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. 
 +ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v 
 +parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
  
-Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylucož bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové formální lingvistiky.+Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých 
 +na ÚFALu pro práci s daty tohoto typuse kolekce stane cenným zdrojem pro 
 +studenty doktorského studia 
 +lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například 
 +neřízenému parsing (CITE) či jazykovým projekcím (CITE). 
 +Kolekce také umožní vytváření dalších odvozených datových zdrojů: 
 +ÚFAL je aktivní 
 +například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), 
 +koreference (CITE) či sentimentu (CITE).
  
-Parsing. Využijou to lidi, který už dělaj unsupervised parsing (DavidValentýn Spitkovský)delexicalized parsing and projection of dependency structures (Loganathan, Googlové), syntax-based machine translation (TectoMT, a určitě ještě někdo) a tak.+Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských 
 +předmětů garantovaných ÚFALemjako jsou Zdroje lingvistických datTechnologie 
 +zpracování přirozeného jazyka či Pražský závislostní korpus.
  
-Srovnávací lingvistika, porovnávající vlastnosti různých jazyků -- usnadnění evedením treebanků do jednotného formátu a anotačního schámatu, včetně existence řady nástrojů vyvíjených na ÚFALu, které je možné použít pro práci s vytvořenými daty.+Potřebu masivně paralelního zpracovávání velkých dat i práci s kolekcí 
 +lze využít předmětech zabývajících se oblastmi data-intesive computing a 
 +paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark 
 +pro úlohy tohoto typu.
  
-Kromě vytvoření datového zdroje věříme, žse nám podaří posunout i hranice poznání v oblasti treebankinguzejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět další výzkumníci v této oblasti na ÚFALu v zahraničí+Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být 
-//+přínosné například pro systémy strojového překladu založené na syntaxijako je 
 +ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, 
 +na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi 
 +jinými jazykovými párynež je jediný v současnosti podporovaný pár 
 +angličtina-čtina. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové čdizertační práce, 
 +rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného 
 +typu
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]])
  
 ==== Materiální zajištění projektu: ==== ==== Materiální zajištění projektu: ====
Line 146: Line 171:
 (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.)
  
-// +První část projektu - vytvoření kolekce syntakticky anotovaných 
-1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. +korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt 
-2Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných harmonizovaných do tohoto univerzálního schématu+HamleDT (CITE)Výstupy této práce umožní Ústavu formální aplikované 
-3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné jazyky, doloženo experimenty na vytvořené datové sadě.+lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu
 +ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěž
 +parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
  
-Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české zahraniční výzkumníky. Vytvořenou kolekci bude možné využít v mnoha typech parsingu. Klasický parsing využije jednotnost schématu a formátu, takže bude snadné parser bez zásadních úprav natrénovat pro libovolný z jazyků obsažených v kolekci. Kolekce bude snadno využitelná pro všechny oblasti vícejazyčného parsingujako je crosslinguální parsing. Díky sjednoceným značkám slovních druhů a morfologických rysů bude také dobře využitelná pro delexikalizovaný parsing. Měla by také být díky jednotnosti schématu vhodnější pro evaluaci neřízeného parsingu+Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých 
-Kolekce bude také cenná pro srovnávací výzkum jazyků, neboť umožní postihnout skutečné rozdíly mezi jazyky odstíněním rozdílů daných pouze různými anotačními styly různých datových zdrojů. Navíc umožní zkoumat různé jazyky bez nutnosti seznamovat se pro každý jazyk s anotačním schématem jeho treebankuzájemci bude postačovat seznámit se pouze s jedním anotačním stylem. +na ÚFALu pro práci s daty tohoto typuse kolekce stane cenným zdrojem pro 
-Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti či odlišnosti jednotlivých jazyků a o míře existence či neexistence takzvaných jazykových univerzálií. +studenty doktorského studia 
-//+lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například 
 +neřízenému parsing (CITE) či jazykovým projekcím (CITE)
 +Kolekce také umožní vytváření dalších odvozených datových zdrojů
 +ÚFAL je aktivní 
 +například v anotaci hloubkových jazykových struktur (CITE), valence (CITE)
 +koreference (CITE) či sentimentu (CITE).
  
-Původní text: +Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských 
-Vytvoření datového zdroje HamleDT 2.5prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů+předmětů garantovaných ÚFALemjako jsou Zdroje lingvistických dat, Technologie 
-Taky budeme experimentálně ověřovat enositelnost technologií znalostí mezi jazykycož lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.+zpracování přirozeného jazyka či Pražský závislostní korpus
 + 
 +Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí 
 +lze využít v předmětech zabývajících se oblastmi data-intesive computing a 
 +paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark 
 +pro úlohy tohoto typu. 
 + 
 +Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být 
 +ínosné například pro systémy strojového překladu založené na syntaxi, jako je 
 +ÚFALem vyvíjené TectoMT (CITE), s ním související mezinárodní projekt QTLeap, 
 +na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi 
 +jinými jazykovými párynež je jediný v současnosti podporovaný pár 
 +angličtina-čeština. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, 
 +rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného 
 +typu. 
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]])
  
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
 +
 +**Významně přepsat**
 +
 // //
 Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.
Line 180: Line 233:
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
 //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na 
-konferencích LREC, ACL, a/nebo TLT. +konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML
-Plus se budem snažit o časopisy+Průběžné výsledky budeme popisovat také v technických zprávách
-A taky budem publikovat software, kterej z toho vznikne, s otevřenejma licencema+Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. 
-U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány + 
-Grantovou agenturou Univerzity Karlovy.//+U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
  
 ===== Přílohy ===== ===== Přílohy =====
-Moje CV a publikace ([[http://cv.nikde.eu/rosa_rudolf_cv_cs.php]]), +Moje CV a publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}} 
-ZŽ CVZŽ publikaceHM CV.+ZŽ CV {{:user:rosa:cv-zz.pdf|}} 
 +ZŽ publikace {{:user:rosa:zz-pub.pdf|}} 
 +HM CV {{:user:rosa:cv_masek.pdf|}}

[ Back to the navigation ] [ Back to the content ]