Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 23:24] rosa |
user:rosa:gauk [2013/11/13 16:06] rosa |
||
---|---|---|---|
Line 6: | Line 6: | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: Odhalování a vytěžování multilingválních similarit | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: Discovery and exploitation | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 61: | Line 59: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 81: | Line 79: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
- | |||
// | // | ||
- | Lidské jazyky jsou si navzájem více či méně podobné, a znalost jednoho jazyka můžeme využít pro snazší porozumění jinému jazyku. Doklady toho můžeme pozorovat sami na sobě -- jsme schopni s malou nebo žádnou dopomocí porozumět neznámému jazyku, který je podobný jazyku nám již známému; a čím více cizích jazyků známe, tím snáze se nám učí každý další cizí jazyk, i pokud není blízce příbuzný s žádným nám známým jazykem. | + | V grantovém projektu |
- | + | Prvním typem úloh budou technologie | |
- | V grantovém projektu | + | Druhým typem úloh bude přenositelnost |
- | Prvním typem jsou technologie | + | |
- | Druhým typem je přenositelnost | + | |
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy |
// | // | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | //To se přeloží až to bude česky.// | + | |
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | |||
+ | **Doplnit dle poznámek z meetingu, doladit, reference.** | ||
+ | |||
// | // | ||
- | Treebanky | + | Syntakticky anotované korpusy (treebanky) |
Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | ||
Line 123: | Line 124: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | + | **TODO citace** |
- | // | + | První část projektu - vytvoření kolekce syntakticky anotovaných |
- | Tento projekt | + | korpusů (treebanků) s jednotným anotačním schématem - přímo |
+ | HamleDT (CITE). Výstupy této práce umožní | ||
+ | lingvistiky | ||
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující | ||
- | Hlavním výstupem projektu bude kolekce | + | Zejména díky svému velkému rozsahu, jakož i existenci |
+ | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | ||
+ | studenty doktorského studia | ||
+ | lingvistiky, | ||
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní vytváření dalších odvozených datových | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) | ||
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských |
+ | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | ||
+ | zpracování přirozeného jazyka | ||
- | Srovnávací lingvistika, | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí |
+ | lze využít | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být |
- | // | + | přínosné například pro systémy strojového překladu založené na syntaxi, jako je |
+ | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat | ||
+ | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | ||
+ | typu. | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 143: | Line 171: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | // | + | První část projektu - vytvoření |
- | 1. Vytvoření | + | korpusů (treebanků) s jednotným |
- | 2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných | + | HamleDT (CITE). Výstupy této práce umožní Ústavu formální |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů | + | lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. |
+ | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | ||
+ | parsingu, navazující | ||
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české | + | Zejména díky svému velkému rozsahu, jakož i existenci |
- | Kolekce | + | na ÚFALu |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti | + | studenty doktorského studia |
- | // | + | lingvistiky, |
+ | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | ||
+ | Kolekce také umožní | ||
+ | ÚFAL je aktivní | ||
+ | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | ||
+ | koreference (CITE) | ||
- | Původní text: | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie |
- | Taky budeme experimentálně ověřovat přenositelnost technologií | + | zpracování přirozeného jazyka |
+ | |||
+ | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | ||
+ | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | ||
+ | paralelizací; | ||
+ | pro úlohy tohoto typu. | ||
+ | |||
+ | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | ||
+ | přínosné například pro systémy strojového překladu založené na syntaxi, jako je | ||
+ | ÚFALem vyvíjené TectoMT (CITE), | ||
+ | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu | ||
+ | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | ||
+ | angličtina-čeština. | ||
+ | |||
+ | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | ||
+ | rozšiřující a prohlubující tyto experimenty | ||
+ | typu. | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
+ | **Významně přepsat** | ||
+ | |||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 177: | Line 233: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | Plus se budem snažit o časopisy. | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | A taky budem publikovat | + | Vytvořený |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | |
- | Grantovou agenturou Univerzity Karlovy.// | + | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// |
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV {{: |