Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 00:15] rosa Modelování závislostní syntaxe napříč jazyky |
user:rosa:gauk [2013/11/13 01:51] rosa co udělám až se vyspim |
||
---|---|---|---|
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | + | **Už chybí jen doladit Honzu.** |
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh a vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh a vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. | ||
Line 61: | Line 61: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 82: | Line 82: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
// | // | ||
- | V grantovém projektu budeme zkoumat vzájemné | + | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, |
- | Prvním typem úloh budou technologie | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka |
- | Druhým typem bude přenositelnost | + | Druhým typem úloh bude přenositelnost jednojazyčných technologií, |
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, |
// | // | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | //To se přeloží až to bude česky.// | + | |
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
+ | |||
+ | **Doplnit dle poznámek z meetingu, doladit, reference.** | ||
+ | |||
// | // | ||
- | Treebanky | + | Syntakticky anotované korpusy (treebanky) |
Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | ||
Line 120: | Line 126: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | ||
- | // | + | **Napsat znova** |
- | Tento projekt navazuje na dlouhou a úspěšnou tradici treebankingu na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové špičce v této oblasti. Zároveň ještě více zpřístupní treebanky vytvořené na ÚFALu | + | (Původní verze zde: [user: |
- | + | ||
- | Hlavním výstupem | + | |
- | + | ||
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), | + | |
- | + | ||
- | Srovnávací lingvistika, | + | |
- | + | ||
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, | + | |
- | // | + | |
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 140: | Line 136: | ||
(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
- | // | + | **Napsat znova** |
- | 1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. | + | (Původní verze zde: [user: |
- | 2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných a harmonizovaných do tohoto univerzálního schématu. | + | |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné jazyky, doloženo experimenty na vytvořené datové sadě. | + | |
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české i zahraniční výzkumníky. Vytvořenou kolekci bude možné využít v mnoha typech parsingu. Klasický parsing využije jednotnost schématu a formátu, takže bude snadné parser bez zásadních úprav natrénovat pro libovolný z jazyků obsažených v kolekci. Kolekce bude snadno využitelná pro všechny oblasti vícejazyčného parsingu, jako je crosslinguální parsing. Díky sjednoceným značkám slovních druhů a morfologických rysů bude také dobře využitelná pro delexikalizovaný parsing. Měla by také být díky jednotnosti schématu vhodnější pro evaluaci neřízeného parsingu. | + | ==== Způsob řešení: ==== |
- | Kolekce bude také cenná pro srovnávací výzkum jazyků, neboť umožní postihnout skutečné rozdíly mezi jazyky odstíněním rozdílů daných pouze různými anotačními styly různých datových zdrojů. Navíc umožní zkoumat různé jazyky bez nutnosti seznamovat se pro každý jazyk s anotačním schématem jeho treebanku, zájemci bude postačovat seznámit se pouze s jedním anotačním stylem. | + | |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti či odlišnosti jednotlivých jazyků a o míře existence či neexistence takzvaných jazykových univerzálií. | + | |
- | // | + | |
- | Původní text: | + | **Významně přepsat** |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | |
- | Taky budeme experimentálně ověřovat | + | |
- | ==== Způsob řešení: ==== | ||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 174: | Line 162: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | Plus se budem snažit o časopisy. | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | A taky budem publikovat | + | Vytvořený |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | |
- | Grantovou agenturou Univerzity Karlovy.// | + | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// |
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV |