Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 23:21] rosa |
user:rosa:gauk [2013/11/13 16:11] rosa |
||
---|---|---|---|
Line 6: | Line 6: | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: Odhalování a vytěžování multilingválních similarit | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: Discovery and exploitation | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 36: | Line 36: | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | **Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, | ||
- | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
- | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | + | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a publikace školitele se nacházejí v příloze. | + | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] |
- | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium | + | Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium |
- | Životopis spoluřešitele se nachází v příloze.// | + | Životopis spoluřešitele se nachází v příloze. |
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Line 61: | Line 59: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 81: | Line 79: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
- | |||
// | // | ||
- | Lidské jazyky jsou si navzájem více či méně podobné, a znalost | + | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe. |
+ | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který | ||
+ | Druhým typem úloh bude přenositelnost jednojazyčných technologií, | ||
- | V tomto projektu tyto vlastnosti jazyků využijeme v počítačovém zpracování přirozených jazyků, a to pro dva typy úloh: | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy |
- | Prvním typem jsou technologie crosslingvální projekce, kdy schopnost zpracovávat jeden jazyk využijeme pro zpracování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. | + | |
- | Druhým typem je přenositelnost monolingválních technologií, | + | |
- | + | ||
- | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy řešit. Dostupné zdroje jsou totiž obvykle silně heterogenní, | + | |
// | // | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
- | //To se přeloží až to bude česky.// | ||
- | ==== Současný stav poznání: ==== | + | **To se přeloží až to bude česky.** |
- | // | + | |
- | Treebanky | + | |
- | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | + | //// |
- | Rozdíly nejen ve struktuře stromů (předložky, | + | |
- | Každé anotační schéma je nějak lingvisticky motivované, | + | ==== Současný stav poznání: ==== |
- | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější. | + | |
- | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing | + | **Znova |
- | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. | ||
- | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
- | |||
- | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. | ||
- | |||
- | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
- | |||
- | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afuny, jejichž definice trochu rozšířil, | ||
- | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
- | |||
- | HamleDT má mnoho problémů - chyby v konverzích, | ||
- | |||
- | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
- | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | + | **TODO citace** |
// | // | ||
- | Tento projekt | + | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo |
- | Hlavním výstupem projektu bude kolekce | + | Zejména díky svému velkému rozsahu, jakož i existenci |
- | Parsing. Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka |
- | Srovnávací lingvistika, | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít |
- | Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, zejména umožněním lepšího nadhledu, a že na naší práci budou moci stavět | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. |
+ | |||
+ | Na experimenty samotné pak mohou navázat | ||
// | // | ||
+ | |||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 144: | Line 124: | ||
// | // | ||
- | 1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. | + | Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. |
- | 2. Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných a harmonizovaných do tohoto univerzálního schématu. | + | |
- | 3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné | + | |
- | Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české i zahraniční výzkumníky. Vytvořenou kolekci | + | Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje |
- | Kolekce bude také cenná pro srovnávací výzkum jazyků, neboť | + | |
- | Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty | + | Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet |
+ | |||
+ | Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. | ||
+ | |||
+ | Možností | ||
+ | |||
+ | Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým | ||
// | // | ||
- | Původní | + | (Původní |
- | Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. | + | |
- | Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem. | + | |
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
+ | |||
+ | **Významně přepsat** | ||
+ | |||
// | // | ||
Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
Line 177: | Line 162: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | Plus se budem snažit o časopisy. | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | A taky budem publikovat | + | Vytvořený |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | |
- | Grantovou agenturou Univerzity Karlovy.// | + | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// |
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV {{: |