Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/09 01:56] rosa |
user:rosa:gauk [2013/11/13 11:39] rosa |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== GAUK na HamleDT ====== | ====== GAUK na HamleDT ====== | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
+ | Co není kurzívou, to je moje poznámka. | ||
+ | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | ||
+ | |||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
- | **Tady se akorát vymyslí lepší název** | + | **Tady se akorát |
- | Český název projektu: HamleDT | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: HamleDT | + | Anglický název projektu: Modelling of dependency syntax across languages |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 20: | Line 23: | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 80 | + | Stipendia 60 |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
Line 27: | Line 30: | ||
Bc. Jan Mašek | Bc. Jan Mašek | ||
Stipendia 40 | Stipendia 40 | ||
+ | |||
+ | |||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
- | //Mgr. Rudolf Rosa je super doktorand. | + | //Hlavní řešitel, |
+ | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Doc. Ing. Zdeněk Žabokrtský Ph.D. je super docent. | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
+ | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
- | Bc. Jan Mašek je super magistrand.// | + | Spoluřešitel |
+ | Životopis spoluřešitele se nachází v příloze.// | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 40 | + | Cestovné 90 |
- | Doplňkové náklady 28 | + | Doplňkové náklady (počítá se automaticky) |
- | Osobní náklady (mzdy) a stipendia 140 | + | Osobní náklady (mzdy) a stipendia (počítá se automaticky) |
- | Celkem 218 | + | Celkem (počítá se automaticky) |
+ | |||
+ | **90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...** | ||
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
- | //Koupíme si harddisk | + | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. |
+ | |||
+ | Plánované konference | ||
+ | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje | ||
+ | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky | ||
+ | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy | ||
+ | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | Pojedem | + | Neinvest náklady: |
+ | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | ||
+ | Kancelářský potřeby se tam prej psát nemaj. | ||
+ | Literaturu nevim jestli nějakou chcem kupovat. | ||
+ | Dal bych tam případné licence | ||
===== Finanční výhled na další roky ===== | ===== Finanční výhled na další roky ===== | ||
Line 54: | Line 78: | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
- | ==== Anotace: ==== | + | ==== Anotace |
- | //Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. | + | // |
- | Přidání nových treebanků. | + | V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, |
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje. |
- | Zkoumání | + | Druhým typem úloh bude přenositelnost jednojazyčných |
- | ==== Anotace v anglickém jazyce: ==== | + | |
- | //To se přeloží až to bude česky.// | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně |
+ | // | ||
+ | |||
+ | ==== Anotace v anglickém jazyce | ||
+ | |||
+ | **To se přeloží až to bude česky.** | ||
+ | |||
+ | //// | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión | + | |
+ | **Doplnit dle poznámek z meetingu, doladit, reference.** | ||
+ | |||
+ | // | ||
+ | Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
+ | |||
+ | Obvykle každý treebank (případně malá rodina | ||
+ | Rozdíly nejen ve struktuře stromů (předložky, | ||
+ | |||
+ | Každé anotační schéma je nějak lingvisticky motivované, | ||
+ | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé | ||
+ | |||
+ | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. | ||
+ | |||
+ | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci | ||
+ | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
+ | |||
+ | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, | ||
+ | |||
+ | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
+ | |||
+ | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky | ||
+ | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
+ | |||
+ | HamleDT má mnoho problémů - chyby v konverzích, | ||
+ | |||
+ | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
+ | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
- | //Posuneme hranice poznání, umožníme lepší nadhled při treebankingu, | + | (Popis návaznosti projektu na další řešené projekty tuzemské |
+ | |||
+ | **Napsat znova** | ||
+ | (Původní verze zde: [[user: | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
- | //V poho, ale mohli bysme asi koupit harddisk.// | + | //Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracovávání, ukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// |
==== Cíle řešení projektu: ==== | ==== Cíle řešení projektu: ==== | ||
- | //Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů.// | + | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) |
+ | |||
+ | **Napsat znova** | ||
+ | (Původní verze zde: [[user: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
- | //Budem testovat treebanky | + | |
- | Na základě toho budem opravovat chyby v konverzi (iterativní proces). | + | **Významně přepsat** |
- | Což povede ke vzniku | + | |
- | Taky budeme | + | // |
+ | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. | ||
+ | |||
+ | Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí | ||
+ | Vytvořené testy budou použity na existující sbírku treebanků | ||
+ | |||
+ | S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly | ||
+ | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT 1.0 jako zdroj obvykle používá data ze sad CoNLL, která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, | ||
+ | |||
+ | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - půjde pravděpodobně zejména o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Dependencies. | ||
+ | Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů a anotačních schémat | ||
+ | |||
+ | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky | ||
+ | |||
+ | Vrcholem projektu pak bude jeho závěrečná část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno | ||
+ | // | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
- | //Posíláme to na LREC, pošleme to na TLT, zkusím to i na ACL. A možná to odprezentuju i na WDS.// | + | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. |
+ | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku | ||
+ | konferenci | ||
+ | Průběžné výsledky budeme popisovat také v technických zprávách. | ||
+ | Vytvořený software bude průběžně zveřejňován | ||
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | **ASI: | + | Moje CV a publikace |
+ | ZŽ CV {{: | ||
+ | ZŽ publikace | ||
+ | HM CV {{: |