[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/09 01:55]
rosa created
user:rosa:gauk [2013/11/13 16:09]
rosa reformát
Line 1: Line 1:
 ====== GAUK na HamleDT ====== ====== GAUK na HamleDT ======
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 +Co není kurzívou, to je moje poznámka.
 +**Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.**
 +
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
-Český název projektu: HamleDT +**Tady se akorát možná vymyslí lepší název?** 
-Anglický název projektu: HamleDT +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Aktuální řešitel: Mgr. Rudolf Rosa Vytvořit novou zprávu pro Rudolf Rosa rur@seznam.cz+Anglický název projektu: Modelling of dependency syntax across languages 
 +Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
 Studium: Matematicko-fyzikální fakulta Studium: Matematicko-fyzikální fakulta
Line 19: Line 23:
 ===== Řešitelský kolektiv ===== ===== Řešitelský kolektiv =====
 Mgr. Rudolf Rosa Mgr. Rudolf Rosa
-Stipendia 80+Stipendia 60
  
 doc. Ing. Zdeněk Žabokrtský Ph.D. doc. Ing. Zdeněk Žabokrtský Ph.D.
Line 26: Line 30:
 Bc. Jan Mašek Bc. Jan Mašek
 Stipendia 40 Stipendia 40
 +
 +
 +Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100.
 +Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo).
  
 ==== Charakteristika řešitelského kolektivu - rok 2014: ==== ==== Charakteristika řešitelského kolektivu - rok 2014: ====
-//Mgr. Rudolf Rosa je super doktorand.+//Hlavní řešitel, Mgr. Rudolf Rosaje studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéžPo dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. 
 +Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
  
-Doc. Ing. Zdeněk Žabokrtský Ph.D. je super docent.+Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistikyDlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků. 
 +Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
-Bc. Jan Mašek je super magistrand.//+Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
 +Životopis spoluřešitele se nachází v příloze[GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
 Položky Rok 2014 Položky Rok 2014
 Ostatní neinvestiční náklady 10 Ostatní neinvestiční náklady 10
-Cestovné 40 +Cestovné 90 
-Doplňkové náklady 28 +Doplňkové náklady (počítá se automaticky) 
-Osobní náklady (mzdy) a stipendia 140 +Osobní náklady (mzdy) a stipendia (počítá se automaticky) 
-Celkem 218+Celkem (počítá se automaticky) 
 + 
 +**90k na cestování je asi celkem dost -- není asi zakázáno o to žádat, ale nevím, jestli jim to nebude připadat přehnaný a nezamítnou kvůli tomu ten projekt. Je to zhruba LREC+ACL. Pokud by to třeba bylo třeba LREC+TLT, tak by to bylo řekněme 80k, nevim jestli je to o tolik lepší...**
  
 ==== Struktura finančních prostředků - rok 2014: ==== ==== Struktura finančních prostředků - rok 2014: ====
-//Koupíme si harddisk kancelářské potřeby.+//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. 
 + 
 +Plánované konference pobyty: 
 +* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje 
 +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky 
 +* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy 
 +Náklady na pobyty jsou určeny přibližně na základě minulých let. 
 + 
 +Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.//
  
-Pojedem na LREC a TLT zkusíme ACL.//+Neinvest náklady: 
 +Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. 
 +Kancelářský potřeby se tam prej psát nemaj. 
 +Literaturu nevim jestli nějakou chcem kupovat. 
 +Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim asi spíš ne, tak bych to tam nepsal.
  
 ===== Finanční výhled na další roky ===== ===== Finanční výhled na další roky =====
Line 53: Line 78:
 ===== Rozšiřující informace ===== ===== Rozšiřující informace =====
  
-==== Anotace: ==== +==== Anotace (max 200 slov): ==== 
-//Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb+// 
-Přidání nových treebanků. +V grantovém projektu budeme zkoumat vzájemné podobnosti přirozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistiky, řešících aktuální problémy zpracování jazyka na úrovni syntaxe
-Testování konzistentnosti harmonizovaných treebankůna to navázané další vylepšování harmonizace+Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobnéhopro který nemáme dostatečné jazykové zdroje
-Zkoumání enositelnosti znalostí a technologií mezi jazykamazjišťování co je jazykově specifické co je více či méně "univerzální"Cross-linguální a multilinguální experimentynapř. delexikalizovaný parsing nebo joint parsing.// +Druhým typem úloh bude enositelnost jednojazyčných technologií, kdy nástroje postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme tak, aby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje. 
-==== Anotace v anglickém jazyce: ==== + 
-//To se přeloží až to bude česky.//+Přestože existují rozsáhlé jazykové zdroje pro mnoho jazykův praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešitDostupné zdroje jsou totiž obvykle silně heterogenní, používají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencíNutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů. 
 +// 
 + 
 +==== Anotace v anglickém jazyce (max 200 slov): ==== 
 + 
 +**To se přeloží až to bude česky.** 
 + 
 +//// 
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
-//Teď je bžilión treebanků s různorodými anotačními schématy atdTaky je HamleDT a Universal Dependency Treebanks, kdy HamleDT je dobrej ale má ty ty problémy, a UDT je malej...//+ 
 +**Doplnit dle poznámek z meetingu, doladit, reference.** 
 + 
 +// 
 +Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... 
 + 
 +Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. 
 +Rozdíly nejen ve struktuře stromů (předložky, koordinace, složená slovesa) a značkách hran (dependency labels no, jak se to česky...), ale i v tagsetech (značkách pro slovní druhy a další morfologické rysy), a dokonce i v tokenizaci **(citace, příklady)**. 
 + 
 +Každé anotační schéma je nějak lingvisticky motivované, nicméně u každého anotačního schématu je třeba vyřešit mnohé otázky, na které je těžké najít jednoznačnou odpověď na základě lingvistické motivace, a jde tedy v důsledku o rozhodnutí spíše technická než lingvistická. Existuje hypotéza, že mnoho rozdílů v anotačních schématech je ve skutečnosti spíše technického rázu, a opravdu dobře lingvisticky motivovaných rozdílů je poměrně málo. 
 +Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro zné jazyky jsou různé anotační styly výrazně vhodnější. 
 + 
 +Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. 
 + 
 +Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. 
 +Pak je UDT od Googlů, který na to jdou od lesa, krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. 
 + 
 +Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. 
 + 
 +Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. 
 + 
 +Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afunyjejichž definice trochu rozšířil, ale je to trochu pofidérní. Googlové to mapujou na upravené Stanford Labeled Dependencies maj to asi o něco hežčí, ale je to work in progress a maj tam lecjaký nejasnostiJe vidět, že tady je potřeba ještě zapracovat, ideálně najít nějakou dobrou sadu labelů který půjdou použít relativně univerzálně -- jakoby Interset na deprely, ale když už máme všechno možný v Intersetu, tak to asi nemusí bejt tak expresivní a spíš to může bejt něco jako SD. 
 +Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. 
 + 
 +HamleDT má mnoho problémů - chyby v konverzích, ztrátovost, nedostatečná harmonizace (koordinace ano, ale co třeba slovesné skupiny?), podivná sada labelů... Asi je to dobrá cesta, ale chtělo by to dotáhnout. 
 + 
 +Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. 
 +//
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====
-//Posuneme hranice poznání, umožníme lepší nadhled při treebankingukterý tu má dlouhou tradicistvoříme cenný datový zdroj pro multilinguální experimentynapřpro unsupervised parsing...//+(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
 +**TODO citace** 
 + 
 +// 
 +První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). 
 + 
 +Zejména díky svému velkému rozsahu, jakož existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typuse kolekce stane cenným zdrojem pro studenty doktorského studia lingvistikykterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (CITE) či jazykovým projekcím (CITE).  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), koreference (CITE) či sentimentu (CITE). 
 + 
 +Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. 
 + 
 +Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu. 
 + 
 +Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílíÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. 
 +// 
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]]) 
 ==== Materiální zajištění projektu: ==== ==== Materiální zajištění projektu: ====
-//V pohoale mohli bysme asi koupit harddisk.//+//Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracováváníukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// 
 ==== Cíle řešení projektu: ==== ==== Cíle řešení projektu: ====
-//Vytvoření datového zdroje HamleDT 2.5prozkoumání jazykové specifičnosti univerzálnosti různých vlastností jazyků a jazykových jevů.//+(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) 
 + 
 +// 
 +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. 
 + 
 +Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat na desítky světových jazyků, tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice. 
 + 
 +Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou. 
 + 
 +Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné.  Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků. 
 +// 
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]]) 
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
-//Budem testovat treebanky v HamleDT, tím najdeme chyby v konverzi+ 
-Na základě toho budem opravovat chyby v konverzi (iterativní proces). +**Významně přepsat** 
-Což povede ke vzniku HamleDT 2.5+ 
-Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.//+// 
 +Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. 
 + 
 +Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. 
 +Vytvořené testy budou použity na existující sbírku treebanků HamleDT 1.0která se stane východiskem pro práci na tomto projektu. 
 + 
 +tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně
 +Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT 1.0 jako zdroj obvykle používá data ze sad CoNLL, která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. 
 + 
 +Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - půjde pravděpodobně zejména o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Dependencies. 
 +Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů a anotačních schémat (CoNLL, Stanford Dependencies, Google Universal Dependency Treebanks), tak aby byly co nejpřístupnější pro koncové uživatele
 + 
 +Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu
 + 
 +Vrcholem projektu pak bude jeho závěrečná část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno například využitím kolekce pro vyhodnocování úspěšnosti neřízené závislostní analýzy vět, pro delexikalizovaný parsing, pro paralelní parsing, a podobněZároveň bude provedeno vyhodnocení různých anotačních schémat z pohledu vhodnosti pro trénování parserů. 
 +// 
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
-//Posíláme to na LREC, pošleme to na TLTzkusím to na ACLA možná to odprezentuju i na WDS.//+//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. 
 +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na 
 +konferenci LREC, ACLa/nebo TLT -- a plánujeme publikaci v odborném časopise, například PBML. 
 +Průběžné výsledky budeme popisovat také v technických zprávách. 
 +Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. 
 + 
 +U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
  
 ===== Přílohy ===== ===== Přílohy =====
-**ASI:** Moje CV, moje publikaceZŽ CVZŽ publikaceHM CV.+Moje CV publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}} 
 +ZŽ CV {{:user:rosa:cv-zz.pdf|}} 
 +ZŽ publikace {{:user:rosa:zz-pub.pdf|}} 
 +HM CV {{:user:rosa:cv_masek.pdf|}}

[ Back to the navigation ] [ Back to the content ]