[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/11 23:23]
rosa
user:rosa:gauk [2013/11/13 21:10]
rosa
Line 1: Line 1:
 ====== GAUK na HamleDT ====== ====== GAUK na HamleDT ======
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 +Co není kurzívou, to je moje poznámka.
 +
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
-**Tady se akorát možná vymyslí lepší název?** +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků +Anglický název projektu: Modelling dependency syntax across languages
-Anglický název projektu: HamleDT: Collection of harmonized dependency treebanks for many languages+
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 33: Line 34:
  
 ==== Charakteristika řešitelského kolektivu - rok 2014: ==== ==== Charakteristika řešitelského kolektivu - rok 2014: ====
-**Tohle od vás potřebuju napsat, nějak jsem to nahodil** 
- 
 //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
 +Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
  
 Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků. Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.
 +Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce.//+Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UKPodílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
 +Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
 Položky Rok 2014 Položky Rok 2014
 Ostatní neinvestiční náklady 10 Ostatní neinvestiční náklady 10
-Cestovné 93+Cestovné 90
 Doplňkové náklady (počítá se automaticky) Doplňkové náklady (počítá se automaticky)
 Osobní náklady (mzdy) a stipendia (počítá se automaticky) Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Line 50: Line 52:
  
 ==== Struktura finančních prostředků - rok 2014: ==== ==== Struktura finančních prostředků - rok 2014: ====
-//Za prostředky na ostatní neinvestiční náklady budou pořízeny kancelářské potřeby, odborná +//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. 
-literatura, případně nezbytně nutný hardware. **Koupit harddisk třeba? Dá se i třeba notebook?**+
 Plánované konference a pobyty: Plánované konference a pobyty:
-* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) +* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje 
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč) +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky 
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)+* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy
 Náklady na pobyty jsou určeny přibližně na základě minulých let. Náklady na pobyty jsou určeny přibližně na základě minulých let.
 +
 Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.//
 +
 +Neinvest náklady:
 +Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam.
 +Kancelářský potřeby se tam prej psát nemaj.
 +Literaturu nevim jestli nějakou chcem kupovat.
 +Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal.
  
 ===== Finanční výhled na další roky ===== ===== Finanční výhled na další roky =====
Line 65: Line 74:
 ===== Rozšiřující informace ===== ===== Rozšiřující informace =====
  
-==== Anotace: ====+==== Anotace (max 200 slov): ====
 // //
-Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazykyvčetně vlivu použitých formalismů na úspěšnost technologiíkteré je využivají+V grantovém projektu budeme zkoumat vzájemné podobnosti irozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistikyřešících aktuální problémy zpracování jazyka na úrovni syntaxe. 
-Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0která bude vylepšením rozšířením projektu HamleDT 1.0sdružujícím existující treebanky do jednotného formátu+Prvním typem úloh budou technologie mezijazyčné projekcekdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje
-Bude navržena sada testů, které umožní nalézt nedostatky existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že)a bude navržena jazykově univerzální sada značek pro závislostní vztahy. +Druhým typem úloh bude přenositelnost jednojazyčných technologiíkdy nástroje postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme takaby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje
-Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů. + 
-TODO+Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogennípoužívají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů. 
 +// 
 + 
 +==== Anotace v anglickém jazyce (max 200 slov): ==== 
 + 
 +// 
 +In this grant project, we will explore mutual similarities of natural languages, and we will use our findings for two types of computational linguistics tasks, dealing with current problems of natural language processing on syntax level. 
 +The first task type will be cross-lingual projection technologies, where a model of one language will be used to approximately model a similar language for which sufficient language resources are not available. 
 +The second task type will focus on portability of monolingual technologies, where tools and procedures developed for working with one or a few languages will be generalized so that they can be used to process any or nearly any language for which the corresponding data are available. 
 + 
 +Although there exist vast language resources for a number of languages, practice often shows that it is hard to successfully solve the aforementioned tasks. This is due to the fact that the available resources are usually very heterogeneous, are using different annotation schemes and are built on the basis of different linguistic traditions and conventions. A necessary by-step in reaching the main goals of the project is therefore an assembly and harmonization of existing syntactically annotated language corpora.
 // //
-<!--//Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. 
-Přidání nových treebanků. 
-Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. 
-Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně "univerzální". Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing.// to až do způsobu řešení --> 
  
-==== Anotace v anglickém jazyce: ==== 
-//To se přeloží až to bude česky.// 
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
-//Teď je bžilión treebanků s různorodými anotačními schématy atdTaky je HamleDT a Universal Dependency Treebanks, kdy HamleDT je dobrej ale má ty ty problémy, a UDT je malej...//+ 
 +**TODO citace** 
 + 
 +// 
 +Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech, a mnoho různých parserů, které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, použitím kterých byl daný datový zdroj lingvisticky anotován.) 
 + 
 +Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze zných jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebankůSpolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery. 
 +Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce, kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje CITE. Příbuzným odvětvím je neřízený parsing, kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti, neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků.  
 + 
 +Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT CITE, kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního sylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (CITE PDT, PEDT, PADT, PCEDT, TamilTB, SlovinskejTB). Značky slovních druhů morfologických rysů (tagy) byly konvertovány do Intersetu (CITE), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu (PDT) zejména v případě koordinací, kde se pražský styl ukázal být dostatečně expresivním pro zachycení většiny koordinačních struktur jednotlivých jazyků, mnohé další odlišnosti ale zůstaly ponechány (například anotace složených sloves). Značky závislostních vztahů (deprely) byly namapovány na sadu analytických funkcí definovaných v PDT, která umožňuje správně zachytit nejdůležitější role jako podmět, předmět či přísudek, ale některé další role zachytit neumí (například členy či negativní částice) a dochází tak ke ztrátě informace při konverzi. Navíc nepodporuje podspecifikovanost deprelů, takže v případě že zdrojový treebank neobsahuje dostatek informací pro rozlišení jednotivých deprelů, musejí být použity heuristiky. 
 + 
 +Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (CITE). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí UPT (CITE), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečnéAnotace závislostních struktur a deprelů vychází ze Stanford Labeled Dependencies (CITE)Jejich sada seprelů má hierachickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, zejména pomocí rozšíření definice některých deprelů a spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývoji, anotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená. 
 +// 
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====
-//Posuneme hranice poznání, umožníme lepší nadhled při treebankingukterý tu má dlouhou tradicistvoříme cenný datový zdroj pro multilinguální experimentynapřpro unsupervised parsing...//+(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) 
 +**TODO citace** 
 + 
 +// 
 +První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.  ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). 
 + 
 +Zejména díky svému velkému rozsahu, jakož existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typuse kolekce stane cenným zdrojem pro studenty doktorského studia lingvistikykterým usnadní jejich výzkum -- studenti ÚFALu se věnují například neřízenému parsing (CITE) či jazykovým projekcím (CITE).  Kolekce také umožní vytváření dalších odvozených datových zdrojů: ÚFAL je aktivní například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), koreference (CITE) či sentimentu (CITE). 
 + 
 +Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. 
 + 
 +Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark pro úlohy tohoto typu. 
 + 
 +Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílíÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. 
 + 
 +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. 
 +// 
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]]) 
 ==== Materiální zajištění projektu: ==== ==== Materiální zajištění projektu: ====
-//V pohoale mohli bysme asi koupit harddisk.//+//Tento projekt bude vyžadovat především hardware a software umožňující efektivní zpracováváníukládání a verzování velkého množství dat. Ústav formální a aplikované lingvistiky již tímto vybavením disponuje, s výjimkou dostatečné diskové kapacity. Prostředky grantu budou proto použity na nákup pevných disků potřebné kapacity.// 
 ==== Cíle řešení projektu: ==== ==== Cíle řešení projektu: ====
-//Vytvoření datového zdroje HamleDT 2.5prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů.// +(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) 
-Taky budeme experimentálně ověřovat enositelnost technologií znalostí mezi jazyky, což lze provést například experimenty delexikalizovaným parsingem nebo joint parsingem.+ 
 +// 
 +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. 
 + 
 +Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazyk, k němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat přinejmenším na desítky světových jazykůtak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníkyVěříme, že to ispěje k usnadnění urychlení vývoje v komputační i formální lingvistice. 
 + 
 +Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipozici. Počet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky velkou vypovídací hodnotou. 
 + 
 +Zároveň půjde o cenný zdoj i pro formální lingvisty, kterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společné Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků. 
 +// 
 + 
 +(Původní verze zde: [[user:rosa:gauk_backup#cile-reseni-projektu]])
  
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
 +
 +**Významně přepsat**
 +
 // //
 Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.
Line 105: Line 168:
 Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu. Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu.
  
-Vrcholem projektu pak bude jeho další část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno například využitím kolekce pro vyhodnocování úspěšnosti neřízené závislostní analýzy vět, pro delexikalizovaný parsing, pro paralelní parsing, a podobně. Zároveň bude provedeno vyhodnocení různých anotačních schémat z pohledu vhodnosti pro trénování parserů.+Vrcholem projektu pak bude jeho závěrečná část, jejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektu. To může být provedeno například využitím kolekce pro vyhodnocování úspěšnosti neřízené závislostní analýzy vět, pro delexikalizovaný parsing, pro paralelní parsing, a podobně. Zároveň bude provedeno vyhodnocení různých anotačních schémat z pohledu vhodnosti pro trénování parserů.
 // //
  
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
 //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na 
-konferencích LREC, ACL, a/nebo TLT. +konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. 
-U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány +Průběžné výsledky budeme popisovat také v technických zprávách. 
-Grantovou agenturou Univerzity Karlovy.//+Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. 
 + 
 +U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
  
 ===== Přílohy ===== ===== Přílohy =====
-Moje CV a publikace ([[http://cv.nikde.eu/rosa_rudolf_cv_cs.php]]), +Moje CV a publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}} 
-ZŽ CVZŽ publikaceHM CV.+ZŽ CV {{:user:rosa:cv-zz.pdf|}} 
 +ZŽ publikace {{:user:rosa:zz-pub.pdf|}} 
 +HM CV {{:user:rosa:cv_masek.pdf|}}

[ Back to the navigation ] [ Back to the content ]