[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/12 02:50]
rosa
user:rosa:gauk [2013/11/13 16:08]
rosa reformát
Line 2: Line 2:
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 Co není kurzívou, to je moje poznámka. Co není kurzívou, to je moje poznámka.
 +**Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.**
  
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
 **Tady se akorát možná vymyslí lepší název?** **Tady se akorát možná vymyslí lepší název?**
-Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků +Český název projektu: Modelování závislostní syntaxe napříč jazyky 
-Anglický název projektu: HamleDT: Collection of harmonized dependency treebanks for many languages+Anglický název projektu: Modelling of dependency syntax across languages
 Aktuální řešitel: Mgr. Rudolf Rosa Aktuální řešitel: Mgr. Rudolf Rosa
 První žadatel: Rudolf Rosa První žadatel: Rudolf Rosa
Line 35: Line 36:
  
 ==== Charakteristika řešitelského kolektivu - rok 2014: ==== ==== Charakteristika řešitelského kolektivu - rok 2014: ====
-**Tohle od vás potřebuju napsat, nějak jsem to nahodil. Prej by bylo dobrý, aby tu bylo definováno, jakou roli na projektu bude kdo mít... Nevim, jestli tam u sebe mam psát "bude dělat všechno" :-))** 
- 
 //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace.
-Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756]+Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
  
 Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků. Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.
-Životopis a publikace školitele se nacházejí v příloze.+Životopis a publikace školitele se nacházejí v přílohách[GAUK1040080] [GAUK1040081]
  
-Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v XXX absolvoval bakalářské studium XXX na Filosofické fakultě UK. Od XXX se podílí na projektu sentimentové analýzy. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro své lingvistické vzdělání bude jeho hlavním úkolem návrh vyhodnocování testů lingvistické adekvátnosti výstupů, a bude se podílet na návrhu jazykově univerzálního anotačního schématu. +Spoluřešitel Bc. Jan Mašek je studentem druhého ročníku magisterského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v září 2012 absolvoval bakalářské studium Mezikulturní komunikace - angličtina - čeština a Obecné jazykovědy na Filozofické fakultě UK. Podílel se jako anotátor na projektech Prague English Dependency Treebank 1.0 a 2.0 a od ledna 2013 se podílí na projektu SEANCe, analýzy sentimentu v češtině. Téma grantového projektu odpovídá tématu jeho diplomové práce. Pro jeho lingvistické vzdělání a zkušenosti se bude podílet zejména na harmonizaci zdrojových syntakticky anotovaných korpusů a na návrhu jazykově univerzálního anotačního schématu. 
-Životopis spoluřešitele se nachází v příloze.//+Životopis spoluřešitele se nachází v příloze. [GAUK1040145]//
  
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
 Položky Rok 2014 Položky Rok 2014
 Ostatní neinvestiční náklady 10 Ostatní neinvestiční náklady 10
-Cestovné 93+Cestovné 90
 Doplňkové náklady (počítá se automaticky) Doplňkové náklady (počítá se automaticky)
 Osobní náklady (mzdy) a stipendia (počítá se automaticky) Osobní náklady (mzdy) a stipendia (počítá se automaticky)
Line 60: Line 59:
  
 Plánované konference a pobyty: Plánované konference a pobyty:
-* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) +* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje 
-* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 35000 Kč) +* ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava 30000 Kč) -- nejvýznamnější konference v oblasti komputační lingvistiky 
-* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 35000 Kč)+* TLT 2014 (poplatek 3500 Kč, ubytování a doprava 20000 Kč) -- konference specializovaná na syntakticky anotované korpusy
 Náklady na pobyty jsou určeny přibližně na základě minulých let. Náklady na pobyty jsou určeny přibližně na základě minulých let.
  
Line 68: Line 67:
  
 Neinvest náklady: Neinvest náklady:
-Mam tam harddisky (viz materiální todleto).+Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam.
 Kancelářský potřeby se tam prej psát nemaj. Kancelářský potřeby se tam prej psát nemaj.
 Literaturu nevim jestli nějakou chcem kupovat. Literaturu nevim jestli nějakou chcem kupovat.
Line 81: Line 80:
 ==== Anotace (max 200 slov): ==== ==== Anotace (max 200 slov): ====
 // //
-Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazykyvčetně vlivu použitých formalismů na úspěšnost technologiíkteré je využivají+V grantovém projektu budeme zkoumat vzájemné podobnosti irozených jazyků a získané poznatky využijeme pro dva typy úloh komputační lingvistikyřešících aktuální problémy zpracování jazyka na úrovni syntaxe. 
-Za tím účelem bude vytvořena mnohajazyčná sada treebanků HamleDT 2.0která bude vylepšením rozšířením projektu HamleDT 1.0sdružujícím existující treebanky do jednotného formátu+Prvním typem úloh budou technologie mezijazyčné projekcekdy model jednoho jazyka využijeme pro přibližné modelování jazyka podobného, pro který nemáme dostatečné jazykové zdroje
-Bude navržena sada testů, které umožní nalézt nedostatky existujících konverzních blocích a tyto nedostatky budou opraveny. Dále bude konverze rozšířena o harmonizaci anotace lingvistických jevů, které jsou ve zdrojových treebancích zachyceny heterogenně (HamleDT 1.0 řeší prakticky jen koordinace, že)a bude navržena jazykově univerzální sada značek pro závislostní vztahy. +Druhým typem úloh bude přenositelnost jednojazyčných technologiíkdy nástroje postupy vyvinuté pro práci s jedním či několika málo jazyky zobecníme takaby umožňovaly zpracování téměř či zcela libovolného jazyka, pro který jsou k dipozici odpovídající datové zdroje
-Důraz bude kladen na co nejvyšší možnou jazykovou nezávislost všech vytvořených nástrojů. + 
-TODO+Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné tyto úlohy úspěšně řešit. Dostupné zdroje jsou totiž obvykle silně heterogennípoužívají rozdílná anotační schémata a jsou vystavěny na základě odlišných lingvistických tradic a konvencí. Nutným mezikrokem pro uskutečnění hlavních cílů projektu je proto shromáždění a harmonizace existujících syntakticky anotovaných jazykových korpusů.
 // //
-<!--//Vylepšení harmonizace treebanků - teď se neřeší spousta věcí a má to spousty chyb. 
-Přidání nových treebanků. 
-Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. 
-Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně "univerzální". Cross-linguální a multilinguální experimenty, např. delexikalizovaný parsing nebo joint parsing.// to až do způsobu řešení --> 
  
 ==== Anotace v anglickém jazyce (max 200 slov): ==== ==== Anotace v anglickém jazyce (max 200 slov): ====
-//To se přeloží až to bude česky.//+ 
 +**To se přeloží až to bude česky.** 
 + 
 +////
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
-//Teď je bžilión treebanků s různorodými anotačními schématy atd. Taky je HamleDT a Universal Dependency Treebankskdy HamleDT je dobrej ale má ty a ty problémya UDT je malej...// + 
-==== Přínos projektu k rozvoji fakulty / VŠ: ==== +**Doplnit dle poznámek z meetingudoladitreference.**
-(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)+
  
 // //
-Tento projekt navazuje na dlouhou a úspěšnou tradici treebankingu na Ústavu formální aplikované lingvistiky a umožňuje mu stat na světové špičce této oblastiZároveň ještě více zpřístupní treebanky vytvořené na ÚFALu (PDTPEDTPADTTamilTBdalším výzkumníkům.+Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT dalším pražským (PADT, PEDT, PCEDT, TamilTB)... 
 + 
 +Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. 
 +Rozdíly nejen ve struktuře stromů (předložky, koordinace, složená slovesa) a značkách hran (dependency labels no, jak se to česky...), ale i v tagsetech (značkách pro slovní druhy a další morfologické rysy), a dokonce i v tokenizaci **(citace, příklady)**. 
 + 
 +Každé anotační schéma je nějak lingvisticky motivované, nicméně u každého anotačního schématu je třeba vyřešit mnohé otázky, na které je těžké najít jednoznačnou odpověď na základě lingvistické motivace, a jde tedy důsledku o rozhodnutí spíše technická než lingvistickáExistuje hypotéza, že mnoho rozdílů v anotačních schématech je ve skutečnosti spíše technického rázu, a opravdu dobře lingvisticky motivovaných rozdílů je poměrně málo. 
 +Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vědaného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější. 
 + 
 +Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz Daviddelexikalizovaný parsing a projekce těch stromů viz Googlovéale i pro formální lingvistykteří chtějí provádět komparativní analýzu jednotlivých jazyků. 
 + 
 +Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. 
 +Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. 
 + 
 +Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem.
  
-Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylucož bude edstavovat významný a cenný datový zdroj pro výzkumníky mnoha oblastí počítačové i formální lingvistiky.+Struktura stromů: dá se dělat lecjaksale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný jednoho stylu na jinej.
  
-Parsing. Využijou to lidi, který už dělaj unsupervised parsing (DavidValentýn Spitkovský), delexicalized parsing and projection of dependency structures (Loganathan, Googlové), syntax-based machine translation (TectoMT, a určitě ještě někdo) a tak.+Dependency labels: je to hodně divokývelice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afunyjejichž definice trochu rozšířilale je to trochu pofidérní. Googlové to mapujou na upravené Stanford Labeled Dependencies maj to asi o něco hežčí, ale je to work in progress a maj tam lecjaký nejasnosti. Je vidět, že tady je potřeba ještě zapracovat, ideálně najít jakou dobrou sadu labelů který půjdou použít relativně univerzálně -- jakoby Interset na deprely, ale když už máme všechno možný v Intersetu, tak to asi nemusí bejt tak expresivní spíš to může bejt něco jako SD. 
 +Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy.
  
-Srovnávací lingvistika, porovnávající vlastnosti různých jazyků -- usnadnění převedením treebanků do jednotného formátu a anotačního schámatuvčetně existence řady nástrojů vyvíjených na ÚFALukteré je možné použít pro práci s vytvořenými daty.+HamleDT má mnoho problémů - chyby v konverzích, ztrátovost, nedostatečná harmonizace (koordinace anoale co třeba slovesné skupiny?), podivná sada labelů... Asi je to dobrá cestaale chtělo by to dotáhnout.
  
-Kromě vytvoření datového zdroje věříme, že se nám podaří posunout i hranice poznání v oblasti treebankingu, zejména umožněním lepšího nadhledu, že na naší práci budou moci stavědalší výzkumníci v této oblasti na ÚFALu i v zahraničí.+Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk.
 // //
 +==== Přínos projektu k rozvoji fakulty / VŠ: ====
 +(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)
 +**TODO citace**
 +
 +První část projektu - vytvoření kolekce syntakticky anotovaných
 +korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt
 +HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované
 +lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu.
 +ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v
 +parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL).
 +
 +Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých
 +na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro
 +studenty doktorského studia
 +lingvistiky, kterým usnadní jejich výzkum -- studenti ÚFALu se věnují například
 +neřízenému parsing (CITE) či jazykovým projekcím (CITE).
 +Kolekce také umožní vytváření dalších odvozených datových zdrojů:
 +ÚFAL je aktivní
 +například v anotaci hloubkových jazykových struktur (CITE), valence (CITE),
 +koreference (CITE) či sentimentu (CITE).
 +
 +Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských
 +předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie
 +zpracování přirozeného jazyka či Pražský závislostní korpus.
 +
 +Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí
 +lze využít v předmětech zabývajících se oblastmi data-intesive computing a
 +paralelizací; práci s kolekcí by mohlo být možné využít jako benchmark
 +pro úlohy tohoto typu.
 +
 +Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být
 +přínosné například pro systémy strojového překladu založené na syntaxi, jako je
 +ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap,
 +na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi
 +jinými jazykovými páry, než je jediný v současnosti podporovaný pár
 +angličtina-čeština.
 +
 +Na experimenty samotné pak mohou navázat další diplomové či dizertační práce,
 +rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného
 +typu.
 +
 +(Původní verze zde: [[user:rosa:gauk_backup#prinos-projektu-k-rozvoji-fakulty-vs]])
  
 ==== Materiální zajištění projektu: ==== ==== Materiální zajištění projektu: ====
Line 116: Line 169:
  
 ==== Cíle řešení projektu: ==== ==== Cíle řešení projektu: ====
 +(Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.)
 +
 // //
-1. Vytvoření univerzálního anotačního schématupoužitelného pro reprezentaci treebanků mnoha různých jazyků. +Hlavním cílem projektu je dosáhnout světové úrovně v úlohách modelování syntaxe napříč jazyky. 
-2Vytvoření velké kolekce existujících treebanků automaticky zkonvertovaných a harmonizovaných do tohoto univerzálního schématu. + 
-3. Prohloubení poznání o míře odlišnosti jazyků a aplikovatelnosti jednotných přístupů na typologicky odlišné jazyky, doloženo experimenty na vytvořené datové sadě.+Dosažení snadné přenositelnosti jazykových technologií z jednoho jazyka na jiný jazykk němuž existují odpovídající datové zdroje, umožní výzkumníkům vymanit se z omezování se na jeden či několik málo jazyků: vyvinuté nástroje bude možné jednoduše aplikovat na desítky světových jazyků, a tak i snadno porovnat jejich úspěšnost s úspěšností nástrojů vyvinuých jinými výzkumníky. Věříme, že to přispěje k usnadnění a urychlení vývoje v komputační i formální lingvistice
 + 
 +Úspěšně zvládnutí techniky mezjazyčné projekce pak umožní pracovat i s takovými jazyky, pro které dostatečně datové zdroje nejsou k dipoziciPočet jazyků, kterými lidé mluví, se odhaduje na několik tisíc, zatímco zdroje potřebné velikosti a kvality jsou dostupné pouze pro několik desítek z nich. Technologie pro práci s jazyky s omezenými zdroji umožňují použití nástrojů komputační lingvistiky i na tyto jazyky, bez nutnosti nejprve vyvtvořit potřebná data, což je časově i finančně náročné. 
 + 
 +Dílčím cílem projektu je vytvoření velké multilinguální kolekce existujících syntakticky anotovaných korpusů (treebanků), harmonizovaných do jednotného anotačního schématu. 
 + 
 +Možností využití této datové sady v komputační lingvistice se nabízí celá řada, zejména jako zdroje trénovacích dat pro parsing včetně jeho variant, jako je například delexikalizovaný parsing. Může také posloužit jako testovací data pro neřízenou závislostní analýzu jazyka, kde vynikne jednotnost jejího antačního schématu, která umožní srovnání výsledků pro jednotlivé jazyky s velkou vypovídací hodnotou.
  
-Výstupy projektu budou mít rozsáhlé využití v mnoha oblastech lingvistiky pro české i zahraniční výzkumníky. Vytvořenou kolekci bude možné využít v mnoha typech parsingu. Klasický parsing využije jednotnost schématu a formátutakže bude snadné parser bez zásadních úprav natrénovat pro libovolný z jazyků obsažených v kolekci. Kolekce bude snadno využitelná pro všechny oblasti vícejazyčného parsingu, jako je crosslinguální parsing. Díky sjednoceným značkám slovních druhů a morfologických rysů bude také dobře využitelná pro delexikalizovaný parsing. Měla by také být díky jednotnosti schématu vhodnější pro evaluaci neřízeného parsingu. +Zároveň půjde o cenný zdoj i pro formální lingvistykterým umožní snadno zkoumat všechny jazyky obsažené v kolekci, bez nutnosti seznamovat se pro každý jazyk s jeho anotačním schématem, neboť schéma bude pro všechny jazyky společ Zejména ale zásadním způsobem usnadní práci na vzájemném porovnávání jednotlivých jazyků.
-Kolekce bude také cenná pro srovnávací výzkum jazykůneboť umožní postihnout skutečné rozdíly mezi jazyky odstíněním rozdílů daných pouze různými anotačními styly různých datových zdrojů. Navíc umožní zkoumat různé jazyky bez nutnosti seznamovat se pro každý jazyk s anotačním schématem jeho treebankuzájemci bude postačovat seznámit se pouze s jedním anotačním stylem. +
-Na teoretičtější rovině pak výstupy projektu přinesou zřetelné argumenty pro rozličná tvrzení o vzájemné podobnosti či odlišnosti jednotlivých jazyků a o míře existence či neexistence takzvaných jazykových univerzálií.+
 // //
  
-Původní text: +(Původní verze zde[[user:rosa:gauk_backup#cile-reseni-projektu]])
-Vytvoření datového zdroje HamleDT 2.5, prozkoumání jazykové specifičnosti a univerzálnosti různých vlastností jazyků a jazykových jevů. +
-Taky budeme experimentálně ověřovat přenositelnost technologií a znalostí mezi jazyky, což lze provést například experimenty s delexikalizovaným parsingem nebo joint parsingem.+
  
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
 +
 +**Významně přepsat**
 +
 // //
 Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka. Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.
Line 150: Line 210:
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
 //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na 
-konferencích LREC, ACL, a/nebo TLT. +konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. 
-U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány +Průběžné výsledky budeme popisovat také v technických zprávách. 
-Grantovou agenturou Univerzity Karlovy.//+Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. 
 + 
 +U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.//
  
 ===== Přílohy ===== ===== Přílohy =====
-Moje CV a publikace ([[http://cv.nikde.eu/rosa_rudolf_cv_cs.php]]), +Moje CV a publikace {{:user:rosa:rosa_rudolf_cv_cs_2013_11_11.pdf|}} 
-ZŽ CVZŽ publikaceHM CV.+ZŽ CV {{:user:rosa:cv-zz.pdf|}} 
 +ZŽ publikace {{:user:rosa:zz-pub.pdf|}} 
 +HM CV {{:user:rosa:cv_masek.pdf|}}

[ Back to the navigation ] [ Back to the content ]