Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:rosa:gauk [2015/01/06 14:15] ufal +kolektiv 2015 |
user:rosa:gauk [2017/03/29 23:48] (current) ufal +závěrečná zpráva |
||
---|---|---|---|
Line 22: | Line 22: | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
+ | |||
+ | ==== Charakteristika řešitelského kolektivu - rok 2016: ==== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia < | + | Stipendia < |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
Osobní náklady (mzdy a odvody) < | Osobní náklady (mzdy a odvody) < | ||
- | Bc. Jan Mašek | + | Mgr. Martin Popel |
- | Stipendia < | + | Stipendia < |
+ | Dal jsem si 80 pač žádám míň na cestovný tak aby to v součtu bylo podobnější jako loni, a taky protože tentokrát nejsem na Petřinym návrhu (která mi v uplynulých letech navrhovala 20 ale nikdy jí to nedali), ale jen u sebe a u Ondry (kterej mi navrhuje 20), a maximální součet GAUKovejch stipendií na člověka je 100. | ||
- | Dal jsem si 60, protože | + | Martinovi navrhuju 39 a ne 40 protože |
- | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní | + | |
- | Edit: Tak nakonec jsem dostal | + | //Složení řešitelského kolektivu je stejné jako v roce 2015. |
+ | |||
+ | Martin Popel se od harmonizace treebanků (HamleDT/ | ||
==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ==== Charakteristika řešitelského kolektivu - rok 2015: ==== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Mgr. Martin Popel | ||
+ | Stipendia < | ||
+ | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem druhého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel a podílí na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu je součástí jeho disertace. V projektu se bude soustředit na jeho hlavní cíl, tj. technologie přenosu nástrojů syntaktické analýzy napříč jazyky. | ||
- | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. | + | Životopis a seznam vybraných publikací řešitele se nacházejí v příloze. |
Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | ||
- | Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. | + | Životopis a seznam vybraných publikací školitele se nacházejí v přílohách. |
- | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, | + | Spoluřešitel Mgr. Martin Popel je studentem šestého ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze. V rámci projektu naváže na práci předchozího spoluřešitele, |
+ | Životopis a seznam vybraných publikací spoluřešitele se nachází v příloze. [GAUK1051194]// | ||
==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ==== Charakteristika řešitelského kolektivu - rok 2014: ==== | ||
+ | Mgr. Rudolf Rosa | ||
+ | Stipendia < | ||
+ | |||
+ | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
+ | Osobní náklady (mzdy a odvody) < | ||
+ | |||
+ | Bc. Jan Mašek | ||
+ | Stipendia < | ||
+ | |||
+ | |||
+ | Dal jsem si 60, protože na dalších dvou návrhách GAUKů mam 20 a 20 a max pro mě je 100. | ||
+ | Max pro vedoucího je 20, pro spoluřešitele asi taky 100 (ale asi se očekává, že bude mít míň než hlavní řešitel - aspoň u všech GAUKů co jsem viděl to tak bylo). | ||
+ | Edit: Tak nakonec jsem dostal ještě 10 na GAUKu Ondry Duška (vše zřejmě krátili o 10), Petře GAUK nedali. | ||
+ | |||
//Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | //Hlavní řešitel, Mgr. Rudolf Rosa, je studentem prvního ročníku doktorského studia Matematické lingvistiky na Ústavu formální a aplikované lingvistiky MFF UK v Praze, v červnu 2013 dokončil navazující magisterské studium tamtéž. Po dobu studia se podílel na několika výzkumných projektech, zaměřených na zlepšování kvality strojového překladu, a je spoluautorem řady článků prezentovaných na mezinárodních konferencích. Téma grantového projektu bude součástí jeho disertace. | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
Line 57: | Line 86: | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2016: ==== | ||
+ | Položky Rok 2016 | ||
+ | Ostatní neinvestiční náklady 1 | ||
+ | Cestovné 50 | ||
+ | Doplňkové náklady 28 | ||
+ | Osobní náklady (mzdy) a stipendia 139 | ||
+ | Celkem 218 | ||
+ | |||
+ | Žádám o půlku míň na cestovné protože jsem část roku na stáži v Googlu a tím pádem budu mít míň času na výzkum a psaní článků. I tak hrozí že to nevyčerpám, | ||
+ | Taky můžu zkusit publikovat v PBML, tam je opravdu velká šance se dostat, nejsou na to potřeba cestovací peníze, a snad by to mohlo mít i nějaké přívětivé dedlajny (nejspíš konec června). | ||
+ | Martin je navíc invited speaker na jakési summer school, na kterou si bude kupovat letenku (cca 8 000), takže i pokud by mi nic nevyšlo tak ACL+summer school+ITAT by společně měly zvládnout vyčerpat GAUK. | ||
+ | |||
+ | //Výsledky našeho projektu máme v úmyslu prezentovat na některých z následujících konferencí (náklady odhadnuté na základě informací z minulých let): | ||
+ | - ACL, Německo, 33 000 Kč (15 000 konferenční poplatek, 18 000 ubytování a doprava) | ||
+ | - EMNLP, USA, 50 000 Kč (10 000 konferenční poplatek, 40 000 ubytování a doprava) | ||
+ | - ITAT/ | ||
+ | - Coling, Japonsko, 45 000 Kč (15 000 konferenční poplatek, 30 000 ubytování a doprava) | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje a na výrobu posterů na konference.// | ||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2015: ==== | ||
+ | Položky Rok 2015 | ||
+ | Ostatní neinvestiční náklady 1 | ||
+ | Cestovné 100 | ||
+ | Doplňkové náklady (počítá se automaticky) (28) | ||
+ | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) | ||
+ | Celkem (počítá se automaticky) (219) | ||
+ | |||
+ | //Máme v plánu prezentovat výsledky výzkumu na následujících konferencích: | ||
+ | * ACL 2015, Peking (poplatek 14 000 Kč, ubytování a doprava 35 000 Kč) – nejvýznamnější konference v oblasti komputační lingvistiky | ||
+ | * EMNLP 2015, Lisabon (poplatek 14 000 Kč, ubytování a doprava 23 000 Kč) – nejvýznamnější konference zaměřená na použití empirických metod v počítačové lingvistice | ||
+ | * TLT 2015, Varšava (poplatek 2 000 Kč, ubytování a doprava 12 000 Kč) – konference specializovaná na syntakticky anotované korpusy | ||
+ | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
+ | Dle okolností (přijetí/ | ||
+ | |||
+ | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK. | ||
+ | |||
+ | Prostředky na ostatní neinvestiční náklady budou použity na drobné nutné výdaje, případně na výrobu posterů na konference.// | ||
+ | |||
+ | |||
+ | ==== Struktura finančních prostředků - rok 2014: ==== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady < | Ostatní neinvestiční náklady < | ||
Line 64: | Line 137: | ||
Celkem (počítá se automaticky) (212) | Celkem (počítá se automaticky) (212) | ||
- | ==== Struktura finančních prostředků - rok 2014: ==== | ||
//Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | //Za prostředky na ostatní neinvestiční náklady bude pořízen nezbytně nutný hardware, zejména pevné disky. | ||
Line 75: | Line 147: | ||
Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | Částky na stipendia a mzdy jsou navrženy v souladu s požadavky Grantové agentury UK.// | ||
- | TLT 2014: | + | ==== Finanční výhled na další roky ==== |
- | The 13th International Workshop on Treebanks and Linguistic Theories (TLT13) will be held in Tübingen on 12-13 December, 2014. | + | |
- | http:// | + | |
- | Jízdenka: cca 5000 Kč | + | |
- | Ubytování na 3 noci: cca 5000 Kč | + | |
- | Registrace: cca 2000 Kč | + | |
- | + | ||
- | < | + | |
- | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. | + | |
- | Kancelářský potřeby se tam prej psát nemaj. | + | |
- | Literaturu nevim jestli nějakou chcem kupovat. | + | |
- | Dal bych tam případné licence na potřebné datové zdroje, pač nevim, jestli si nějaký treebanky třeba nebudem muset koupit, ale to nevim a asi spíš ne, tak bych to tam nepsal.--> | + | |
- | + | ||
- | ===== Finanční výhled na další roky ===== | + | |
Rok 2015: 250 | Rok 2015: 250 | ||
Rok 2016: 250 | Rok 2016: 250 | ||
+ | |||
+ | ===== Závěrečná zpráva projektu ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V minulém roce se zejména Martin Popel dále věnoval harmonizaci treebanků do jednotného anotačního stylu v rámci mezinárodní spolupráce Universal Dependencies (UD). Skupina UD postupně vydala rozšířené kolekci treebanků UD 1.3 a UD 1.4, zahrnující již 64 treebanků pro 47 jazyků. Byla také vytvořena aktualizovaná verze anotačního schématu, UD 2.0. Letos UD vydá treebanky s touto novou anotací, a zorganizuje soutěž v multijazyčném parsingu v rámci konference CoNLL. | ||
+ | Martin se dále podílel zejména na Udapi (http:// | ||
+ | |||
+ | Rudolf Rosa se zaměřil na lexikalizaci mezijazyčně přenášených parserů, neboť informace o identitě jednotlivých slov dosud v jeho práci citelně chyběla; dosud jsme používali parsery delexikalizované. | ||
+ | Větší část roku se Rudolf snažil sblížit jazyky pomocí bilingválně konzistentní segmentace slov na morfy, a o přenos lexikální informace na úrovni těchto nejmenších jazykových jednotek nesoucích význam. Bohužel přes předběžné slibné výsledky se nepodařilo potvrdit ani vyvrátit užitečnost těchto metod pro jednojazyčný ani mezijazyčný parsing. | ||
+ | Ke konci roku jsme se proto přeorientovali na přenos mezi extrémně blízkými jazyky (např. čeština-slovenština, | ||
+ | |||
+ | ==== Splnění cílů projektu ==== | ||
+ | //Prvním cílem projektu bylo vytvoření velké multilingvální sbírky treebanků s harmonizovanou anotací. Projekt zde nejprve navázal na sbírku HamleDT, kterou dále rozvíjel a sjednocoval její anotaci. Tato aktivita se postupně stala součástí nově vzniklého mezinárodního projektu Universal Dependencies, | ||
+ | |||
+ | Druhým a hlavním cílem projektu bylo dosažení světové úrovně v přenosu parseru mezi jazyky. Již ve druhém roce projektu se nám podařilo vyvinout novou metodu pro přenos delexikalizovaného parseru, která dosáhla zajímavých výsledků a byla kladně přijata mezinárodní vědeckou komunitou. V závěru projektu se nám pak podařilo pro potřeby přenosu parseru mezi blízkými jazyky novým způsobem aplikovat existující metody strojového překladu, a vhodně využít i další možnosti, které nám poskytly dostupné nástroje a data. To nám následně zajistilo přesvědčivé vítězství v mezinárodní soutěži VarDial 2017. I tento hlavní cíl projektu tedy můžeme označit za splněný.// | ||
+ | |||
+ | ==== Závěrečná zpráva ==== | ||
+ | //Projekt celkově považujeme za velmi úspěšný. Stanovené cíle se podařilo splnit či dokonce překonat. Přímo jsme se podíleli na vzniku a dalším rozvoji velké multilingvální harmonizované sbírky treebanků Universal Dependencies, | ||
+ | |||
+ | Kromě zapojení do skupiny UD jsme navázali užší individuální spolupráci s několika výzkumníky v rámci ústavu (zejména Milan Straka a Daniel Zeman) a volnější spolupráci s některými zahraničními výzkumníky (zejména Željko Agić z University of Copenhagen a Omer Levy z University of Washington). Díky projektu tak došlo k oživení skupiny parsingu na ÚFALu, a celkově se nám podařilo obnovit a upevnit postavení Ústavu jako významného světového výzkumného centra v oblasti syntaktického zpracování jazyka a metod mezijazyčné projekce.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | 7 výsledků, z toho 3 významné datasety, 1 článek se zásadními výsledky projektu, a 3 články s projektem související pouze volně. | ||
+ | |||
+ | ===== Výroční zpráva za 2015 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | // | ||
+ | Dále jsme dvě existující metody kombinace zdrojů nově adaptovali na úlohu mezijazyčné projekce, což umožnilo pro analýzu cílového jazyka efektivně kombinovat informace získané z více zdrojových jazyků. Následně jsme tyto metody zkombinovali s metrikou KLcpos3, tak aby přikládaly větší váhu informacím pocházejícím z podobnějších jazyků. Úspěšnost vyvinutých metod jsme potvrdili rozsáhlým vyhodnocením na 30 různých jazycích (kolekce HamleDT). | ||
+ | Výsledky své práce jsme prezentovali na několika mezinárnodních konferencích, | ||
+ | |||
+ | Ve sběru a harmonizaci treebanků došlo během minulého roky k zásadnímu převratu. Pod vedením Joakima Nivreho z Uppsalské univerzity došlo ke sjednocení pracovních skupin Stanford Dependencies, | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V nadcházejícím roce plně přejdeme na používání nového anotačního stylu Universal Dependencies (UD), což nám umožní využít více datových zdrojů, které jsou nově k dispozici v rámci projektu UD; zároveň budeme dále využívat i všechny zdroje dostupné v rámci původní sbírky HamleDT, neboť ta byla v minulém roce také celá převedena do formátu UD. Práce na převodu pro tento projekt klíčové platformy Treex/ | ||
+ | |||
+ | Hlavním směrem výzkumu v mezijazyčné projekci závislostní anotace bude možnost kombinace námi vyvinutých metod a metod vyvinutých jinými výzkumníky. Chceme se pokusit i o aktivní mezinárodní spolupráci, | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | // | ||
+ | |||
+ | ==== Seznam dosažených výsledků ==== | ||
+ | Následující text je můj komentář, není součástí Zprávy. | ||
+ | Přiloženo 12 výsledků, z toho 7 článků ve sborníku, zbytek jsou data, software, a teze k doktorské zkoušce. | ||
+ | 6 výsledků jsou přímo výstupy cílené práce na tomto projektu (a na jejich prezentaci jsem využil cestovací peníze GAUKu). 2 jsou výsledky práce dělané v rámci několika projektů zároveň. 4 výsledky se projektu týkají spíše okrajově, z pohledu tohoto projektu v nich jde hlavně o internacionalizaci Treexu, která se dělala primárně pro TectoMT, ale tento projekt z toho bude v dalším roce taky benefitovat. | ||
+ | |||
+ | ===== Výroční zpráva za 2014 ===== | ||
+ | ==== Zpráva o řešení za minulý rok ==== | ||
+ | //V prvním roce projektu bylo dosaženo vytyčených cílů. Kolekce treebanků HamleDT, která se stala východiskem pro naši práci, byla v mnoha ohledech zkvalitněna (oprava chyb v harmonizaci, | ||
+ | Spoluřešitel Jan Mašek dále implementoval základní verzi nástroje pro automatickou detekci a korekci anotačních a konverzních chyb v morfologicky a syntakticky anotovaných korpusech. Tento nástroj se stane těžištěm jeho diplomové práce; z důvodu přerušení studia však přestává být spoluřešitelem tohoto projektu.// | ||
+ | |||
+ | ==== Výhled pro další rok ==== | ||
+ | //V následujícím roce bude nový spoluřešitel Martin Popel dále pracovat na rozšiřování a zkvalitňování kolekce HamleDT. | ||
+ | Rudolf Rosa se bude věnovat úloze mezijazyčné projekce závislostní anotace, kde očekáváme dosažení úspěšnosti srovnatelné s nejlepšími světovými systémy.// | ||
+ | |||
+ | ==== Komentář k vyčerpaným financím ==== | ||
+ | //V původním rozpočtu nebyly uvažovány náklady na výrobu posterů pro prezentaci výstupů projektu na konferencích, | ||
+ | Náklady na cestovné byly využity na účast na konferencích plánovaných v původním rozpočtu (LREC, ACL, TLT); neplánované spolufinancování z dalších grantů (MosesCore a SVV) umožnilo navíc účast na konferenci ITAT a krátký studijní pobyt na University of Edinburgh.// | ||
===== Rozšiřující informace ===== | ===== Rozšiřující informace ===== | ||
Line 123: | Line 241: | ||
Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (Böhmová et al. 2003, Hajič et al. 2004, Čmejrek et al. 2004, Džeroski et al. 2006, Ramasamy a Žaboktský 2012). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (Zeman 2008), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu PDT (Böhmová et al. 2003) zejména v případě koordinací, | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT (Zeman 2012), kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního stylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (Böhmová et al. 2003, Hajič et al. 2004, Čmejrek et al. 2004, Džeroski et al. 2006, Ramasamy a Žaboktský 2012). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (Zeman 2008), který je pokusem o vytvoření jakési nadmnožiny všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu PDT (Böhmová et al. 2003) zejména v případě koordinací, | ||
- | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada seprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, | + | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt společnosti Google s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten na rozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada deprelů má hierarchickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, |
// | // | ||
Line 283: | Line 401: | ||
==== Shrnutí zpravodaje k projektu ==== | ==== Shrnutí zpravodaje k projektu ==== | ||
Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2015 ==== | ||
+ | Projekt pokračuje bez problémů. Publikační činnost v pořádku. Plán práce na další rok velmi ambiciózní (" | ||
+ | |||
+ | ==== Posudek zpravodaje projektu za rok 2016 ==== | ||
+ | Projekt pokračuje úspěšně. Publikační činnost je letos obzvlášť aktivní. Výhled na příští rok vypadá lákavě -- těším se zejména na výsledky mezinárodní spolupráce a srovnání výsledků v mezinárodním měřítku. |