Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 23:45] rosa způsob |
user:rosa:gauk [2014/03/24 18:54] rosa +posudky |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
+ | |||
+ | GAUK podán 13.11.2013 {{: | ||
+ | GAUK přijatý k financování 24. 03. 2014 | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
Line 16: | Line 19: | ||
Sekce oborové rady: Společenské vědy - Informatika | Sekce oborové rady: Společenské vědy - Informatika | ||
Pracoviště ÚFAL MFF UK | Pracoviště ÚFAL MFF UK | ||
- | Historie stavu: | ||
- | 07. 11. 2013 - nový | ||
===== Řešitelský kolektiv ===== | ===== Řešitelský kolektiv ===== | ||
Mgr. Rudolf Rosa | Mgr. Rudolf Rosa | ||
- | Stipendia 60 | + | Stipendia <del>60</ |
doc. Ing. Zdeněk Žabokrtský Ph.D. | doc. Ing. Zdeněk Žabokrtský Ph.D. | ||
- | Osobní náklady (mzdy a odvody) 20 | + | Osobní náklady (mzdy a odvody) <del>20</ |
Bc. Jan Mašek | Bc. Jan Mašek | ||
- | Stipendia 40 | + | Stipendia <del>40</ |
Line 37: | Line 38: | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
Line 45: | Line 46: | ||
===== Finanční požadavky ===== | ===== Finanční požadavky ===== | ||
Položky Rok 2014 | Položky Rok 2014 | ||
- | Ostatní neinvestiční náklady 10 | + | Ostatní neinvestiční náklady <del>10</ |
Cestovné 90 | Cestovné 90 | ||
- | Doplňkové náklady (počítá se automaticky) | + | Doplňkové náklady (počítá se automaticky) (27) |
- | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | + | Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90) |
- | Celkem (počítá se automaticky) | + | Celkem (počítá se automaticky) (212) |
==== Struktura finančních prostředků - rok 2014: ==== | ==== Struktura finančních prostředků - rok 2014: ==== | ||
Line 205: | Line 206: | ||
// | // | ||
- | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). | + | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). |
Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, | ||
Line 211: | Line 212: | ||
Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | ||
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008). | + | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008). |
Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | ||
Line 242: | Line 243: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. |
- | konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML. | + | |
Průběžné výsledky budeme popisovat také v technických zprávách. | Průběžné výsledky budeme popisovat také v technických zprávách. | ||
Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. | ||
Line 254: | Line 254: | ||
ZŽ publikace {{: | ZŽ publikace {{: | ||
HM CV {{: | HM CV {{: | ||
+ | |||
+ | ===== Posudky ===== | ||
+ | ==== Posudek 1. ==== | ||
+ | Jedná se o velmi ambiciózní projekt, autoři se chtějí měřit svými výsledky se světovou špičkou v daném oboru. Především vzhledem k dosavadním výsledkům pracoviště (ÚFAL), které má v oblasti syntaktického parsingu bezpochyby světové renomé, se podle mého názoru jedná o ambici oprávněnou. Vedoucí řešitelského kolektivu, Z. Žabokrtský, | ||
+ | |||
+ | ==== Posudek 2. ==== | ||
+ | Projekt řeší velmi aktuální téma a klade si velmi ambiciózní cíle. Navazuje však na kvalitní existující práci, které se účastnili i odborně fundovaní členové řešitelského týmu, takže je splnitelný. Po formální stránce je návrh dobře a výstižné strukturován, | ||
+ | |||
+ | ==== Shrnutí zpravodaje k projektu ==== | ||
+ | Oponentské posudky vyznívají pro projekt velmi příznivě a označují ho jako vysoce nadprůměrný. Jako zpravodaj mohu konstatovat, |