Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 23:45] rosa způsob |
user:rosa:gauk [2013/11/13 23:56] rosa |
||
---|---|---|---|
Line 37: | Line 37: | ||
Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] | ||
- | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, | + | Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, |
Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] | ||
Line 205: | Line 205: | ||
// | // | ||
- | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). | + | Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). |
Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, | Pro odhalení chyb a nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, | ||
Line 211: | Line 211: | ||
Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku. | ||
- | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu, tak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008). | + | Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu tak, aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -- jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe a Manning 2008). |
Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, | Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, |