[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 21:48]
rosa
user:rosa:gauk [2013/11/13 21:51]
rosa
Line 94: Line 94:
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
- 
-**TODO citace** 
  
 // //
-Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků, viz např. Marcus et al. (1993) nebo Böhmová et al. (2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005a, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)+Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (Marcus et al. 1993Böhmová et al. 2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005a, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)
  
 Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery (McDonald et al. 2005b). Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery (McDonald et al. 2005b).
Line 107: Line 105:
 Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada seprelů má hierachickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, zejména pomocí rozšíření definice některých deprelů a spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývoji, anotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená. Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (McDonald et al. 2013). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí Universal part-of-speech tagset (Petrov et al. 2012), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Typed Dependencies (De Marneffe a Manning 2008). Jejich sada seprelů má hierachickou strukturu, což umožňuje použití podspecifikovaných deprelů, tj. například místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, zejména pomocí rozšíření definice některých deprelů a spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývoji, anotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená.
 // //
 +
 +Zdroje:
  
 MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building a large annotated corpus of English: The Penn Treebank. Computational linguistics, 1993, 19.2: 313-330. MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building a large annotated corpus of English: The Penn Treebank. Computational linguistics, 1993, 19.2: 313-330.

[ Back to the navigation ] [ Back to the content ]