[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 17:18]
rosa poznání
user:rosa:gauk [2013/11/13 19:48]
rosa
Line 105: Line 105:
 Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT CITE, kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního sylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (CITE PDT, PEDT, PADT, PCEDT, TamilTB, SlovinskejTB). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (CITE), který se snaží být jakousi nadmnožinou všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu (PDT) zejména v případě koordinací, kde se pražský styl ukázal být dostatečně expresivním pro zachycení většiny koordinačních struktur jednotlivých jazyků, mnohé další odlišnosti ale zůstaly ponechány (například anotace složených sloves). Značky závislostních vztahů (deprely) byly namapovány na sadu analytických funkcí definovaných v PDT, která umožňuje správně zachytit nejdůležitější role jako podmět, předmět či přísudek, ale některé další role zachytit neumí (například členy či negativní částice) a dochází tak ke ztrátě informace při konverzi. Navíc nepodporuje podspecifikovanost deprelů, takže v případě že zdrojový treebank neobsahuje dostatek informací pro rozlišení jednotivých deprelů, musejí být použity heuristiky. Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT CITE, kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského anotačního sylu, navazující na postupný vznik několika treebanků anotovaných v tomto stylu (CITE PDT, PEDT, PADT, PCEDT, TamilTB, SlovinskejTB). Značky slovních druhů a morfologických rysů (tagy) byly konvertovány do Intersetu (CITE), který se snaží být jakousi nadmnožinou všech takových značek (kromě těch, které jsou příliš jazykově specifické). Závislostní struktury byly konvertovány do pražského stylu (PDT) zejména v případě koordinací, kde se pražský styl ukázal být dostatečně expresivním pro zachycení většiny koordinačních struktur jednotlivých jazyků, mnohé další odlišnosti ale zůstaly ponechány (například anotace složených sloves). Značky závislostních vztahů (deprely) byly namapovány na sadu analytických funkcí definovaných v PDT, která umožňuje správně zachytit nejdůležitější role jako podmět, předmět či přísudek, ale některé další role zachytit neumí (například členy či negativní částice) a dochází tak ke ztrátě informace při konverzi. Navíc nepodporuje podspecifikovanost deprelů, takže v případě že zdrojový treebank neobsahuje dostatek informací pro rozlišení jednotivých deprelů, musejí být použity heuristiky.
  
-Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (CITE). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí UPT (CITE), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze SD (CITE). **TODO** SD definují hierachicé deprely, umožňují podspecifikovanostGoogle: adaptace deprelů tak, aby byly jazykově nezávislé (něco zmergovaliněkde rozšířili definici). Nicméně stále to má jaké problémy a stále je to work in progress.+Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (CITE). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci - v současné době proto tato kolekce obsahuje pouze šest treebanků, a to poměrně malé velikosti. Slovní druhy jsou reprezentovány pomocí UPT (CITE), který umožňuje zachytit pouze 12 slovních druhů bez dalších morfologických informací, což je pro mnohé aplikace nedostatečné. Anotace závislostních struktur a deprelů vychází ze Stanford Labeled Dependencies (CITE). Jejich sada seprelů má hierachickou strukturucož umožňuje použití podspecifikovaných deprelů, tjnapříklad místo konkrétního druhu slovesného doplnění lze použít obecnější typ deprelu - to je velmi užitečné pro zachycení různé potřebné granularity deprelů v různých jazycích. Výzkumníci Google adaptovali Stanfordské deprely tak, aby byly jazykově nezávislé, zejména pomocí rozšíření definice kterých deprelů spojení více podobných deprelů do jednoho. Kolekce je ale stále ve vývoji, anotace proto dosud není napříč jednotlivými treebanky zcela konzistentní a sada deprelů také ještě není ustálená.
 // //
  

[ Back to the navigation ] [ Back to the content ]