Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:rosa:gauk [2013/11/13 19:52] rosa |
user:rosa:gauk [2013/11/13 19:56] rosa anotační styů |
| |
// | // |
Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícícm směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). | Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (např. CITE PennTB, PDT), a také v minulosti organizované soutěže v parsingu (CITE CoNLL). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech, a mnoho parserů, které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.) |
| |
Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery. | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery. |