Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 21:49] rosa |
user:rosa:gauk [2013/11/13 21:56] rosa řazení bibliografie |
||
---|---|---|---|
Line 96: | Line 96: | ||
// | // | ||
- | Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (Marcus et al. 1993, Böhmová et al. 2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005a, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.) | + | Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (Marcus et al. 1993, Böhmová et al. 2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005b, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.) |
- | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, | + | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, |
Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. | ||
Line 106: | Line 106: | ||
// | // | ||
- | MARCUS, Mitchell P.; MARCINKIEWICZ, | + | Zdroje: |
BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
- | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency | + | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English |
- | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | + | DŽEROSKI, Sašo, et al. Towards a Slovene dependency treebank. In: Proc. of the Fifth Intern. Conf. on Language Resources and Evaluation (LREC). 2006. |
- | MCDONALD, Ryan, et al. Non-projective | + | HAJIČ, Jan, et al. Prague Arabic |
- | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency | + | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency |
- | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer | + | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. |
+ | |||
+ | MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building a large annotated corpus | ||
+ | |||
+ | DE MARNEFFE, Marie-Catherine; | ||
MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, | ||
- | KLEIN, Dan; MANNING, Christopher D. Corpus-based induction of syntactic structure: Models of dependency | + | MCDONALD, Ryan, et al. Non-projective |
- | MAREČEK, David. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. | + | MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72. |
- | HAJIČ, Jan, et al. Prague Arabic | + | MCDONALD, Ryan, et al. Universal |
- | ČMEJREK, Martin; HAJIČ, Jan; KUBOŇ, Vladislav. Prague Czech-English | + | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency |
- | DŽEROSKI, Sašo, et al. Towards a Slovene | + | NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency |
+ | |||
+ | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | ||
RAMASAMY, Loganathan; ŽABOKRTSKÝ, | RAMASAMY, Loganathan; ŽABOKRTSKÝ, | ||
Line 136: | Line 142: | ||
ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. | ||
- | MCDONALD, Ryan, et al. Universal dependency annotation for multilingual parsing. Proceedings of ACL, Sofia, Bulgaria, 2013. | + | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. |
- | PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. | ||
- | |||
- | DE MARNEFFE, Marie-Catherine; | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== |