[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 21:48]
rosa
user:rosa:gauk [2013/11/13 21:56]
rosa řazení bibliografie
Line 94: Line 94:
  
 ==== Současný stav poznání: ==== ==== Současný stav poznání: ====
- 
-**TODO citace** 
  
 // //
-Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků, viz např. Marcus et al. (1993) nebo Böhmová et al. (2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005a, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)+Syntaktická analýza jazyka (parsing) s pomocí syntakticky anotovaných korpusů (treebanků) je již zavedeným a stále se rozvíjejícím směrem, na čemž má velký podíl existence velkých treebanků (Marcus et al. 1993Böhmová et al. 2003), a také v minulosti organizované soutěže v parsingu (Nilsson et al. 2007). V dnešní době jsou k dispozici desítky treebanků pro mnoho světových jazyků, anotovaných v různých anotačních stylech (Zeman et al. 2012), a mnoho různých parserů (např. McDonald et al 2005b, Nivre at al. 2006), které je možné na těchto treebancích natrénovat a poté použít pro analýzu vět daného jazyka. (Pod pojmem anotační styl rozumíme soubor pravidel a konvencí, s použitím kterých byl daný datový zdroj lingvisticky anotován.)
  
-Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery (McDonald et al. 2005b).+Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje při analýze různých jazyků dosahují různých úspěšností, což odkazuje jednak na typologickou odlišnost jazyků, ale také na odlišnosti v anotačních stylech jednotlivých treebanků. Spolehlivé porovnání úspěšnosti parserů na různých jazycích je proto obtížné a je obvykle nutné parsery více či méně upravovat pro natrénování nad dalším jazykem; některé vlastnosti některých treebanků dokonce znemožňují nad nimi úspěšně natrénovat některé druhy parserů, například neprojektivní konstrukce v češtině jsou překážkou pro projektivní parsery (McDonald et al. 2005a).
 Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků. Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Používají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce (McDonald et al. 2011), kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje. Příbuzným odvětvím je neřízený parsing (Klein a Manning 2004), kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti (Mareček 2012), neboť odlišnosti v lingvistických tradicích a konvencích vedou k heterogennosti jednotlivých treebanků.
  
Line 108: Line 106:
 // //
  
-MARCUS, Mitchell P.; MARCINKIEWICZ, Mary Ann; SANTORINI, Beatrice. Building a large annotated corpus of EnglishThe Penn Treebank. Computational linguistics, 1993, 19.2: 313-330.+Zdroje:
  
 BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127.
  
-NILSSONJensRIEDELSebastianYURETDenizThe CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLLsn, 2007. p. 915-932.+ČMEJREKMartinHAJIČJanKUBOŇVladislavPrague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference2004.
  
-ZEMANDaniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC2012p2735-2741.+DŽEROSKISašo, et al. Towards a Slovene dependency treebank. In: Procof the Fifth InternConf. on Language Resources and Evaluation (LREC)2006.
  
-MCDONALDRyan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language ProcessingAssociation for Computational Linguistics, 2005. p. 523-530.+HAJIČJan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools2004. p. 110-117.
  
-NIVREJoakimHALLJohan; NILSSON, JensMaltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC2006. p. 2216-2219.+KLEINDanMANNINGChristopher DCorpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational LinguisticsAssociation for Computational Linguistics, 2004. p. 478.
  
-MCDONALDRyanPETROVSlavHALLKeithMulti-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72.+MAREČEKDavid. Unsupervised Dependency Parsing. Praha, 2012. Dizertace. MFF UK. 
 + 
 +MARCUS, Mitchell P.MARCINKIEWICZMary AnnSANTORINIBeatriceBuilding a large annotated corpus of English: The Penn Treebank. Computational linguistics, 1993, 19.2: 313-330. 
 + 
 +DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008. p. 1-8.
  
 MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005. p. 91-98. MCDONALD, Ryan; CRAMMER, Koby; PEREIRA, Fernando. Online large-margin training of dependency parsers. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005. p. 91-98.
  
-KLEINDan; MANNINGChristopher DCorpus-based induction of syntactic structure: Models of dependency and constituency. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004. p. 478.+MCDONALDRyanet alNon-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530.
  
-MAREČEKDavidUnsupervised Dependency ParsingPraha2012DizertaceMFF UK.+MCDONALDRyan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsersIn: Proceedings of the Conference on Empirical Methods in Natural Language ProcessingAssociation for Computational Linguistics2011p62-72.
  
-HAJIČJan, et al. Prague Arabic dependency treebank: Development in data and tools. In: Proc. of the NEMLAR Intern. Conf. on Arabic Language Resources and Tools. 2004. p. 110-117.+MCDONALDRyan, et al. Universal dependency annotation for multilingual parsingProceedings of ACL, Sofia, Bulgaria, 2013.
  
-ČMEJREKMartinHAJIČJanKUBOŇVladislavPrague Czech-English dependency treebank: Syntactically annotated resources for machine translation. In: In Proceedings of EAMT 10th Annual Conference2004.+NILSSONJensRIEDELSebastianYURETDenizThe CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLLsn, 2007. p. 915-932.
  
-DŽEROSKISašoet alTowards a Slovene dependency treebank. In: Proc. of the Fifth InternConfon Language Resources and Evaluation (LREC)2006.+NIVREJoakim; HALLJohan; NILSSON, JensMaltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC2006p. 2216-2219. 
 + 
 +PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012.
  
 RAMASAMY, Loganathan; ŽABOKRTSKÝ, Zdenek. Prague Dependency Style Treebank for Tamil. In: LREC. 2012. p. 1888-1894. RAMASAMY, Loganathan; ŽABOKRTSKÝ, Zdenek. Prague Dependency Style Treebank for Tamil. In: LREC. 2012. p. 1888-1894.
Line 138: Line 142:
 ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008.
  
-MCDONALDRyan, et al. Universal dependency annotation for multilingual parsingProceedings of ACL, Sofia, Bulgaria, 2013.+ZEMANDaniel, et al. HamleDT: To Parse or Not to Parse?In: LREC. 2012. p. 2735-2741.
  
-PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: Proceedings of LREC. 2012. 
- 
-DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008. p. 1-8. 
  
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====

[ Back to the navigation ] [ Back to the content ]