[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 23:13]
ufal překlepi
user:rosa:gauk [2014/03/24 18:49]
rosa finance
Line 2: Line 2:
 Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků.
 Co není kurzívou, to je moje poznámka. Co není kurzívou, to je moje poznámka.
 +
 +GAUK podán 13.11.2013 {{:user:rosa:gauk_rr.pdf|}}
 +GAUK přijatý k financování 24. 03. 2014
  
 ===== Základní informace o projektu č. 1572314 ===== ===== Základní informace o projektu č. 1572314 =====
Line 16: Line 19:
 Sekce oborové rady: Společenské vědy - Informatika Sekce oborové rady: Společenské vědy - Informatika
 Pracoviště ÚFAL MFF UK Pracoviště ÚFAL MFF UK
-Historie stavu:  
-07. 11. 2013 - nový 
  
 ===== Řešitelský kolektiv ===== ===== Řešitelský kolektiv =====
 Mgr. Rudolf Rosa Mgr. Rudolf Rosa
-Stipendia 60+Stipendia <del>60</del> 50
  
 doc. Ing. Zdeněk Žabokrtský Ph.D. doc. Ing. Zdeněk Žabokrtský Ph.D.
-Osobní náklady (mzdy a odvody) 20+Osobní náklady (mzdy a odvody) <del>20</del> 10
  
 Bc. Jan Mašek Bc. Jan Mašek
-Stipendia 40+Stipendia <del>40</del> 30
  
  
Line 37: Line 38:
 Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756]  Životopis a publikace řešitele se nacházejí v příloze. [GAUK1039756] 
  
-Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT 1.0, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracech a přípravě prezentací výsledků.+Školitel doc. Ing. Zdeněk Žabokrtský Ph. D. je docentem na Ústavu formální a aplikované lingvistiky. Dlouhodobě se zabývá parsingem, závislostní syntaxí, tektogramatickými strukturami, valencí sloves, zdroji lingvistických dat a strojovým překladem. Podílel se na projektu HamleDT, jehož cílem byla konverze různých závislostních korpusů do společného formátu a jejich částečná harmonizace, a na nějž navazuje tento grantový projekt. Řešitelům poskytne metodické vedení při výzkumných pracích a přípravě prezentací výsledků.
 Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081] Životopis a publikace školitele se nacházejí v přílohách. [GAUK1040080] [GAUK1040081]
  
Line 45: Line 46:
 ===== Finanční požadavky ===== ===== Finanční požadavky =====
 Položky Rok 2014 Položky Rok 2014
-Ostatní neinvestiční náklady 10+Ostatní neinvestiční náklady <del>10</del> 5
 Cestovné 90 Cestovné 90
-Doplňkové náklady (počítá se automaticky) +Doplňkové náklady (počítá se automaticky) (27
-Osobní náklady (mzdy) a stipendia (počítá se automaticky) +Osobní náklady (mzdy) a stipendia (počítá se automaticky) (90
-Celkem (počítá se automaticky)+Celkem (počítá se automaticky) (212)
  
 ==== Struktura finančních prostředků - rok 2014: ==== ==== Struktura finančních prostředků - rok 2014: ====
Line 203: Line 204:
  
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
- 
-**Work in progress...** 
  
 // //
-Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012). +Východiskem pro práci na tomto projektu se stane existující kolekce syntakticky anotovaných korpusů (treebanků) HamleDT (Zeman et al. 2012).  Naším cílem bude vylepšit kvalitu této kolekce pomocí opravy chyb a nepřesností v konverzích zdrojových treebanků takaby bylo správně zachováno co nejvíce původních informací. Bude také nutné harmonizovat odlišně anotované závislostní struktury, které v rámci projektu HamleDT harmonizovány nebyly -- například složená slovesa a podřadící spojky.
-vezmem to a vylepšíme ty konverze +
-budeme zkoumat, jak zvýšit kvalitupomocí pravidlových metod odhalování chyb, i pomocí pravděpodobnostního modelování.+
  
-Základem práce na projektu bude navržení vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v ímém rozporu s anotačním schématem, tak metod statistických metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. +Pro odhalení chyb nepravidelností ve výstupech konverzí budeme využívat jak pravidlových metod, které umožní odhalit přímé rozpory s anotačním schématem, tak metod pravděpodobnostního modelování a strojového učení. Ty nám umožní podchytit jevy pravidly nezachytitelné, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně.
-S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně.+
  
-Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT 1.0 jako zdroj obvykle používá data ze sad CoNLL, která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku.+Je možné, že v některých případech se ukáže jako výhodnější použít jinou verzi zdrojového treebanku -- HamleDT jako zdroj obvykle používá data ze sad CoNLL (Nilsson et al. 2007), která často již prošla nějakou automatickou konverzí, během které se mohly mnohé informace ztratit. V některých případech byla použita ne zcela kvalitní závislostní konverze původně složkového treebanku, v takových případech může být vhodné implementovat konverzi přímo z původního složkového treebanku.
  
-Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématutak aby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují - jde pravděpodobně zejména o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Dependencies+Jedním z výstupů výše uvedených úprav bude i úprava stávajícího anotačního schématu takaby umožňoval vhodným způsobem zachytit všechny informace, které jsou obsaženy v podstatné části treebanků, ale anotační schéma PDT (Böhmová et al. 2003) je zachycuje nedostatečně nebo vůbec, neboť se v českém jazyce běžně nevyskytují -jde například o negativní částice a členy. Bude zváženo, zda místo úpravy existující sady analytických funkcí nezvolit přechod na jinou sadu značek závislostních vztahů, inspirovanou například Stanford Typed Dependencies (De Marneffe Manning 2008).
-Na to budou navázány metody pro export sady harmonizovaných treebanků do některých dalších formátů anotačních schémat (CoNLL, Stanford Dependencies, Google Universal Dependency Treebanks), tak aby byly co nejpřístupnější pro koncové uživatele.+
  
-Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT 1.0, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu.+Dalším z podúkolů projektu bude zmapování dalších existujících treebanků, které nejsou součástí sbírky HamleDT, a jejich zapojení do projektu. V kolekci dosud chybí některé velké treebanky, jako například treebanky čínštiny, francouzštiny či jeden z německých treebanků. Dále budou přidány i některé menší existující treebanky, například pro polštinu a hebrejštinu.
  
 V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka. V druhé fázi projektu se zaměříme na využití vytvořené kolekce pro aktuální úlohy syntaktické analýzy jazyka.
  
-V úloze mezijazyčné projekce se pokusíme vyvinout metody pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. +V úloze mezijazyčné projekce se pokusíme vyvinout úspěšnou metodu pro natrénování syntaktického parseru na treebancích pro jeden nebo několik jazyků a jeho následné použití na analýzu jazyka jiného. Jednou z metodkteré je možné využít, je tzvdelexikalizovaný parsing (McDonald et al. 2011), kdy se parser natrénuje na treebanku, v němž byla jednotlivá slova nahrazena jejich tagy.  Přitom velmi záleží na tom, jak vysokou granularitu tagů použijeme -- zda budou zachycovat pouze slovní druhy slov, nebo i některé jejich morfologické rysyapod.  Tato úloha je užitečná pro analýzu jazyků, pro něž nejsou k dispozici dostatečné datové zdroje pro natrénování parseru standardním způsobem.  Očekáváme, že pro analýzu daného jazyka bude nejvhodnější natrénování parseru na jednom nebo několika nejpodobnějších jazycích.  Naším cílem je dosáhnout s námi vyvinutou metodou úspěšnosti srovnatelné s nejlepšími světovými systémy.
- +
- +
-Vrcholem projektu pak bude jeho závěrečná částjejímž cílem bude experimentálně ověřit využitelnost datových zdrojů vytvořených v první části projektuTo může být provedeno například využitím kolekce pro vyhodnocování úspěšnosti neřízené závislostní analýzy vět, pro delexikalizovaný parsing, pro paralelní parsing, a podobně. Zároveň bude provedeno vyhodnocení různých anotačních schémat z pohledu vhodnosti pro trénování parserů.+
  
 +V úloze přenositelnosti jednojazyčných technologií se zejména pokusíme sestrojit závislostní parser, založený na některém z nejlepších současných parserů (např.  Nivre et al. 2006, McDonald et al. 2005), který bude dosahovat vysoké úspěšnosti na všech jazycích s dostatečnými datovými zdroji, přičemž bude stačit jej natrénovat na treebanku tohoto jazyka, bez nutnosti jej navíc ručně ladit na daný jazyk. V současnosti používané parsery je totiž obvykle nutné pro každý jazyk vyladit, tj. nalézt vhodné hodnoty jejich parametrů, tak aby dosahovaly vysoké úspěšnosti. Věříme, že díky harmonizaci treebanků se nám podaří nalézt takovou sadu parametrů, aby ladění na jednotlivé jazyky nebylo nutné. Může se stát, že toto nebude možné, pak bude naším cílem rozdělit jazyky do jednotlivých typologicky odlišných skupin, a vyladit parser na každou takovou skupinu zvlášť.
  
 Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie - výpočetní cluster, programovací model MapReduce, kódování Unicode, a podobně. Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT. Použity budou odpovídající moderní technologie - výpočetní cluster, programovací model MapReduce, kódování Unicode, a podobně.
Line 234: Line 227:
 Zdroje: Zdroje:
  
 +BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. 
 +
 +DE MARNEFFE, Marie-Catherine; MANNING, Christopher D. The Stanford typed dependencies representation. In: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008. p. 1-8. 
 +
 +MCDONALD, Ryan, et al. Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005. p. 523-530. 
 +
 +MCDONALD, Ryan; PETROV, Slav; HALL, Keith. Multi-source transfer of delexicalized dependency parsers. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011. p. 62-72. 
 +
 +NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. 
 +
 +NIVRE, Joakim; HALL, Johan; NILSSON, Jens. Maltparser: A data-driven parser-generator for dependency parsing. In: Proceedings of LREC. 2006. p. 2216-2219. 
 + 
 ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
  
 ==== Prezentace výsledků: ==== ==== Prezentace výsledků: ====
 //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS.
-Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na +Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí článku na konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML.
-konferenci LREC, ACL, a/nebo TLT -- a plánujeme i publikaci v odborném časopise, například PBML.+
 Průběžné výsledky budeme popisovat také v technických zprávách. Průběžné výsledky budeme popisovat také v technických zprávách.
 Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí.

[ Back to the navigation ] [ Back to the content ]