Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 21:56] rosa řazení bibliografie |
user:rosa:gauk [2013/11/13 22:41] rosa |
||
---|---|---|---|
Line 147: | Line 147: | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **TODO citace** | ||
// | // | ||
- | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. | + | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (Zeman et al. 2012). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, | + | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, |
Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. | ||
Line 158: | Line 157: | ||
Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; | ||
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (Žabokrtský et al. 2008), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. |
Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. | ||
// | // | ||
- | (Původní verze zde: [[user:rosa:gauk_backup# | + | Zdroje: |
+ | |||
+ | BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, | ||
+ | |||
+ | MAREČEK, David; STRAKA, Milan. Stop-probability estimates computed on a large corpus improve Unsupervised Dependency Parsing. In: In Annual Meeting of the Association for Computational Linguistics (ACL' | ||
+ | |||
+ | NEDOLUZHKO, Anna, et al. Extended coreferential relations and bridging anaphora in the prague dependency treebank. In: Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2009), Goa, India. 2009. p. 1-16. | ||
+ | |||
+ | NILSSON, Jens; RIEDEL, Sebastian; YURET, Deniz. The CoNLL 2007 shared task on dependency parsing. In: Proceedings of the CoNLL Shared Task Session of EMNLP-CoNLL. sn, 2007. p. 915-932. | ||
+ | |||
+ | UREŠOVÁ, Zdeňka. Building the PDT-VALLEX valency lexicon. In: On-line proceedings of the fifth Corpus Linguistics Conference. University of Liverpool. 2009. | ||
+ | |||
+ | VESELOVSKÁ, | ||
+ | |||
+ | ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741. | ||
+ | |||
+ | ŽABOKRTSKÝ, | ||
==== Materiální zajištění projektu: ==== | ==== Materiální zajištění projektu: ==== | ||
Line 189: | Line 204: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
- | **Významně přepsat** | + | **Work in progress...** |
// | // | ||
- | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT | + | Práce na projektu bude probíhat na platformě Treex, |
Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. | Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. | ||
- | Vytvořené testy budou použity na existující sbírku treebanků HamleDT | + | Vytvořené testy budou použity na existující sbírku treebanků HamleDT |
S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. | S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. |