[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:rosa:gauk [2013/11/13 22:29]
rosa
user:rosa:gauk [2013/11/13 22:41]
rosa
Line 147: Line 147:
 ==== Přínos projektu k rozvoji fakulty / VŠ: ==== ==== Přínos projektu k rozvoji fakulty / VŠ: ====
 (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.)
-**TODO citace** 
  
 // //
Line 164: Line 163:
  
 Zdroje: Zdroje:
 +
 BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127.  BÖHMOVÁ, Alena, et al. The Prague dependency treebank. In: Treebanks. Springer Netherlands, 2003. p. 103-127. 
  
Line 204: Line 204:
 ==== Způsob řešení: ==== ==== Způsob řešení: ====
  
-**Významně přepsat**+**Work in progress...**
  
 // //
-Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT 1.0, a která poskytuje mnoho nástrojů pro zpracování jazyka.+Práce na projektu bude probíhat na platformě Treex, která poskytuje mnoho nástrojů pro zpracování jazyka, a nad níž byl vystavěn projekt HamleDT (Zeman et al2012). Použity budou odpovídající moderní technologie - výpočetní cluster, programovací model MapReduce, kódování Unicode, a podobně.
  
 Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně.
-Vytvořené testy budou použity na existující sbírku treebanků HamleDT 1.0, která se stane východiskem pro práci na tomto projektu.+Vytvořené testy budou použity na existující sbírku treebanků HamleDT (Zeman et al2012), která se stane východiskem pro práci na tomto projektu.
  
 S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně.

[ Back to the navigation ] [ Back to the content ]