Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 22:29] rosa přínos - zdroje |
user:rosa:gauk [2013/11/13 22:41] rosa |
||
---|---|---|---|
Line 204: | Line 204: | ||
==== Způsob řešení: ==== | ==== Způsob řešení: ==== | ||
- | **Významně přepsat** | + | **Work in progress...** |
// | // | ||
- | Práce na projektu bude probíhat na platformě Treex, nad níž je vystavěn projekt HamleDT | + | Práce na projektu bude probíhat na platformě Treex, |
Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. | Základem práce na projektu bude navržení a vytvoření sady automatických a semiautomatických testů konzistence a adekvátnosti zkonvertovaných treebanků. K tomu bude využito jak pravidlových metod, které umožní odhalit výstupy konverzí v přímém rozporu s anotačním schématem, tak metod statistických a metod strojového učení. Ty umožní podchytit jevy nezachytitelné pravidly, jako jsou nepravidelnosti v rozložení jednotlivých značek přiřazených hranám (na základě různých kritérií, zejména slovních druhů slov spojených danou hranou), rozložení počtů potomků jednotlivých rodičovských uzlů, a podobně. | ||
- | Vytvořené testy budou použity na existující sbírku treebanků HamleDT | + | Vytvořené testy budou použity na existující sbírku treebanků HamleDT |
S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. | S tím je přímo svázán další krok, kterým je vylepšení a obohacení existujících konverzí, tak aby se minimalizovaly chyby a nepravidelnosti ve výstupech konverzí. Bude zejména nutné nalézt a opravit chyby a nepřesnosti v konverzích dat ze zdrojových treebanků, tak aby bylo zachováno co nejvíce původních informací jak na úrovni zachycení slovních druhů a morfologických rysů, tak na úrovni struktury závislostních stromů a značek jednotlivých hran. Bude nutné harmonizovat závislostní struktury odpovídající spojkovým skupinám, předložkovým skupinám, složeným slovesům, a podobně. |