Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 16:08] rosa reformát |
user:rosa:gauk [2013/11/13 19:48] rosa |
||
---|---|---|---|
Line 95: | Line 95: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | **Doplnit dle poznámek z meetingu, doladit, reference.** | + | **TODO citace** |
// | // | ||
- | Syntakticky anotované korpusy | + | Syntaktická analýza jazyka |
- | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým | + | Jedním z velkých témat současné komputační lingvistiky je multilingualita. Ukazuje se, že nástroje |
- | Rozdíly nejen ve struktuře stromů (předložky, koordinace, složená slovesa) a značkách hran (dependency labels no, jak se to česky...), ale i v tagsetech (značkách pro slovní druhy a další morfologické rysy), a dokonce i v tokenizaci **(citace, příklady)**. | + | Na významu také získává zaměření na jazyky, pro které je dostupné pouze malé nebo žádné množství potřebných datových zdrojů pro natrénování parseru standardním způsobem. Použvají se proto přibližné techniky delexikalizovaného parsingu a mezijazyčné projekce, kdy se parser natrénovaný na existujícím treebanku pro jeden jazyk použije pro analýzu jiného podobného jazyka, pro nějž nejsou k dispozici dostatečné datové zdroje CITE. Příbuzným odvětvím je neřízený parsing, kdy se parser trénuje nad velkými daty bez syntaktické anotace, pouze na základě definování pravděpodobnostních požadavků na výsledné závislostní stromy. Pro vyhodnocení úspěšnosti obou těchto metod se používají existující treebanky, což velmi znesnadňuje spolehlivé vyhodnocení jejich úspěšnosti, neboť odlišnosti v lingvistických tradicích |
- | Každé anotační schéma je nějak lingvisticky motivované, nicméně u každého anotačního | + | Již nějakou dobu se tedy objevuje myšlenka sjednocení anotačních stylů treebanků, tak aby nenastávaly výše popsané problémy. Prvním velkým projektem tohoto typu byl HamleDT CITE, kolekce 29 treebanků pro různé jazyky sjednocených (harmonizovaných) do pražského |
- | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější. | + | |
- | Heterogenní treebanky představují překážku v mnoha oblastech | + | Druhým velkým projektem v oblasti vytváření velké kolekce harmonizovaných treebanků je projekt Googlu s názvem Universal Dependency Treebanks (CITE). Ten narozdíl od HamleDTa nejde cestou konverze existujících treebanků, ale rozhodl se pro vytváření nových treebanků, což umožňuje zaručit skutečně vysokou jednotnost anotace, ale na druhé straně jde o zdlouhavou a finančně náročnou práci |
+ | // | ||
- | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. | ||
- | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
- | |||
- | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. | ||
- | |||
- | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
- | |||
- | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afuny, jejichž definice trochu rozšířil, | ||
- | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
- | |||
- | HamleDT má mnoho problémů - chyby v konverzích, | ||
- | |||
- | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
- | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
**TODO citace** | **TODO citace** | ||
- | První část projektu - vytvoření kolekce syntakticky anotovaných | + | // |
- | korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt | + | První část projektu - vytvoření kolekce syntakticky anotovaných korpusů (treebanků) s jednotným anotačním schématem - přímo navazuje na projekt HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. |
- | HamleDT (CITE). Výstupy této práce umožní Ústavu formální a aplikované | + | |
- | lingvistiky (ÚFAL) udržet si prestiž a úroveň světové špičky v oblasti treebankingu. | + | |
- | ÚFAL by se díky této kolekci například mohl pokusit o zorganizování soutěže v | + | |
- | parsingu, navazující na úspěšné soutěže tohoto typu v minulosti (CITE CoNLL). | + | |
- | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých | + | Zejména díky svému velkému rozsahu, jakož i existenci mnoha nástrojů vyvinutých na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro studenty doktorského studia lingvistiky, |
- | na ÚFALu pro práci s daty tohoto typu, se kolekce stane cenným zdrojem pro | + | |
- | studenty doktorského studia | + | |
- | lingvistiky, | + | |
- | neřízenému parsing (CITE) či jazykovým projekcím (CITE). | + | |
- | Kolekce také umožní vytváření dalších odvozených datových zdrojů: | + | |
- | ÚFAL je aktivní | + | |
- | například v anotaci hloubkových jazykových struktur (CITE), valence (CITE), | + | |
- | koreference (CITE) či sentimentu (CITE). | + | |
- | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských | + | Vytvořený datový zdroj bude využitelný i ve výuce některých magisterských předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie zpracování přirozeného jazyka či Pražský závislostní korpus. |
- | předmětů garantovaných ÚFALem, jako jsou Zdroje lingvistických dat, Technologie | + | |
- | zpracování přirozeného jazyka či Pražský závislostní korpus. | + | |
- | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí | + | Potřebu masivně paralelního zpracovávání velkých dat při práci s kolekcí lze využít v předmětech zabývajících se oblastmi data-intesive computing a paralelizací; |
- | lze využít v předmětech zabývajících se oblastmi data-intesive computing a | + | |
- | paralelizací; | + | |
- | pro úlohy tohoto typu. | + | |
- | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být | + | Poznatky získané experimenty s modelováním syntaxe napříč jazyky mohou být přínosné například pro systémy strojového překladu založené na syntaxi, jako je ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi jinými jazykovými páry, než je jediný v současnosti podporovaný pár angličtina-čeština. |
- | přínosné například pro systémy strojového překladu založené na syntaxi, jako je | + | |
- | ÚFALem vyvíjené TectoMT (CITE), a s ním související mezinárodní projekt QTLeap, | + | |
- | na němž se ústav podílí. ÚFALu by se tak mohly otevřít dveře k překladu mezi | + | |
- | jinými jazykovými páry, než je jediný v současnosti podporovaný pár | + | |
- | angličtina-čeština. | + | |
- | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, | + | Na experimenty samotné pak mohou navázat další diplomové či dizertační práce, rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného typu. |
- | rozšiřující a prohlubující tyto experimenty a přinášející nové experimenty podobného | + | // |
- | typu. | + | |
(Původní verze zde: [[user: | (Původní verze zde: [[user: |