Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/13 16:09] rosa reformát |
user:rosa:gauk [2013/11/13 16:11] rosa |
||
---|---|---|---|
Line 95: | Line 95: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | **Doplnit dle poznámek z meetingu, doladit, reference.** | + | **Znova a lépe.** |
- | // | ||
- | Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
- | |||
- | Obvykle každý treebank (případně malá rodina treebanků, jako např. pražské treebanky) používá jiný anotační styl. Každý styl obvykle vychází z některých jiných, kterým je více či méně podobný, ale v praxi se většina stylů od sebe liší natolik, že pro práci s daty anotovanými jedním stylem není znalost jiného podobného stylu plně postačující. | ||
- | Rozdíly nejen ve struktuře stromů (předložky, | ||
- | |||
- | Každé anotační schéma je nějak lingvisticky motivované, | ||
- | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé anotační styly výrazně vhodnější. | ||
- | |||
- | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. | ||
- | |||
- | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci je HamleDT -- **todo napsat co to je**. | ||
- | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
- | |||
- | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, ale dosti nepostačujícím způsobem. | ||
- | |||
- | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
- | |||
- | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky až stovky různých hodnot). HamleDT to mapuje na afuny, jejichž definice trochu rozšířil, | ||
- | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
- | |||
- | HamleDT má mnoho problémů - chyby v konverzích, | ||
- | |||
- | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
- | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) |