Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 02:51] rosa |
user:rosa:gauk [2013/11/12 23:50] rosa |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
+ | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků | + | Český název projektu: Odhalování a vytěžování multilingválních similarit |
- | Anglický název projektu: HamleDT: Collection | + | Anglický název projektu: Discovery and exploitation |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 49: | Line 50: | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 93 | + | Cestovné 90 |
Doplňkové náklady (počítá se automaticky) | Doplňkové náklady (počítá se automaticky) | ||
Osobní náklady (mzdy) a stipendia (počítá se automaticky) | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
Line 61: | Line 62: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
* LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | ||
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 68: | Line 69: | ||
Neinvest náklady: | Neinvest náklady: | ||
- | Mam tam harddisky (viz materiální todleto). | + | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. |
Kancelářský potřeby se tam prej psát nemaj. | Kancelářský potřeby se tam prej psát nemaj. | ||
Literaturu nevim jestli nějakou chcem kupovat. | Literaturu nevim jestli nějakou chcem kupovat. | ||
Line 80: | Line 81: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
+ | |||
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají. | + | V grantovém projektu budeme |
- | Za tím účelem | + | Prvním typem úloh budou technologie crosslingvální [mezijazyčné? |
- | Bude navržena sada testů, které umožní nalézt nedostatky | + | Druhým typem bude přenositelnost monolingválních [jednojazyčných?] technologií, kdy nástroje |
- | Důraz bude kladen | + | |
- | TODO | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné |
// | // | ||
- | < | + | |
- | Přidání nových treebanků. | + | |
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané | + | |
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | + | |
+ | Lidské jazyky jsou si navzájem více či méně podobné, a znalost jednoho jazyka můžeme využít pro snazší porozumění jinému jazyku. Doklady toho můžeme pozorovat sami na sobě -- jsme schopni s malou nebo žádnou dopomocí porozumět neznámému jazyku, který je podobný jazyku nám již známému; a čím více cizích jazyků známe, tím snáze se nám učí každý | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
Line 96: | Line 100: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión | + | // |
+ | Treebanky se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
+ | |||
+ | Obvykle každý treebank (případně malá rodina | ||
+ | Rozdíly nejen ve struktuře stromů (předložky, | ||
+ | |||
+ | Každé anotační schéma je nějak lingvisticky motivované, | ||
+ | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé | ||
+ | |||
+ | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. | ||
+ | |||
+ | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci | ||
+ | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
+ | |||
+ | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, | ||
+ | |||
+ | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
+ | |||
+ | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky | ||
+ | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
+ | |||
+ | HamleDT má mnoho problémů - chyby v konverzích, | ||
+ | |||
+ | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
+ | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
(Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) | ||
- | **Tohle by pravděpodobně mělo být celkem konkrétní, | + | **Tohle by pravděpodobně mělo být celkem konkrétní, |
// | // | ||
Line 155: | Line 183: | ||
Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na | Budeme také publikovat příspěvky na mezinárodních konferencích -- plánujeme účast na | ||
konferencích LREC, ACL, a/nebo TLT. | konferencích LREC, ACL, a/nebo TLT. | ||
+ | Plus se budem snažit o časopisy. | ||
+ | A taky budem publikovat software, kterej z toho vznikne, s otevřenejma licencema. | ||
U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | ||
Grantovou agenturou Univerzity Karlovy.// | Grantovou agenturou Univerzity Karlovy.// |