Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:rosa:gauk [2013/11/12 01:13] rosa |
user:rosa:gauk [2013/11/13 01:33] rosa |
||
---|---|---|---|
Line 2: | Line 2: | ||
Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | Co je kurzívou, to je obsah velkého textového pole -- obvykle je požadavek na min. 50 znaků. | ||
Co není kurzívou, to je moje poznámka. | Co není kurzívou, to je moje poznámka. | ||
+ | **Nevim, jak moc to má bejt česky a jak moc to může bejt anglicky.** | ||
===== Základní informace o projektu č. 1572314 ===== | ===== Základní informace o projektu č. 1572314 ===== | ||
**Tady se akorát možná vymyslí lepší název?** | **Tady se akorát možná vymyslí lepší název?** | ||
- | Český název projektu: HamleDT: Kolekce harmonizovaných závislostních treebanků pro mnoho jazyků | + | Český název projektu: Modelování závislostní syntaxe napříč jazyky |
- | Anglický název projektu: HamleDT: Collection | + | Anglický název projektu: Modelling |
Aktuální řešitel: Mgr. Rudolf Rosa | Aktuální řešitel: Mgr. Rudolf Rosa | ||
První žadatel: Rudolf Rosa | První žadatel: Rudolf Rosa | ||
Line 49: | Line 50: | ||
Položky Rok 2014 | Položky Rok 2014 | ||
Ostatní neinvestiční náklady 10 | Ostatní neinvestiční náklady 10 | ||
- | Cestovné 93 | + | Cestovné 90 |
Doplňkové náklady (počítá se automaticky) | Doplňkové náklady (počítá se automaticky) | ||
Osobní náklady (mzdy) a stipendia (počítá se automaticky) | Osobní náklady (mzdy) a stipendia (počítá se automaticky) | ||
Line 60: | Line 61: | ||
Plánované konference a pobyty: | Plánované konference a pobyty: | ||
- | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) | + | * LREC 2014, Rejkjavík (poplatek 8000 Kč, ubytování a doprava 35000 Kč) -- nejvýznamnější konference zaměřená na lingvistické datové zdroje |
- | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava | + | * ACL 2014, Baltimore (poplatek 15000 Kč, ubytování a doprava |
- | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava | + | * TLT 2014 (poplatek 3500 Kč, ubytování a doprava |
Náklady na pobyty jsou určeny přibližně na základě minulých let. | Náklady na pobyty jsou určeny přibližně na základě minulých let. | ||
Line 68: | Line 69: | ||
Neinvest náklady: | Neinvest náklady: | ||
- | Mam tam harddisky (viz materiální todleto). | + | Mam tam harddisky (viz materiální todleto). Požádal jsem Milana o nějakej cenovej odhad, zatim ho nemam. |
Kancelářský potřeby se tam prej psát nemaj. | Kancelářský potřeby se tam prej psát nemaj. | ||
Literaturu nevim jestli nějakou chcem kupovat. | Literaturu nevim jestli nějakou chcem kupovat. | ||
Line 81: | Line 82: | ||
==== Anotace (max 200 slov): ==== | ==== Anotace (max 200 slov): ==== | ||
// | // | ||
- | Projekt bude zkoumat přenositelnost jazykových formalismů a technologií napříč různými jazyky, včetně vlivu použitých formalismů na úspěšnost technologií, které je využivají. | + | V grantovém projektu budeme |
- | Za tím účelem | + | Prvním typem úloh budou technologie mezijazyčné projekce, kdy model jednoho jazyka |
- | Bude navržena sada testů, které umožní nalézt nedostatky | + | Druhým typem úloh bude přenositelnost jednojazyčných technologií, kdy nástroje |
- | Důraz bude kladen | + | |
- | TODO | + | Přestože existují rozsáhlé jazykové zdroje pro mnoho jazyků, v praxi se často ukazuje, že je obtížné |
// | // | ||
- | < | ||
- | Přidání nových treebanků. | ||
- | Testování konzistentnosti harmonizovaných treebanků, na to navázané další vylepšování harmonizace. | ||
- | Zkoumání přenositelnosti znalostí a technologií mezi jazykama, zjišťování co je jazykově specifické a co je více či méně " | ||
==== Anotace v anglickém jazyce (max 200 slov): ==== | ==== Anotace v anglickém jazyce (max 200 slov): ==== | ||
Line 96: | Line 93: | ||
==== Současný stav poznání: ==== | ==== Současný stav poznání: ==== | ||
- | //Teď je bžilión | + | // |
+ | Syntakticky anotované korpusy (treebanky) se dělaj už dlouho: Penn Treebank, a nevim co ještě jsou starý treebanky, FGD co dalo vzniknout PDT a dalším pražským (PADT, PEDT, PCEDT, TamilTB)... | ||
+ | |||
+ | Obvykle každý treebank (případně malá rodina | ||
+ | Rozdíly nejen ve struktuře stromů (předložky, | ||
+ | |||
+ | Každé anotační schéma je nějak lingvisticky motivované, | ||
+ | Krom toho se ví (snad?), že některý anotační schémata se parserum líp učej, tak jsou možná lepší, možná lépe zachycují skutečnou strukturu vět daného jazyka. (Ovšem nejlíp se učí left chain nebo right chain, ale asi to neznamená, že jsou nejlepší, to nějak říct vhodně.) Je otázkou, zda totéž platí napříč jazyky, nebo zda pro různé jazyky jsou různé | ||
+ | |||
+ | Heterogenní treebanky představují překážku v mnoha oblastech - např. vyhodnocení neřízeného závislostního rozboru (nebo tomu řikat unsupervised dependency parsing? neřízený závislostní parsing? závislostní analýza bez učitele?) viz David, delexikalizovaný parsing a projekce těch stromů viz Googlové, ale i pro formální lingvisty, kteří chtějí provádět komparativní analýzu jednotlivých jazyků. | ||
+ | |||
+ | Snahy o sjednocení obvykle na několika málo treebancích (viz related work UDT). Jediná větší aktivita v harmonizaci | ||
+ | Pak je UDT od Googlů, který na to jdou od lesa, a krom toho, že si definujou jednotnej anotační styl, tak nepoužívaj existující treebanky ale anotujou si vlastní. To je ale asi škoda, když už jich tolik je, a je nejspíš levnější je harmonizovat než to anotovat "od nuly" -- taky maj ty treebanky poměrně malý. | ||
+ | |||
+ | Tagset: řeší Danovo Interset a dělá to celkem dobře (snad?), my to asi nějak extra měnit nebudem. Taky to řeší univerzální tagy od Googlů, | ||
+ | |||
+ | Struktura stromů: dá se dělat lecjaks, ale vlastně těch rozdílů obvykle není moc. Pražský styl, Stanfordský styl (má varianty), když přijeme nějaký základní ideje jako že by to měl bejt strom, tak je to obvykle celkem dobře převoditelný z jednoho stylu na jinej. | ||
+ | |||
+ | Dependency labels: je to hodně divoký, velice rozličná granularita (jednotky | ||
+ | Anebo by se třeba měl Interset rozšířit o syntaktický rysy a pokrývat jak tagy, tak deprely? Stejně je hranice mezi tagem a deprel dost fuzzy. | ||
+ | |||
+ | HamleDT má mnoho problémů - chyby v konverzích, | ||
+ | |||
+ | Potenciál pro budoucí výzkum (až tohle bude): ty collapsed SD, to by taky asi šlo pak dělat něco takovýho jakože jazykově nezávisle a mít najednou automatickou analýzu z a-roviny na t-rovinu pro libovolnej jazyk. | ||
+ | // | ||
==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ==== Přínos projektu k rozvoji fakulty / VŠ: ==== | ||
- | Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční. | + | (Popis návaznosti projektu na další řešené projekty tuzemské i zahraniční.) |
+ | **Tohle by pravděpodobně mělo být celkem konkrétní, | ||
- | //Posuneme hranice poznání, | + | // |
+ | Tento projekt navazuje na dlouhou a úspěšnou tradici vytváření syntakticky anotovaných korpusů (treebanků) na Ústavu formální a aplikované lingvistiky a umožňuje mu zůstat na světové | ||
+ | |||
+ | Hlavním výstupem projektu bude kolekce mnoha treebanků hamonizovaných do jednotného anotačního stylu, což bude představovat významný a cenný datový zdroj pro výzkumníky z mnoha oblastí počítačové i formální lingvistiky. | ||
+ | |||
+ | Parsing. Využijou to lidi, který už dělaj | ||
+ | |||
+ | Srovnávací lingvistika, | ||
- | Využijou to lidi, který už dělaj unsupervised parsing (David, Valentýn Spitkovský), | + | Kromě vytvoření datového zdroje věříme, |
// | // | ||
Line 109: | Line 138: | ||
==== Cíle řešení projektu: ==== | ==== Cíle řešení projektu: ==== | ||
+ | (Předpokládaný výsledek a jeho využití, význam projektu pro praxi a společnost.) | ||
+ | |||
// | // | ||
1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. | 1. Vytvoření univerzálního anotačního schématu, použitelného pro reprezentaci treebanků mnoha různých jazyků. | ||
Line 143: | Line 174: | ||
==== Prezentace výsledků: ==== | ==== Prezentace výsledků: ==== | ||
//Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | //Výsledky budou průběžně prezentovány na seminářích Ústavu formální a aplikované lingvistiky a na WDS. | ||
- | Budeme | + | Budeme publikovat příspěvky na mezinárodních konferencích -- pokusíme se o přijetí |
- | konferencích | + | konferenci |
- | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány | + | Průběžné výsledky budeme popisovat také v technických zprávách. |
- | Grantovou agenturou Univerzity Karlovy.// | + | Vytvořený software bude průběžně zveřejňován na webových stránkách pod svobodnou licencí. |
+ | |||
+ | U všech publikací, včetně disertační práce, bude uvedeno, že byly finančně podporovány Grantovou agenturou Univerzity Karlovy.// | ||
===== Přílohy ===== | ===== Přílohy ===== | ||
- | Moje CV a publikace | + | Moje CV a publikace |
- | ZŽ CV, ZŽ publikace, HM CV. | + | ZŽ CV {{: |
+ | ZŽ publikace | ||
+ | HM CV |