Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
external:pdtc [2016/09/08 19:37] ufal |
external:pdtc [2022/05/06 11:48] (current) ufal |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | ====== Prague Dependency Treebank - Consolidated ====== |
**PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. | **PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. | ||
- | Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina | + | Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina |
- | + | Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie | |
- | ===== Předpokládaný postup řešení ===== | + | |
- | 1. zpracovat data všemi dostupnými nástroji | + | |
- | 2. manuální analýza dat, jak to vypada | + | |
- | 3. vyvinout anotačni nástroj na morfologii -- co nejdříve | + | |
- | 4. začít anotovat morfologii | + | |
- | 5. anotační nástroj na analytickou rovinu | + | |
- | 6. analytická anotace | + | |
- | 7. PDT-vallex (sjednocení, | + | |
- | 8. finalni kontroly, opravy, validace, CD, vydani, propagace... | + | |
- | 9. sladké odměny pro všechny zúčastněné (i průběžne :-P) | + | |
- | + | ||
- | ===== DATA ===== | + | |
- | **PDT** | + | |
- | -- vezmou se data PDT 3.0, respektive data PDiT 2.0 s novou anotací sekundárních diskurzních konektorů (vydání je v plánu letos, Jirka Mírovský) | + | |
- | -- svn: | + | |
- | **PCEDT-cz** | + | |
- | -- data PCEDT 2.0 s přidanou anotací nominální koreference, | + | |
- | -- svn: https:// | + | |
- | **PDTSC** | + | |
- | -- ještě se anotuje nominální koreference, | + | |
- | -- svn: https:// | + | |
- | **PDT-Faust** | + | |
- | -- nevíme kde data jsou LOL | + | |
- | + | ||
- | + | ||
- | + | ||
- | ===== NÁSTROJE ===== | + | |
- | JH: vsechno ted ma "pod sebou" Milan. To posledni se jmenuje UDPipe, ale msylim si, ze bude lepsi, aby Milan jeste s ne snad velkou namahou udelal specialne pro cestinu lepsi verzi morfologie (mozna že samotna MorphoDiTa je na to uz dost dobra). Pokud jde o syntax, musi natrenovat modely na zaklade PDT, protoze UDPipe ma jinou syntax. Ale to opet rekne Milan, koik by to bylo prace resp. kdy by to mel mit hotove. | + | |
- | MorphoDiTa (nebo jiny nastroj od MIlana) udela lematizaci a morfologii, parser udela strukturu a afuny. | + | |
- | + | ||
- | + | ||
- | + | ||
- | ===== Kdo to bude dělat ===== | + | |
- | Úplně přesně se neví LOL | + | |
- | Vedoucí projektu: JH Jan Hajič | + | |
- | Koordinátor: | + | |
+ | [[.pdtc: |