Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:treebanks:ru [2012/01/13 17:49] zeman |
user:zeman:treebanks:ru [2012/01/13 21:33] zeman Documentation. |
||
---|---|---|---|
Line 32: | Line 32: | ||
* David Mareček, Natalia Kljueva: [[http:// | * David Mareček, Natalia Kljueva: [[http:// | ||
* Documentation | * Documentation | ||
- | * Description of tags and feature values is hard to find; see also the . | + | * Description of tags and feature values is hard to find; see also the [[# |
+ | * Daniel Zeman: {{: | ||
==== Domain ==== | ==== Domain ==== | ||
- | Newswire + unknown | + | Uppsala University Corpus of contemporary Russian prose (balanced fiction-journalistic, |
==== Size ==== | ==== Size ==== | ||
- | The CoNLL 2007 dataset | + | There are 497,465 tokens in 34895 sentences, yielding 14.26 tokens per sentence on average. |
- | + | ||
- | ^ Version ^ Train Sentences ^ Train Tokens ^ D-test Sentences ^ D-test Tokens ^ E-test Sentences ^ E-test Tokens ^ Total Sentences ^ Total Tokens ^ Sentence Length ^ | + | |
- | | CoNLL 2007 | 3190 | 50526 | 334 | 5390 | | + | |
- | | BDT-II | 9094 | 124,684 | 1010 | 12625 | 1122 | 14295 | 11226 | 151,604 | 13.50 | | + | |
==== Inside ==== | ==== Inside ==== | ||
- | Both versions | + | The native file format of Syntagrus is the XML-based '' |
Part of speech tag description (obtained per e-mail from Koldo Gojenola, thanks!): | Part of speech tag description (obtained per e-mail from Koldo Gojenola, thanks!): | ||
Line 97: | Line 94: | ||
* SNB = symbol | * SNB = symbol | ||
* LAB = abbreviation | * LAB = abbreviation | ||
- | |||
- | Main features: | ||
- | |||
- | * KAS = case. Various descriptions of Basque grammar list different numbers of cases and it is not easy to match all of the BDT case tags with them. Some but not all of them are described in the Annex 3 of the technical report mentioned above. The following list gives all case tags occurring in BDT with their frequencies in brackets. | ||
- | * KAS:ABL (984) = ablativo = ablative | ||
- | * KAS:ABS (22805) = absolutivo = absolutive | ||
- | * KAS:ABU (32) = adlativo terminal (" | ||
- | * KAS:ABZ (27) = adlativo direccional (" | ||
- | * KAS:ALA (1093) = adlativo = allative | ||
- | * KAS:BNK (13) =? special case of the locative genitive (" | ||
- | * KAS:DAT (1451) = dativo = dative | ||
- | * KAS:DES (181) = destinativo = benefactive (" | ||
- | * KAS:DESK (223) =? descriptive locative genitive (" | ||
- | * KAS:EM (705) = multiword token with postposition (e.g. " | ||
- | * KAS:ERG (6059) = ergativo = ergative | ||
- | * KAS:GEL (6259) = genitivo locativo = locative genitive | ||
- | * KAS:GEN (4307) = genitivo de posesión = possessive genitive | ||
- | * KAS:INE (7690) = inesivo = inessive | ||
- | * KAS:INS (1370) = instrumental | ||
- | * KAS:MOT (165) = motivativo = causative | ||
- | * KAS:PAR (930) = partitivo = partitive | ||
- | * KAS:PRO (89) = prolativo = essive | ||
- | * KAS:SOZ (928) = asociativo = comitative | ||
- | * ASP = aspect | ||
- | * ERL = relation (relative sentence, completive sentence, indirect question...) | ||
- | |||
- | List of all 286 features found in the corpus with frequencies: | ||
- | * ADM: | ||
- | * ADM: | ||
- | * ADM: | ||
- | * ASP: | ||
- | * ASP: | ||
- | * ASP: | ||
- | * ASP: | ||
- | * BIZ:+ 2303 | ||
- | * BIZ:- 22116 | ||
- | * ENT:??? 35 | ||
- | * ENT: | ||
- | * ENT: | ||
- | * ENT: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL: | ||
- | * ERL:MOS 146 | ||
- | * ERL: | ||
- | * ERL:ZHG 232 | ||
- | * HIT:NO 50 | ||
- | * HIT:TO 38 | ||
- | * IZAUR: | ||
- | * IZAUR: | ||
- | * KAS:ABL 984 | ||
- | * KAS: | ||
- | * KAS:ABU 32 | ||
- | * KAS:ABZ 27 | ||
- | * KAS: | ||
- | * KAS:BNK 13 | ||
- | * KAS: | ||
- | * KAS:DES 181 | ||
- | * KAS: | ||
- | * KAS:EM 707 | ||
- | * KAS: | ||
- | * KAS: | ||
- | * KAS: | ||
- | * KAS: | ||
- | * KAS: | ||
- | * KAS:MOT 165 | ||
- | * KAS:PAR 930 | ||
- | * KAS:PRO 89 | ||
- | * KAS:SOZ 928 | ||
- | * KLM:AM 80 | ||
- | * KLM:HAS 2 | ||
- | * MAI:GEHI 38 | ||
- | * MAI:IND 36 | ||
- | * MAI: | ||
- | * MAI:SUP 406 | ||
- | * MDN: | ||
- | * MDN:A3 107 | ||
- | * MDN:A4 1 | ||
- | * MDN:A5 282 | ||
- | * MDN:B1 6666 | ||
- | * MDN:B2 185 | ||
- | * MDN:B3 11 | ||
- | * MDN:B4 59 | ||
- | * MDN:B5A 1 | ||
- | * MDN:B5B 27 | ||
- | * MDN:B6 1 | ||
- | * MDN:B7 79 | ||
- | * MDN:B8 38 | ||
- | * MDN:C 52 | ||
- | * MOD: | ||
- | * MOD:ZIU 126 | ||
- | * MTKAT: | ||
- | * MTKAT: | ||
- | * MTKAT: | ||
- | * MUG:M 42116 | ||
- | * MUG:MG 8449 | ||
- | * MW:B 3615 | ||
- | * NEUR:- 193 | ||
- | * NMG:MG 1055 | ||
- | * NMG:P 2690 | ||
- | * NMG:S 2156 | ||
- | * NOR:GU 223 | ||
- | * NOR: | ||
- | * NOR:HI 20 | ||
- | * NOR: | ||
- | * NOR:NI 337 | ||
- | * NOR:ZU 93 | ||
- | * NOR:ZUEK 12 | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORI: | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NORK:HIK 6 | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NORK: | ||
- | * NUM:P 9347 | ||
- | * NUM:PH 172 | ||
- | * NUM:S 32570 | ||
- | * PER:GU 242 | ||
- | * PER: | ||
- | * PER:HI 14 | ||
- | * PER:HURA 1 | ||
- | * PER:NI 290 | ||
- | * PER:ZU 60 | ||
- | * PER:ZUEK 29 | ||
- | * PLU:+ 149 | ||
- | * PLU:- 10257 | ||
- | * POS:+ 2353 | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS:POSat 6 | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * POS: | ||
- | * ZENB:- 192 | ||
- | * _ 36940 | ||
- | |||
- | The syntactic guidelines (structure and labels) are described in Spanish in this [[http:// | ||
- | |||
- | Multi-word expressions have been collapsed into one token, using underscore as the joining character (e.g. Espainia_Poliziak, | ||
==== Sample ==== | ==== Sample ==== | ||
- | The first sentence of the CoNLL 2007 training data: | + | The first sentence of our test file in the native TGT format: |
- | + | ||
- | | 1 | espainiako_poliziak | Espainia_Poliziak | IZE | IZE_LIB | PLU-< | + | |
- | | 2 | hiru | hiru | DET | DET_DZH | NMGP | 3 | detmod | _ | _ | | + | |
- | | 3 | gazte | gazte | IZE | IZE_ARR | ABS< | + | |
- | | 4 | atxilotu | atxilotu | ADI | ADI_SIN | PART< | + | |
- | | 5 | ditu | *edun | ADL | ADL | A1< | + | |
- | | 6 | atarrabian | Atarrabia | IZE | IZE_LIB | PLU-< | + | |
- | | 7 | , | , | PUNC | PUNC_KOMA | _ | 6 | PUNC | _ | _ | | + | |
- | | 8 | eta | eta | LOT | LOT_JNT | - | 0 | ROOT | _ | _ | | + | |
- | | 9 | madrilera | Madril | IZE | IZE_LIB | PLU-< | + | |
- | | 10 | eraman | eraman | ADI | ADI_SIN | PART< | + | |
- | | 11 | ditu | *edun | ADL | ADL | A1< | + | |
- | | 12 | . | . | PUNC | PUNC_PUNC | _ | 11 | PUNC | _ | _ | | + | |
- | + | ||
- | The first sentence of the CoNLL 2007 test data: | + | |
- | + | ||
- | | 1 | epaileek | epaile | IZE | IZE_ARR | BIZ+< | + | |
- | | 2 | diote | esan | ADT | ADT | PNT< | + | |
- | | 3 | eaeko | EAE | IZE | IZE_LIB | SIG< | + | |
- | | 4 | parlamentarioek | parlamentario | ADJ | ADJ_ARR | IZAUR-< | + | |
- | | 5 | eaetik_kanpo | EAE | SIG | SIG- | DEK< | + | |
- | | 6 | eginiko | egin | ADI | ADI_SIN | PART< | + | |
- | | 7 | delituak | delitu | IZE | IZE_ARR | BIZ-< | + | |
- | | 8 | ikertzea | ikertu | ADI | ADI_SIN | ADIZE< | + | |
- | | 9 | eta | eta | LOT | LOT_JNT | - | | + | |
- | | 10 | epaitzea | epaitu | ADI | ADI_SIN | ADIZE< | + | |
- | | 11 | auzitegi_gorenari | auzitegi_gora | ADJ | ADJ_IZO | DEK< | + | |
- | | 12 | dagokiola | egon | ADT | ADT | PNT< | + | |
- | | 13 | , | , | PUNC | PUNC_KOMA | _ | | + | |
- | | 14 | baina | baina | LOT | LOT_JNT | AURK | | + | |
- | | 15 | atzerrian | atzerri | IZE | IZE_ARR | INE< | + | |
- | | 16 | izaniko | izan | ADI | ADI_SIN | PART< | + | |
- | | 17 | kontaktu | kontaktu | IZE | IZE_ARR | _ | | + | |
- | | 18 | horiek | horiek | DET | DET_ERKARR | ABS< | + | |
- | | 19 | ezin_direla | ezin_izan | ADI | ADI_ADK | PNT< | + | |
- | | 20 | delitutzat | delitu | IZE | IZE_ARR | BIZ-< | + | |
- | | 21 | hartu | hartu | ADI | ADI_SIN | PART | | + | |
- | | 22 | . | . | PUNC | PUNC_PUNC | _ | | + | |
- | + | ||
- | The first sentence of the BDT-II training data: | + | |
- | + | ||
- | | 1 | Estatu_Batuetako_DEAko | Estatu_Batuak_DEA | IZE | LIB | PLU: | + | |
- | | 2 | buru | buru | IZE | ARR | _ | 4 | ncsubj | _ | _ | | + | |
- | | 3 | ohiak | ohi | ADJ | ARR | IZAUR: | + | |
- | | 4 | aztertuko | aztertu | ADI | SIN | ADM: | + | |
- | | 5 | du | *edun | ADL | ADL | MDN: | + | |
- | | 6 | RUCen | RUC | IZE | IZB | MTKAT: | + | |
- | | 7 | erreforma | erreforma | IZE | ARR | KAS: | + | |
- | | 8 | . | . | PUNT_MARKA | PUNT_PUNT | _ | 7 | PUNC | _ | _ | | + | |
- | + | ||
- | The first sentence of the BDT-II development data: | + | |
- | + | ||
- | | 1 | Irakaskuntzan | irakaskuntza | IZE | ARR | BIZ: | + | |
- | | 2 | jardun | jardun | ADI | SIN | ADM: | + | |
- | | 3 | zuen | *edun | ADL | ADL | MDN: | + | |
- | | 4 | Miel | Miel | IZE | IZB | PLU: | + | |
- | | 5 | Anjel_Elustondok | Anjel_Elustondo | IZE | IZB | PLU: | + | |
- | | 6 | 1980 | 1980 | IZE | ZKI | _ | 7 | ncmod | _ | _ | | + | |
- | | 7 | urtetik | urte | IZE | ARR | BIZ: | + | |
- | | 8 | 1992ra | 1992 | IZE | ZKI | KAS: | + | |
- | | 9 | , | , | PUNT_MARKA | PUNT_KOMA | _ | 8 | PUNC | _ | _ | | + | |
- | | 10 | hauetatik | hauek | DET | ERKARR | KAS: | + | |
- | | 11 | hamar | hamar | DET | DZH | NMG:P | 12 | detmod | _ | _ | | + | |
- | | 12 | urtez | urte | IZE | ARR | BIZ: | + | |
- | | 13 | Azpeitiko | Azpeitia | IZE | LIB | PLU: | + | |
- | | 14 | ikastolan | ikastola | IZE | ARR | BIZ: | + | |
- | | 15 | irakasle | irakasle | IZE | ARR | KAS: | + | |
- | | 16 | eta | eta | LOT | JNT | ERL:EMEN | 8 | aponcmod | _ | _ | | + | |
- | | 17 | beste | beste | DET | DZG | _ | 18 | detmod | _ | _ | | + | |
- | | 18 | biak | bi | IZE | ZKI | KAS: | + | |
- | | 19 | , | , | PUNT_MARKA | PUNT_KOMA | _ | 18 | PUNC | _ | _ | | + | |
- | | 20 | Arabako | Araba | IZE | LIB | PLU: | + | |
- | | 21 | ikastolen | ikastola | IZE | ARR | BIZ: | + | |
- | | 22 | elkartean | elkarte | IZE | ARR | BIZ: | + | |
- | | 23 | . | . | PUNT_MARKA | PUNT_PUNT | _ | 22 | PUNC | _ | _ | | + | |
- | + | ||
- | The first sentence of the BDT-II test data: | + | |
- | | 1 | Hegoaldean | hegoalde | IZE | ARR | KAS:INE<nowiki>|</nowiki>NUM:S<nowiki>|</nowiki>MUG:M | 2 | ncmod | _ | _ | | + | <code xml><?xml version=" |
- | | 2 | iduri_zait | iduri_izan | ADI | ADK | ASP:PNT<nowiki>|</nowiki>MDN:A1<nowiki>|</nowiki>NOR: | + | <text><inf> |
- | | 3 | euskararen | euskara | IZE | ARR | BIZ:-<nowiki>|</nowiki>KAS:GEN<nowiki>|</nowiki>NUM:S<nowiki>|</nowiki>MUG:M | 4 | ncmod | _ | _ | | + | <author>Л, ТЕЛЕНЬ</author> |
- | | 4 | mundu | mundu | IZE | ARR | BIZ:- | 7 | ncsubj | _ | _ | | + | <title>Интервью " |
- | | 5 | hau | hau | DET | ERKARR | KAS:ABS<nowiki>|</ | + | <source/> |
- | | 6 | adi-adi | adi-adi | ADB | ARR | _ | 7 | ncmod | _ | _ | | + | <annot>ЛИ</annot> |
- | | 7 | dagola | egon | ADT | ADT | ASP:PNT<nowiki>|</nowiki>ERL: | + | <editor>ИБ</editor> |
- | | 8 | , | , | PUNT_MARKA | PUNT_KOMA | _ | 7 | PUNC | _ | _ | | + | <date>10.12.03</date> |
- | | 9 | Euskaltzaindiak | Euskaltzaindia | IZE | LIB | PLU:-<nowiki> | + | <comment/> |
- | | 10 | zer | zer | DET | NOLGAL | NMG:MG<nowiki>|</nowiki>KAS:ABS<nowiki>|</nowiki>MUG:MG | 11 | ncobj | _ | _ | | + | </inf> |
- | | 11 | erranen | erran | ADI | SIN | ADM:PART<nowiki>|</nowiki>ASP:GERO | 13 | menos | _ | _ | | + | <body> |
- | | 12 | duen | *edun | ADL | ADL | ERL:ZHG<nowiki>|</nowiki>MDN:A1<nowiki>|</nowiki>NOR: | + | <S ID=" |
- | | 13 | zain | zain | ADB | ARR | _ | 7 | cmod | _ | _ | | + | <W DOM=" |
- | | 14 | , | , | PUNT_MARKA | PUNT_KOMA | _ | 13 | PUNC | _ | _ | | + | <W DOM=" |
- | | 15 | haren | hura | DET | ERKARR | KAS:GEN<nowiki> | + | <W DOM=" |
- | | 16 | arauen | arau | IZE | ARR | KAS:ABS<nowiki>|</nowiki>MUG:MG | 18 | ncmod | _ | _ | | + | <W DOM=" |
- | | 17 | berehala | berehala | ADB | ARR | _ | 18 | ncmod | _ | _ | | + | <W DOM=" |
- | | 18 | betetzeko | bete | ADI | SIN | ADM: | + | <W DOM=" |
- | | 19 | . | . | PUNT_MARKA | PUNT_PUNT | _ | 18 | PUNC | _ | _ | | + | <W DOM=" |
+ | <W DOM=" | ||
+ | <W DOM=" | ||
+ | <W DOM=" | ||
+ | </S></code> | ||
==== Parsing ==== | ==== Parsing ==== |