Table of Contents
Přehled o anotovaných datech
Train-1
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | 8.12.2008 | cmpr9410_001 - lnd94103_106 | |
data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | |
data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | |
data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | |
data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | 20.1.2009 | ln94209_6 - ln95047_051 | |
data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | |
data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |
soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | |
data_20090127_test_shody_2.zip | 1 | 40 | 595 | AN | 27.1.2009 | 2.2.2009 | ln95048_112 | |
data_20090127_test_shody_2.zip | 1 | 40 | 595 | RO | 27.1.2009 | 31.1.2009 | ln95048_112 | |
data_20090127_test_shody_2.zip | 1 | 40 | 595 | JP | 27.1.2009 | 30.1.2009 | ln95048_112 |
Train-1/2
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | 4.1.2009 | mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla |
Train-2
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | viz poznámka | cmpr9415_038 - ln94203_89, lnd* | viz poznámka o řádek níž |
data_20091016_JP_srpen.zip | 63 | 1010 | 15951 | JP | 16.10.2009 | 29.10.2009 | cmpr9415_038 - ln94203_89, lnd* | od Honzy Křivana už téměř po roce data neočekávám, proto jsem je dal anotovat Jirkovi Perglerovi |
data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | 23.12.2008 | ln94203_98 - ln94205_84 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla |
data_20081208_Anja.zip | 30 | 510 | 8454 | AN | 8.12.2008 | viz poznámka | ln94205_93 - ln94207_93 | viz poznámka o řádek níž |
data_20091030_JP_zari.zip (část) | 30 | 510 | 8454 | JP | 30.10.2009 | 11.11.2009 | ln94205_93 - ln94207_93 | Anja na to nemá čas, proto jsem to dal téměř po roce anotovat Jirkovi Perglerovi |
data_20090106_Radek_Ocelak.zip | 76 | 1005 | 17067 | RO | 7.1.2009 | 2.2.2009 | ln94208_101 - ln95046_096 | |
data_20090106_Jiri_Pergler.zip | 39 | 503 | 8997 | JP | 7.1.2009 | 20.1.2009 | ln95046_106 - ln95049_058 | |
data_20090119_Jiri_Pergler.zip | 40 | 498 | 7910 | JP | 19.1.2009 | 25.1.2009 | ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 | zbytek do tisíce vět |
Train-1/2/3
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090205_Radek_Ocelak.zip | 67 | 998 | 16298 | RO | 5.2.2009 | 24.2.2009 | train-1: ln95048_122 - ln95049_137, mf920922_004 - mf920922_034, train-2: mf930709_066 - mf930713_157, train-3: cmpr9410_003 - cmpr9415_059, ln94200_107, ln94200_116 | zapomenuté z train-1, zbytek train-2, začátek train-3 |
Train-3
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090205_Jiri_Pergler.zip | 52 | 993 | 16871 | JP | 5.2.2009 | 18.2.2009 | ln94200_125 - ln94204_25 | |
data_20090219_test_shody_3.zip | 1 | 101 | 1605 | AN | 19.2.2009 | 5.3.2009 | ln94205_94 | treti test mezianotatorske shody |
data_20090219_test_shody_3.zip | 1 | 101 | 1605 | RO | 19.2.2009 | 20.2.2009 | ln94205_94 | treti test mezianotatorske shody |
data_20090219_test_shody_3.zip | 1 | 101 | 1605 | JP | 19.2.2009 | 26.2.2008 | ln94205_94 | treti test mezianotatorske shody |
data_20090304_RO.zip | 62 | 1006 | 16781 | RO | 4.3.2009 | 30.4.2009 | ln94204_34 - ln94205_85, ln94206_102 - ln94208_69 | od ln94207_102 včetně anotováno i s novou hodnotou ANAF |
data_20090304_JP.zip | 80 | 1001 | 17899 | JP | 4.3.2009 | 13.5.2009 | ln94208_78 - ln95047_133 | |
data_20090404_RO.zip | 64 | 997 | 17658 | RO | 4.4.2009 | 25.4.2009 | ln95047_143 - ln95049_139, lnd94103_007 - lnd94103_149, mf920922_006 - mf920925_038 |
Train-3/4
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090410_Jiri_Pergler.zip | 57 | 995 | 15 889 | JP | 10.4.2009 | 4.9.2009 | train-3: mf920925_048 - mf930713_158, train-4: cmpr9410_004 - cmpr9415_050, lnd94103_008, lnd94103_018 | zbytek train-3, začátek train-4 |
Train-4
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090420_test_shody_4.zip | 2 | 106 | 1858 | AN | 20.4.2009 | - | ln94204_144, ln94205_86 | čtvrtý test mezianotátorské shody |
data_20090420_test_shody_4.zip | 2 | 106 | 1858 | RO | 20.4.2009 | 22.4.2009 | ln94204_144, ln94205_86 | čtvrtý test mezianotátorské shody |
data_20090420_test_shody_4.zip | 2 | 106 | 1858 | JP | 20.4.2009 | 29.4.2009 | ln94204_144, ln94205_86 | čtvrtý test mezianotátorské shody |
data_20090506_RO.zip | 81 | 1001 | 17183 | RO | 6.5.2009 | 27.5.2009 | lnd94103_028 - lnd94103_150, ln94200_1 - ln94204_135, ln94204_153 - ln94205_22 | |
data_20090607_RO.zip | 75 | 1001 | 17919 | RO | 7.6.2009 | 31.7.2009 | ln94205_31 - ln94205_77, ln94205_95 - ln94210_83 | |
data_20090626_RO_train4.zip | 141 | 1819 | 32512 | RO | 26.6.2009 | 28.8.2009 | ln94210_92 - ln95049_140, mf920922_007 - mf930713_159 | train-4 část dat do září |
Train-5
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090626_RO_train5.zip | 59 | 1188 | 18895 | RO | 26.6.2009 | 8.10.2009 | cmpr9410_005 - cmpr9415_051, lnd94103_009 - lnd94103_151, ln94200_10 - ln94202_7 | train-5 část dat do září; první tři soubory poslouží pro pátý test mezianotátorské shody |
data_20090904_kveten_JP.zip | 58 | 986 | 16237 | JP | 4.9.2009 | 18.9.2009 | train-5: ln94202_79 - ln94206_50, train-8: cmpr9413_006 | soubory z train-5 + jeden soubor z train-8 (kvůli holkám z diskurzu; má 128 vět!) |
data_20090921_cerven_JP.zip | 65 | 1038 | 17380 | JP | 21.9.2009 | 2.10.2009 | ln94206_6 - ln94211_3 | |
data_20091005_cervenec_JP.zip | 68 | 1019 | 17293 | JP | 5.10.2009 | 16.10.2009 | cmpr9410_005 - cmpr9410_025, ln94211_39 - ln95049_021 | (první tři soubory poslouží pro pátý test mezianotátorské shody) |
data_20091008_test_shody_5.zip | 3 | 100 | ??? | AN | 8.10.2009 | 20.10.2009 | cmpr9410_005 - cmpr9410_025 | pátý test mezianotátorské shody, ostatním dvěma anotátorům soubory poslány v rámci anotací |
data_20091008_RO_rijen.zip | 67 | 998 | 16579 | RO | 8.10.2009 | 30.10.2009 | ln95049_031 - ln95049_141, mf920922_008 - mf930713_140 | |
data_20091030_zari_JP.zip (část) | 2 | 24 | 461 | JP | 30.10.2009 | 11.11.2009 | mf930713_150, mf930713_160 | archiv je složen ze souborů z train-2, těchto dvou v train-5 a souborů z train-8 |
Train-8
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20090904_kveten_JP.zip (část) | 1 | 128 | 1234 | JP | 4.9.2009 | 18.9.2009 | cmpr9413_006 | soubor anotován předem v rámci tohoto archivu kvůli holkám z diskurzu; ostatní soubory z train-5 |
data_20091030_zari_JP.zip (část) | 12 | 466 | 6959 | JP | 30.10.2009 | 11.11.2009 | cmpr9410_008 - cmpr9410_048, cmpr9413_016 - cmpr9415_024 | archiv je složen ze souborů z train-2, dvou souborů v train-5 a těchto souborů z train-8 |
data_20091030_listopad_RO.zip | 63 | 976 | 16289 | RO | 30.10.2009 | 2.12.2009 | cmpr9410_008 a cmpr9410_018, cmpr9415_034 - cmpr9415_054, lnd*, ln94200_102 - ln94203_67 | součástí archivu jsou i první dva soubory z train-8 pro mezianotátorskou shodu |
data_20091111_rijen_JP.zip | 59 | 1005 | 16866 | JP | 11.11.2009 | 25.11.2009 | ln94203_76 - ln94207_62 | |
data_20091125_listopad_JP.zip | 63 | 1002 | 17072 | JP | 25.11.2009 | 9.12.2009 | ln94207_71 - ln95045_057 | |
data_20091203_prosinec_RO.zip | 69 | 1001 | 17894 | RO | 3.12.2009 | 23.12.2009 | ln95045_047 - ln95049_134, mf920922_001 - mf920922_031 | součástí archivu jsou i dva soubory pro mezianotátorskou shodu: ln95045_047 a ln95045_057 |
Train-8/6
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20091209_prosinec_JP.zip | 67 | 1002 | 15872 | JP | 9.12.2009 | 21.12.2009 | train-8: mf920922_001 - mf930713_163, train-6: cmpr9410_006 - cmpr9413_034 | součástí archivu jsou čtyři soubory pro mezianotátorskou shodu: mf920922_001 - mf920922_031 |
Train-6
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20091221_leden_JP.zip | 60 | 1011 | 17491 | JP | 21.12.2009 | 25.1.2010 | cmpr9413_044 - cmpr9415_052, lnd*, ln94200_100 - ln94203_133, mf920925_061, mf920925_091 | součástí archivu jsou dva soubory pro mezianotátorskou shodu: mf920925_061, mf920925_091 |
data_20091223_leden_RO.zip | 60 | 1023 | 17684 | RO | 23.12.2009 | 1.2.2010 | cmpr9415_022, ln94200_164, ln94200_173, ln94203_142 - ln94206_88, mf920925_061, mf920925_091 | součástí archivu jsou soubory pro mezianotátorskou shodu: cmpr9415_022, ln94200_164, ln94200_173, mf920925_061, mf920925_091 |
data_20100129_unor_JP.zip | 56 | 1004 | 18242 | JP | 29.1.2010 | 17.2.2010 | ln94206_97 - ln94211_102 | |
data_20100202_JP_doplnek.zip | 2 | 59 | 1121 | JP | 2.2.2010 | 3.2.2010 | ln94204_137, ln94204_146 | |
data_20100201_unor_RO.zip | 70 | 1007 | 17032 | RO | 1.2.2010 | 2.3.2010 | ln94211_111 - ln95049_022 |
Train-6/7
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20100222_JP_brezen.zip | 70 | 941 | 15346 | JP | 22.2.2010 | 9.3.2010 | train-6: ln95049_032 - ln95049_142, mf920922_009 - mf920925_051, mf920925_071, mf920925_081, mf920925_101 - mf930713_161, train-7: cmpr9410_027, ln94210_95, mf930709_101 | součástí archivu jsou tři soubory z train-7; Jirka má teď míň souborů, aby se vyrovnala únorová práce navíc |
Train-7
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20100303_RO_brezen.zip | 52 | 985 | 15663 | RO | 3.3.2010 | 28.3.2010 | cmpr*, lnd*, ln94200_101 - ln94200_98, ln94210_95, mf930709_101 | |
data_20100309_JP_duben.zip | 64 | 1005 | 17596 | JP | 9.3.2010 | 2.4.2010 | ln94202_106 - ln94206_143 | |
data_20100328_RO_duben.zip | 61 | 1010 | 16932 | RO | 28.3.2010 | 3.5.2010 | ln94206_143 - ln94210_68 | |
data_20100402_JP_kveten.zip | 74 | 1012 | 16659 | JP | 2.4.2010 | 23.4.2010 | ln9420, ln94210_77, ln94210_86, ln94211_103 - ln95049_033 |
Train-7/dtest
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_201000423_JP_cerven.zip | 73 | 1022 | 17435 | JP | 23.4.2010 | 19.5.2010 | ln95049_043 - mf930709_091, mf930709_111 - mf930713_162, cmpr9410_009, cmpr9410_019, cmpr9415_005, lnd94103_063, ln94202_82, ln94207_90, mf930713_134 |
dtest
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_201000505_RO_kveten.zip | 39 | 1002 | 15764 | RO | 5.5.2010 | 22.6.2010 | cmpr9410_029 - cmpr9415_055, lnd*, ln94200_103 - ln94200_158, ln94202_82, ln94207_90, mf930713_134 | |
data_201000521_JP_cervenec.zip | 67 | 1003 | 17623 | JP | 21.5.2010 | 27.9.2010 | ln94200_167 - ln94202_73, ln94202_91 - ln94205_81 | |
20100521_mereni_jistoty.zip | 2 | 190 | 2802 | JP, RO | 21.5.2010 | JP: 19.8.2010, RO: 8.6.2010 | ln94207_36, mf930709_052 | |
data_20100623_RO_cerven.zip | 52 | 839 | 14539 | RO | 23.6.2010 | 30.7.2010 | ln94205_90 - ln94207_27, ln94207_45 - ln94207_81, ln94208_1 - ln94209_76 | souborů je míň kvůli předchozímu měření jistoty |
data_20100802_RO_cervenec.zip | 74 | 1036 | 18828 | RO | 2.8.2010 | 31.8.2010 | ln94209_85 - ln95048_050 | |
data_20100903_RO_srpen.zip | 75 | 1000 | 16287 | RO | 3.9.2010 | - | ln94209_85 - ln95048_050 |
dtest/etest
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20100927_JP_srpen.zip | 44 | 813 | 11961 | JP | 29.9.2010 | 8.10.2010 | dtest: mf930713_104 - mf930713_124, mf930713_144, mf930713_154; etest: cmpr*, lnd*, ln94200_104 - ln94200_15, ln94200_46, mf920925_095 | souborů je míň kvůli předchozímu měření jistoty |
etest
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20101008_JP_rijen.zip | 61 | 1000 | 16566 | JP | 8.10.2010 | 26.10.2010 | ln94200_159 - ln94200_37, ln94200_55 - ln94205_19 | září vynecháno - dovolená |
data_20101011_RO_rijen.zip | 42 | 1020 | 17304 | RO | 11.10.2010 | 3.11.2010 | cmpr9410_040, lnd94103_064, ln94200_46, ln94205_28 - ln94208_10, mf920925_095 | září vynecháno - dovolená |
data_20101203_RO_prosinec.zip | 70 | 1020 | 17442 | RO | 3.12.2010 | 1.1.2011 | ln94208_109 - ln95046_044 | listopad vynecháno - práce na anglických datech |
data_20110103_RO_leden.zip | 28 | 456 | 8566 | RO | 3.1.2011 | 26.1.2011 | ln95046_054 - ln95048_040, ln95048_061, ln95048_071 | cca 550 vět udělal začátkem prosince anglických, ale dostal k tomu plnou dávku prosincových českých dat, tak teď je to o těch 550 vět zkráceno |
data_20110103_JP_leden.zip | 26 | 599 | 9619 | JP | 3.1.2011 | 27.1.2011 | ln95048_051, ln95048_081 - ln95049_136, mf920922_003, mf920922_013 | listopad a prosinec vynecháno - práce na angl. datech; ještě cca 350 vět bude v lednu dělat anglických, takže dostává jen zkrácenou dávku českých; je tam extra dlouhý soubor (220 vět), takže celkem radši mírně pod 1000 vět než přes |
odsud dál v datech nastavuju atribut src podle anotátora (všechny bridging a nové coref_text šipky)
pozn.: To už jsem nastavil i u starších dat.
etest/dtest (konec prvního, začátek druhého kola anotací)
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20110128_RO_unor.zip | 60 | 989 | 16932 | RO | 28.1.2011 | 27.2.2011 | první kolo: etest: mf920922_023 - mf930713_155 (bez mf920925_095), druhé kolo: dtest: cmpr9410_009, cmpr9410_019, ln94200_167 - ln94200_36 |
dtest (druhé kolo anotací)
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20110128_JP_unor.zip | 43 | 995 | 15459 | JP | 28.1.2011 | 18.2.2011 | cmpr9410_029 - cmpr9415_055 (bez cmpr9415_005), lnd* (bez lnd94103_063), ln94200_103 - ln94200_158, ln94205_90 - ln94206_27 | |
rozdelene_po_55_vetach_JP.zip | 24 | 1329 | 25050 | JP | 24.2.2011 | 20.3.2011 | data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference | březnová práce pro PlayCoref |
rozdelene_po_55_vetach_RO.zip | 24 | 1329 | 24775 | RO | 1.3.2011 | 5.4.2011 | data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference | březnová práce pro PlayCoref |
data_20110322_JP_duben.zip | 77 | 998 | 16850 | JP | 22.3.2011 | 3.5.2011 | ln94206_36 až ln95045_038 bez ln94207_36 a bez ln94207_90 | |
data_20110401_RO_duben.zip | 68 | 997 | 17381 | RO | 6.4.2011 | 4.5.2011 | ln94200_45 - ln94202_73, ln94202_91 - ln94205_81, mf930713_104 - mf930713_154 bez mf930713_134 | |
data_20110501_JP_kveten.zip | 60 | 1014 | 18204 | JP | 11.4.2011 | 30.5.2011 | ln95045_048 - ln95049_085 |
dtest/etest (druhé kolo anotací)
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20110607_JP_cerven.zip | 77 | 1016 | 16994 | JP | 7.6.2011 | 24.6.2011 | dtest: ln95049_095 - ln95049_135, mf920922_002 - mf930713_093 bez mf930709_052; etest: ln94205_28 - ln94206_82 |
etest (druhé kolo anotací)
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20110501_RO_kveten.zip | 62 | 1011 | 15947 | RO | 11.4.2011 | 6.6.2011 | cmpr* bez cmpr9410_040, lnd* bez lnd94103_064, ln94200_104 - ln94203_119 bez ln94200_46 | |
data_20110609_RO_cerven.zip | 60 | 1144 | 18859 | RO | 9.6.2011 | 15.8.2011 | ln94203_128 - ln94205_19, ln95048_051, ln95048_081 - ln95049_136, mf920922_003, mf920922_013 | |
data_20110627_JP_cervenec.zip | 57 | 1003 | 17809 | JP | 27.6.2011 | 28.7.2011 | ln94206_91 - ln94211_106 | |
data_20110801_JP_srpen.zip | 58 | 1017 | 18656 | JP | 1.8.2011 | 1.9.2011 | ln94211_115 - ln95048_071 (bez ln95048_051), mf920922_013, mf920922_023 | |
data_20110829_JP_zari.zip | 53 | 746 | 12834 | JP | 29.8.2011 | 4.10.2011 | mf920922_033 - mf930713_155 (bez mf920925_095) |