[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

Přehled o anotovaných datech

Train-1

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081016_Anja.zip 28 479 7190 AN 16.10.2008 8.12.2008 cmpr9410_001 - lnd94103_106
data_20081016_Radek_Ocelak.zip 31 498 8922 RO 16.10.2008 10.11.2008 lnd94103_116 - ln94202_75
data_20081016_Jan_Krivan.zip 31 496 9305 JK 16.10.2008 2.12.2008 ln94202_84 - ln94204_78
data_20081016_Jiri_Pergler.zip 24 246 4068 JP 16.10.2008 6.11.2008 ln94204_87 - ln94206_29
data_20081105_test_shody.zip 3 41 585 AN 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 RO 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JK 5.11.2008 2.12.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JP 5.11.2008 16.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081106_Radek_Ocelak.zip 41 816 13178 RO 6.11.2008 3.12.2008 ln94206_47, ln94206_65 - ln94209_50
data_20081106_Jan_Krivan.zip 63 801 14566 JK 6.11.2008 20.1.2009 ln94209_6 - ln95047_051
data_20081106_Jiri_Pergler.zip 19 404 6862 JP 6.11.2008 1.12.2008 ln95047_061 - ln95048_102
data_20081106_nahrada_Radek_Ocelak.zip 8 76 1343 RO 26.11.2008 3.12.2008 mf920922_054 - mf920922_125 náhrada za 83 vět (1610 slov) souboru ln94208_11
soubor ln94208_11 1 83 1610 AN - 1.12.2008 ln94208_11
data_20090127_test_shody_2.zip 1 40 595 AN 27.1.2009 2.2.2009 ln95048_112
data_20090127_test_shody_2.zip 1 40 595 RO 27.1.2009 31.1.2009 ln95048_112
data_20090127_test_shody_2.zip 1 40 595 JP 27.1.2009 30.1.2009 ln95048_112

Train-1/2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Radek_Ocelak.zip 57 1029 15554 RO 2.12.2008 4.1.2009 mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028 po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla

Train-2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Jan_Krivan.zip 63 1010 15951 JK 2.12.2008 viz poznámka cmpr9415_038 - ln94203_89, lnd* viz poznámka o řádek níž
data_20091016_JP_srpen.zip 63 1010 15951 JP 16.10.2009 29.10.2009 cmpr9415_038 - ln94203_89, lnd* od Honzy Křivana už téměř po roce data neočekávám, proto jsem je dal anotovat Jirkovi Perglerovi
data_20081202_Jiri_Pergler.zip 30 502 8505 JP 2.12.2008 23.12.2008 ln94203_98 - ln94205_84 po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla
data_20081208_Anja.zip 30 510 8454 AN 8.12.2008 viz poznámka ln94205_93 - ln94207_93 viz poznámka o řádek níž
data_20091030_JP_zari.zip (část) 30 510 8454 JP 30.10.2009 11.11.2009 ln94205_93 - ln94207_93 Anja na to nemá čas, proto jsem to dal téměř po roce anotovat Jirkovi Perglerovi
data_20090106_Radek_Ocelak.zip 76 1005 17067 RO 7.1.2009 2.2.2009 ln94208_101 - ln95046_096
data_20090106_Jiri_Pergler.zip 39 503 8997 JP 7.1.2009 20.1.2009 ln95046_106 - ln95049_058
data_20090119_Jiri_Pergler.zip 40 498 7910 JP 19.1.2009 25.1.2009 ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 zbytek do tisíce vět

Train-1/2/3

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090205_Radek_Ocelak.zip 67 998 16298 RO 5.2.2009 24.2.2009 train-1: ln95048_122 - ln95049_137, mf920922_004 - mf920922_034, train-2: mf930709_066 - mf930713_157, train-3: cmpr9410_003 - cmpr9415_059, ln94200_107, ln94200_116 zapomenuté z train-1, zbytek train-2, začátek train-3

Train-3

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090205_Jiri_Pergler.zip 52 993 16871 JP 5.2.2009 18.2.2009 ln94200_125 - ln94204_25
data_20090219_test_shody_3.zip 1 101 1605 AN 19.2.2009 5.3.2009 ln94205_94 treti test mezianotatorske shody
data_20090219_test_shody_3.zip 1 101 1605 RO 19.2.2009 20.2.2009 ln94205_94 treti test mezianotatorske shody
data_20090219_test_shody_3.zip 1 101 1605 JP 19.2.2009 26.2.2008 ln94205_94 treti test mezianotatorske shody
data_20090304_RO.zip 62 1006 16781 RO 4.3.2009 30.4.2009 ln94204_34 - ln94205_85, ln94206_102 - ln94208_69 od ln94207_102 včetně anotováno i s novou hodnotou ANAF
data_20090304_JP.zip 80 1001 17899 JP 4.3.2009 13.5.2009 ln94208_78 - ln95047_133
data_20090404_RO.zip 64 997 17658 RO 4.4.2009 25.4.2009 ln95047_143 - ln95049_139, lnd94103_007 - lnd94103_149, mf920922_006 - mf920925_038

Train-3/4

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090410_Jiri_Pergler.zip 57 995 15 889 JP 10.4.2009 4.9.2009 train-3: mf920925_048 - mf930713_158, train-4: cmpr9410_004 - cmpr9415_050, lnd94103_008, lnd94103_018 zbytek train-3, začátek train-4

Train-4

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090420_test_shody_4.zip 2 106 1858 AN 20.4.2009 - ln94204_144, ln94205_86 čtvrtý test mezianotátorské shody
data_20090420_test_shody_4.zip 2 106 1858 RO 20.4.2009 22.4.2009 ln94204_144, ln94205_86 čtvrtý test mezianotátorské shody
data_20090420_test_shody_4.zip 2 106 1858 JP 20.4.2009 29.4.2009 ln94204_144, ln94205_86 čtvrtý test mezianotátorské shody
data_20090506_RO.zip 81 1001 17183 RO 6.5.2009 27.5.2009 lnd94103_028 - lnd94103_150, ln94200_1 - ln94204_135, ln94204_153 - ln94205_22
data_20090607_RO.zip 75 1001 17919 RO 7.6.2009 31.7.2009 ln94205_31 - ln94205_77, ln94205_95 - ln94210_83
data_20090626_RO_train4.zip 141 1819 32512 RO 26.6.2009 28.8.2009 ln94210_92 - ln95049_140, mf920922_007 - mf930713_159 train-4 část dat do září

Train-5

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090626_RO_train5.zip 59 1188 18895 RO 26.6.2009 8.10.2009 cmpr9410_005 - cmpr9415_051, lnd94103_009 - lnd94103_151, ln94200_10 - ln94202_7 train-5 část dat do září; první tři soubory poslouží pro pátý test mezianotátorské shody
data_20090904_kveten_JP.zip 58 986 16237 JP 4.9.2009 18.9.2009 train-5: ln94202_79 - ln94206_50, train-8: cmpr9413_006 soubory z train-5 + jeden soubor z train-8 (kvůli holkám z diskurzu; má 128 vět!)
data_20090921_cerven_JP.zip 65 1038 17380 JP 21.9.2009 2.10.2009 ln94206_6 - ln94211_3
data_20091005_cervenec_JP.zip 68 1019 17293 JP 5.10.2009 16.10.2009 cmpr9410_005 - cmpr9410_025, ln94211_39 - ln95049_021 (první tři soubory poslouží pro pátý test mezianotátorské shody)
data_20091008_test_shody_5.zip 3 100 ??? AN 8.10.2009 20.10.2009 cmpr9410_005 - cmpr9410_025 pátý test mezianotátorské shody, ostatním dvěma anotátorům soubory poslány v rámci anotací
data_20091008_RO_rijen.zip 67 998 16579 RO 8.10.2009 30.10.2009 ln95049_031 - ln95049_141, mf920922_008 - mf930713_140
data_20091030_zari_JP.zip (část) 2 24 461 JP 30.10.2009 11.11.2009 mf930713_150, mf930713_160 archiv je složen ze souborů z train-2, těchto dvou v train-5 a souborů z train-8

Train-8

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20090904_kveten_JP.zip (část) 1 128 1234 JP 4.9.2009 18.9.2009 cmpr9413_006 soubor anotován předem v rámci tohoto archivu kvůli holkám z diskurzu; ostatní soubory z train-5
data_20091030_zari_JP.zip (část) 12 466 6959 JP 30.10.2009 11.11.2009 cmpr9410_008 - cmpr9410_048, cmpr9413_016 - cmpr9415_024 archiv je složen ze souborů z train-2, dvou souborů v train-5 a těchto souborů z train-8
data_20091030_listopad_RO.zip 63 976 16289 RO 30.10.2009 2.12.2009 cmpr9410_008 a cmpr9410_018, cmpr9415_034 - cmpr9415_054, lnd*, ln94200_102 - ln94203_67 součástí archivu jsou i první dva soubory z train-8 pro mezianotátorskou shodu
data_20091111_rijen_JP.zip 59 1005 16866 JP 11.11.2009 25.11.2009 ln94203_76 - ln94207_62
data_20091125_listopad_JP.zip 63 1002 17072 JP 25.11.2009 9.12.2009 ln94207_71 - ln95045_057
data_20091203_prosinec_RO.zip 69 1001 17894 RO 3.12.2009 23.12.2009 ln95045_047 - ln95049_134, mf920922_001 - mf920922_031 součástí archivu jsou i dva soubory pro mezianotátorskou shodu: ln95045_047 a ln95045_057

Train-8/6

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20091209_prosinec_JP.zip 67 1002 15872 JP 9.12.2009 21.12.2009 train-8: mf920922_001 - mf930713_163, train-6: cmpr9410_006 - cmpr9413_034 součástí archivu jsou čtyři soubory pro mezianotátorskou shodu: mf920922_001 - mf920922_031

Train-6

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20091221_leden_JP.zip 60 1011 17491 JP 21.12.2009 25.1.2010 cmpr9413_044 - cmpr9415_052, lnd*, ln94200_100 - ln94203_133, mf920925_061, mf920925_091 součástí archivu jsou dva soubory pro mezianotátorskou shodu: mf920925_061, mf920925_091
data_20091223_leden_RO.zip 60 1023 17684 RO 23.12.2009 1.2.2010 cmpr9415_022, ln94200_164, ln94200_173, ln94203_142 - ln94206_88, mf920925_061, mf920925_091 součástí archivu jsou soubory pro mezianotátorskou shodu: cmpr9415_022, ln94200_164, ln94200_173, mf920925_061, mf920925_091
data_20100129_unor_JP.zip 56 1004 18242 JP 29.1.2010 17.2.2010 ln94206_97 - ln94211_102
data_20100202_JP_doplnek.zip 2 59 1121 JP 2.2.2010 3.2.2010 ln94204_137, ln94204_146
data_20100201_unor_RO.zip 70 1007 17032 RO 1.2.2010 2.3.2010 ln94211_111 - ln95049_022

Train-6/7

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20100222_JP_brezen.zip 70 941 15346 JP 22.2.2010 9.3.2010 train-6: ln95049_032 - ln95049_142, mf920922_009 - mf920925_051, mf920925_071, mf920925_081, mf920925_101 - mf930713_161, train-7: cmpr9410_027, ln94210_95, mf930709_101 součástí archivu jsou tři soubory z train-7; Jirka má teď míň souborů, aby se vyrovnala únorová práce navíc

Train-7

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20100303_RO_brezen.zip 52 985 15663 RO 3.3.2010 28.3.2010 cmpr*, lnd*, ln94200_101 - ln94200_98, ln94210_95, mf930709_101
data_20100309_JP_duben.zip 64 1005 17596 JP 9.3.2010 2.4.2010 ln94202_106 - ln94206_143
data_20100328_RO_duben.zip 61 1010 16932 RO 28.3.2010 3.5.2010 ln94206_143 - ln94210_68
data_20100402_JP_kveten.zip 74 1012 16659 JP 2.4.2010 23.4.2010 ln9420, ln94210_77, ln94210_86, ln94211_103 - ln95049_033

Train-7/dtest

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_201000423_JP_cerven.zip 73 1022 17435 JP 23.4.2010 19.5.2010 ln95049_043 - mf930709_091, mf930709_111 - mf930713_162, cmpr9410_009, cmpr9410_019, cmpr9415_005, lnd94103_063, ln94202_82, ln94207_90, mf930713_134

dtest

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_201000505_RO_kveten.zip 39 1002 15764 RO 5.5.2010 22.6.2010 cmpr9410_029 - cmpr9415_055, lnd*, ln94200_103 - ln94200_158, ln94202_82, ln94207_90, mf930713_134
data_201000521_JP_cervenec.zip 67 1003 17623 JP 21.5.2010 27.9.2010 ln94200_167 - ln94202_73, ln94202_91 - ln94205_81
20100521_mereni_jistoty.zip 2 190 2802 JP, RO 21.5.2010 JP: 19.8.2010, RO: 8.6.2010 ln94207_36, mf930709_052
data_20100623_RO_cerven.zip 52 839 14539 RO 23.6.2010 30.7.2010 ln94205_90 - ln94207_27, ln94207_45 - ln94207_81, ln94208_1 - ln94209_76 souborů je míň kvůli předchozímu měření jistoty
data_20100802_RO_cervenec.zip 74 1036 18828 RO 2.8.2010 31.8.2010 ln94209_85 - ln95048_050
data_20100903_RO_srpen.zip 75 1000 16287 RO 3.9.2010 - ln94209_85 - ln95048_050

dtest/etest

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20100927_JP_srpen.zip 44 813 11961 JP 29.9.2010 8.10.2010 dtest: mf930713_104 - mf930713_124, mf930713_144, mf930713_154; etest: cmpr*, lnd*, ln94200_104 - ln94200_15, ln94200_46, mf920925_095 souborů je míň kvůli předchozímu měření jistoty

etest

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20101008_JP_rijen.zip 61 1000 16566 JP 8.10.2010 26.10.2010 ln94200_159 - ln94200_37, ln94200_55 - ln94205_19 září vynecháno - dovolená
data_20101011_RO_rijen.zip 42 1020 17304 RO 11.10.2010 3.11.2010 cmpr9410_040, lnd94103_064, ln94200_46, ln94205_28 - ln94208_10, mf920925_095 září vynecháno - dovolená
data_20101203_RO_prosinec.zip 70 1020 17442 RO 3.12.2010 1.1.2011 ln94208_109 - ln95046_044 listopad vynecháno - práce na anglických datech
data_20110103_RO_leden.zip 28 456 8566 RO 3.1.2011 26.1.2011 ln95046_054 - ln95048_040, ln95048_061, ln95048_071 cca 550 vět udělal začátkem prosince anglických, ale dostal k tomu plnou dávku prosincových českých dat, tak teď je to o těch 550 vět zkráceno
data_20110103_JP_leden.zip 26 599 9619 JP 3.1.2011 27.1.2011 ln95048_051, ln95048_081 - ln95049_136, mf920922_003, mf920922_013 listopad a prosinec vynecháno - práce na angl. datech; ještě cca 350 vět bude v lednu dělat anglických, takže dostává jen zkrácenou dávku českých; je tam extra dlouhý soubor (220 vět), takže celkem radši mírně pod 1000 vět než přes

odsud dál v datech nastavuju atribut src podle anotátora (všechny bridging a nové coref_text šipky)

pozn.: To už jsem nastavil i u starších dat.

etest/dtest (konec prvního, začátek druhého kola anotací)

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20110128_RO_unor.zip 60 989 16932 RO 28.1.2011 27.2.2011 první kolo: etest: mf920922_023 - mf930713_155 (bez mf920925_095), druhé kolo: dtest: cmpr9410_009, cmpr9410_019, ln94200_167 - ln94200_36

dtest (druhé kolo anotací)

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20110128_JP_unor.zip 43 995 15459 JP 28.1.2011 18.2.2011 cmpr9410_029 - cmpr9415_055 (bez cmpr9415_005), lnd* (bez lnd94103_063), ln94200_103 - ln94200_158, ln94205_90 - ln94206_27
rozdelene_po_55_vetach_JP.zip 24 1329 25050 JP 24.2.2011 20.3.2011 data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference březnová práce pro PlayCoref
rozdelene_po_55_vetach_RO.zip 24 1329 24775 RO 1.3.2011 5.4.2011 data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference březnová práce pro PlayCoref
data_20110322_JP_duben.zip 77 998 16850 JP 22.3.2011 3.5.2011 ln94206_36 až ln95045_038 bez ln94207_36 a bez ln94207_90
data_20110401_RO_duben.zip 68 997 17381 RO 6.4.2011 4.5.2011 ln94200_45 - ln94202_73, ln94202_91 - ln94205_81, mf930713_104 - mf930713_154 bez mf930713_134
data_20110501_JP_kveten.zip 60 1014 18204 JP 11.4.2011 30.5.2011 ln95045_048 - ln95049_085

dtest/etest (druhé kolo anotací)

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20110607_JP_cerven.zip 77 1016 16994 JP 7.6.2011 24.6.2011 dtest: ln95049_095 - ln95049_135, mf920922_002 - mf930713_093 bez mf930709_052; etest: ln94205_28 - ln94206_82

etest (druhé kolo anotací)

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20110501_RO_kveten.zip 62 1011 15947 RO 11.4.2011 6.6.2011 cmpr* bez cmpr9410_040, lnd* bez lnd94103_064, ln94200_104 - ln94203_119 bez ln94200_46
data_20110609_RO_cerven.zip 60 1144 18859 RO 9.6.2011 15.8.2011 ln94203_128 - ln94205_19, ln95048_051, ln95048_081 - ln95049_136, mf920922_003, mf920922_013
data_20110627_JP_cervenec.zip 57 1003 17809 JP 27.6.2011 28.7.2011 ln94206_91 - ln94211_106
data_20110801_JP_srpen.zip 58 1017 18656 JP 1.8.2011 1.9.2011 ln94211_115 - ln95048_071 (bez ln95048_051), mf920922_013, mf920922_023
data_20110829_JP_zari.zip 53 746 12834 JP 29.8.2011 4.10.2011 mf920922_033 - mf930713_155 (bez mf920925_095)

[ Back to the navigation ] [ Back to the content ]