[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
prehled-o-anotovanych-datech [2010/02/22 19:48]
mirovsky
prehled-o-anotovanych-datech [2011/09/02 11:44]
mirovsky
Line 155: Line 155:
 ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 | data_20091209_prosinec_JP.zip | 67 | 1002 | 15872 | JP | 9.12.2009 | 21.12.2009 | train-8: mf920922_001 - mf930713_163, train-6: cmpr9410_006 - cmpr9413_034 | součástí archivu jsou čtyři soubory pro mezianotátorskou shodu: mf920922_001 - mf920922_031 | | data_20091209_prosinec_JP.zip | 67 | 1002 | 15872 | JP | 9.12.2009 | 21.12.2009 | train-8: mf920922_001 - mf930713_163, train-6: cmpr9410_006 - cmpr9413_034 | součástí archivu jsou čtyři soubory pro mezianotátorskou shodu: mf920922_001 - mf920922_031 |
 +
 +
  
  
Line 171: Line 173:
 | data_20100129_unor_JP.zip | 56 | 1004 | 18242 | JP | 29.1.2010 | 17.2.2010 | ln94206_97 - ln94211_102 | | | data_20100129_unor_JP.zip | 56 | 1004 | 18242 | JP | 29.1.2010 | 17.2.2010 | ln94206_97 - ln94211_102 | |
 | data_20100202_JP_doplnek.zip | 2 | 59 | 1121 | JP | 2.2.2010 | 3.2.2010 | ln94204_137, ln94204_146 | | | data_20100202_JP_doplnek.zip | 2 | 59 | 1121 | JP | 2.2.2010 | 3.2.2010 | ln94204_137, ln94204_146 | |
-| data_20100201_unor_RO.zip | 70 | 1007 | 17032 | RO | 1.2.2010 | | ln94211_111 - ln95049_022 | |+| data_20100201_unor_RO.zip | 70 | 1007 | 17032 | RO | 1.2.2010 | 2.3.2010 | ln94211_111 - ln95049_022 | |
  
 +==== Train-6/7 ====
  
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20100222_JP_brezen.zip | 70 | 941 | 15346 | JP | 22.2.2010 | 9.3.2010 | train-6: ln95049_032 - ln95049_142, mf920922_009 - mf920925_051, mf920925_071, mf920925_081, mf920925_101 - mf930713_161, train-7: cmpr9410_027, ln94210_95, mf930709_101 | součástí archivu jsou tři soubory z train-7; Jirka má teď míň souborů, aby se vyrovnala únorová práce navíc |
  
-==== Train-6/7 ==== 
  
 +
 +
 +
 +
 +
 +
 +==== Train-7 ====
 +
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20100303_RO_brezen.zip | 52 | 985 | 15663 | RO | 3.3.2010 | 28.3.2010 | cmpr*, lnd*, ln94200_101 - ln94200_98, ln94210_95, mf930709_101 | |
 +| data_20100309_JP_duben.zip | 64 | 1005 | 17596 | JP | 9.3.2010 | 2.4.2010 | ln94202_106 - ln94206_143 | |
 +| data_20100328_RO_duben.zip | 61 | 1010 | 16932 | RO | 28.3.2010 | 3.5.2010 | ln94206_143 - ln94210_68 | |
 +| data_20100402_JP_kveten.zip | 74 | 1012 | 16659 | JP | 2.4.2010 | 23.4.2010 | ln9420, ln94210_77, ln94210_86, ln94211_103 - ln95049_033 | |
 +
 +==== Train-7/dtest ====
 +
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_201000423_JP_cerven.zip | 73 | 1022 | 17435 | JP | 23.4.2010 | 19.5.2010 | ln95049_043 - mf930709_091, mf930709_111 - mf930713_162, cmpr9410_009, cmpr9410_019, cmpr9415_005, lnd94103_063, ln94202_82, ln94207_90, mf930713_134 | |
 +
 +==== dtest ====
 +
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_201000505_RO_kveten.zip | 39 | 1002 | 15764 | RO | 5.5.2010 | 22.6.2010 | cmpr9410_029 - cmpr9415_055, lnd*, ln94200_103 - ln94200_158, ln94202_82, ln94207_90, mf930713_134 | |
 +| data_201000521_JP_cervenec.zip | 67 | 1003 | 17623 | JP | 21.5.2010 | 27.9.2010 | ln94200_167 - ln94202_73, ln94202_91 - ln94205_81 | |
 +| 20100521_mereni_jistoty.zip | 2 | 190 | 2802 | JP, RO | 21.5.2010 | JP: 19.8.2010, RO: 8.6.2010 | ln94207_36, mf930709_052 | |
 +| data_20100623_RO_cerven.zip | 52 | 839 | 14539 | RO | 23.6.2010 | 30.7.2010 | ln94205_90 - ln94207_27, ln94207_45 - ln94207_81, ln94208_1 - ln94209_76 | souborů je míň kvůli předchozímu měření jistoty |
 +| data_20100802_RO_cervenec.zip | 74 | 1036 | 18828 | RO | 2.8.2010 | 31.8.2010 | ln94209_85 - ln95048_050 |  |
 +| data_20100903_RO_srpen.zip | 75 | 1000 | 16287 | RO | 3.9.2010 | - | ln94209_85 - ln95048_050 |  |
 +
 +==== dtest/etest ====
 +
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20100927_JP_srpen.zip | 44 | 813 | 11961 | JP | 29.9.2010 | 8.10.2010 | dtest: mf930713_104 - mf930713_124, mf930713_144, mf930713_154; etest: cmpr*, lnd*, ln94200_104 - ln94200_15, ln94200_46, mf920925_095 | souborů je míň kvůli předchozímu měření jistoty |
 +
 +
 +==== etest ====
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20101008_JP_rijen.zip | 61 | 1000 | 16566 | JP | 8.10.2010 | 26.10.2010 | ln94200_159 - ln94200_37, ln94200_55 - ln94205_19 | září vynecháno - dovolená |
 +| data_20101011_RO_rijen.zip | 42 | 1020 | 17304 | RO | 11.10.2010 | 3.11.2010 | cmpr9410_040, lnd94103_064, ln94200_46, ln94205_28 - ln94208_10, mf920925_095 | září vynecháno - dovolená |
 +| data_20101203_RO_prosinec.zip | 70 | 1020 | 17442 | RO | 3.12.2010 | 1.1.2011 | ln94208_109 - ln95046_044 | listopad vynecháno - práce na anglických datech |
 +| data_20110103_RO_leden.zip | 28 | 456 | 8566 | RO | 3.1.2011 | 26.1.2011 | ln95046_054 - ln95048_040, ln95048_061, ln95048_071 | cca 550 vět udělal začátkem prosince anglických, ale dostal k tomu plnou dávku prosincových českých dat, tak teď je to o těch 550 vět zkráceno |
 +| data_20110103_JP_leden.zip | 26 | 599 | 9619 | JP | 3.1.2011 | 27.1.2011 | ln95048_051, ln95048_081 - ln95049_136, mf920922_003, mf920922_013| listopad a prosinec vynecháno - práce na angl. datech; ještě cca 350 vět bude v lednu dělat anglických, takže dostává jen zkrácenou dávku českých; je tam extra dlouhý soubor (220 vět), takže celkem radši mírně pod 1000 vět než přes |
 +
 +
 +
 +----
 +
 +
 +==== odsud dál v datech nastavuju atribut src podle anotátora (všechny bridging a nové coref_text šipky) ====
 +pozn.: To už jsem nastavil i u starších dat.
 +
 +==== etest/dtest (konec prvního, začátek druhého kola anotací) ====
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20110128_RO_unor.zip | 60 | 989 | 16932 | RO | 28.1.2011 | 27.2.2011 | první kolo: etest: mf920922_023 - mf930713_155 (bez mf920925_095), druhé kolo: dtest: cmpr9410_009, cmpr9410_019, ln94200_167 - ln94200_36 |  |
 +
 +==== dtest (druhé kolo anotací) ====
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20110128_JP_unor.zip | 43 | 995 | 15459 | JP | 28.1.2011 | 18.2.2011 | cmpr9410_029 - cmpr9415_055 (bez cmpr9415_005), lnd* (bez lnd94103_063), ln94200_103 - ln94200_158, ln94205_90 - ln94206_27 |  |
 +| rozdelene_po_55_vetach_JP.zip | 24 | 1329 | 25050 | JP | 24.2.2011 | 20.3.2011 | data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference | březnová práce pro PlayCoref |
 +| rozdelene_po_55_vetach_RO.zip | 24 | 1329 | 24775 | RO | 1.3.2011 | 5.4.2011 | data pro PlayCoref - česká verze Studie v Šarlatové (zhruba půlka), pouze textová koreference | březnová práce pro PlayCoref |
 +| data_20110322_JP_duben.zip | 77 | 998 | 16850 | JP | 22.3.2011 | 3.5.2011 | ln94206_36 až ln95045_038 bez ln94207_36 a bez ln94207_90 |  |
 +| data_20110401_RO_duben.zip | 68 | 997 | 17381 | RO | 6.4.2011 | 4.5.2011 | ln94200_45 - ln94202_73, ln94202_91 - ln94205_81, mf930713_104 - mf930713_154 bez mf930713_134 |  |
 +| data_20110501_JP_kveten.zip | 60 | 1014 | 18204 | JP | 11.4.2011 | 30.5.2011 | ln95045_048 - ln95049_085 |  |
 +
 +==== dtest/etest (druhé kolo anotací) ====
 +^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
 +| data_20110607_JP_cerven.zip | 77 | 1016 | 16994 | JP | 7.6.2011 | 24.6.2011 | dtest: ln95049_095 - ln95049_135, mf920922_002 - mf930713_093 bez mf930709_052; etest: ln94205_28 - ln94206_82 |  |
 +
 +==== etest (druhé kolo anotací) ====
 ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^
-data_20100222_JP_brezen.zip | 70 941 15346 JP 22.2.2010 train-6: ln95049_032 ln95049_142mf920922_009 mf920925_051mf920925_071mf920925_081, mf920925_101 mf930713_161, train-7: cmpr9410_027ln94210_95mf930709_101 součástí archivu jsou tři soubory z train-7; Jirka má teď míň souborů, aby se vyrovnala únorová práce navíc |+data_20110501_RO_kveten.zip | 62 1011 15947 RO 11.4.2011 6.6.2011 cmpr* bez cmpr9410_040, lnd* bez lnd94103_064, ln94200_104 ln94203_119 bez ln94200_46 |  | 
 +| data_20110609_RO_cerven.zip | 60 | 1144 | 18859 | RO | 9.6.2011 | 15.8.2011 | ln94203_128 ln94205_19ln95048_051, ln95048_081 ln95049_136mf920922_003mf920922_013 |  | 
 +| data_20110627_JP_cervenec.zip | 57 | 1003 | 17809 | JP | 27.6.2011 | 28.7.2011 | ln94206_91 ln94211_106 |  | 
 +| data_20110801_JP_srpen.zip | 58 | 1017 | 18656 | JP | 1.8.2011 | 1.9.2011 | ln94211_115 ln95048_071 (bez ln95048_051)mf920922_013mf920922_023 |  | 
 +| data_20110829_JP_zari.zip | 53 | 746 | 12834 | JP | 29.8.2011 | - | mf920922_033 - mf930713_155 (bez mf920925_095) |  |
  

[ Back to the navigation ] [ Back to the content ]