[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:start [2012/02/29 10:14]
hlavacova
khresmoi:start [2012/02/29 13:38]
hlavacova
Line 22: Line 22:
  
 ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE  | +| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  tda  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE  | +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  cesta  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE  | +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  equer  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE  | +| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  cesart  | 
-| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  8-) DVD  |+| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  french-gigaword  |
 | [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    jrc :!:  | | [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    jrc :!:  |
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  DONE - i CS  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  emea  | 
-| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |     |  DONE*  |+| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |     |  mesh*  |
 | OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  | | OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  |
-| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE  | +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  europarl  | 
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  news-commentary  | 
-| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE  | +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  wmt-news  | 
-| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE  |+| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  undoc  |
 | French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | | French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  |
 | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  |
 | Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   | | Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   |
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         DONE   |+| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |        wipo  |
 | Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   | | Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   |
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |         DONE   |+| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |        wipo  |
 | MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |      viz níže   | | MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |      viz níže   |
 | Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | | Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   |
Line 50: Line 50:
 w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
 * viz podrobnější info v podsekcích * viz podrobnější info v podsekcích
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek
 8-) stažená data, ale nezpracovaná 8-) stažená data, ale nezpracovaná
 :?: nevíme, jestli chceme :?: nevíme, jestli chceme

[ Back to the navigation ] [ Back to the content ]