[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/24 15:15]
ufal
khresmoi:start [2012/01/26 16:19]
hlavacova
Line 23: Line 23:
 | EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  | | EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  |
 | CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  | | CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  |
-| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  DVD  |+| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  8-) DVD  |
 | Acquis | JRC |  law  |  1,25 Ms (?3,034 Ms) | (3,128 Ms) |  |  |    8-) JHla  | | Acquis | JRC |  law  |  1,25 Ms (?3,034 Ms) | (3,128 Ms) |  |  |    8-) JHla  |
-| EMEA | European Medicines Agency |  in  |  373 Ks |  |  |  |    8-) JHla  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  26.34 Mw |  14.9Mw |    8-) JHla, JB  |
-| EMEA | European Medicines Agency |  in  |  |  |  |  14.9Mw |    8-) JHla  | +
-| EMEA | European Medicines Agency |  in  |  |  |  26.34 Mw |  |    8-) JHla  |+
 | MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |      8-) JHla  | | MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |      8-) JHla  |
-| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  negotiating  | +| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  Wien will do  | 
- +| Europarl | WMT12 |  parl  |  1.8Ms/47Mw |  1.7Ms/43Mw  |  |  | |  8-) JHla  | 
- +| News Commentary  | WMT12 |  news  |  43ks/0.9Mw |  60ks/1.2Mw |  |  | |  8-) JHla  | 
-K,M ... thousand, milion  +| News monolingual | WMT12 |  news  |  |  |  181kw |  147kw |  162kw |  8-) JHla  | 
-w,s ... words, sentences (for parallel data only source (Englishwords are counted)+| United Nations | WMT12 |  news  |  12.3Ms |  |  |  | |  8-) JHla  | 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  |  | |  8-) JHla  | 
 +| Medpedia wiki| Medpedia |  in  |    |  ? |  | |  only EN found  | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in#all  |  1.6Mf#170Mw |  |    |      waiting for DVD JHla   | 
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |    |    |    8-JB   |
  
 +k, M ... thousand, milion 
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
  
 JRC Acquis by mel mit pres 3 Ms: JRC Acquis by mel mit pres 3 Ms:
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html
  
-=== Zdroje (dle PP) ===+=== Zdroje  === 
 + 
 +__MAREC__ 
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
 +Nevím, kolik slov, není to v jednolitém balíku. 
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 46: Line 55:
 __www stranka WMT workshopu__ __www stranka WMT workshopu__
 http://www.statmt.org/wmt12/ http://www.statmt.org/wmt12/
 +http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade
  
 __korpus OPUS__  __korpus OPUS__ 

[ Back to the navigation ] [ Back to the content ]