[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/17 11:36]
hlavacova vytvořeno
khresmoi:start [2012/01/24 16:14]
ufal
Line 1: Line 1:
-===== Khresmoi =====+====== Khresmoi ======
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
Line 14: Line 14:
  
 ---- ----
- 
 ==== Data ==== ==== Data ====
 +
 +=== MT training data available for KHRESMOI ===
 +
 +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^
 +| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  |
 +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting  |
 +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  |
 +| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  |
 +| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  DVD  |
 +| Acquis | JRC |  law  |  1,25 Ms (?3,034 Ms) | (3,128 Ms) |  |  |    8-) JHla  |
 +| EMEA | European Medicines Agency |  in  |  373 Ks |  |  |  |    8-) JHla  |
 +| EMEA | European Medicines Agency |  in  |  |  |  |  14.9Mw |    8-) JHla  |
 +| EMEA | European Medicines Agency |  in  |  |  |  26.34 Mw |  |    8-) JHla  |
 +| MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |      8-) JHla  |
 +| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  negotiating  |
 +| Europarl | WMT12 |  parl  |  ?  |  ?  |  |  | |  JHla  |
 +| News Commentary  | WMT12 |  news  |  ?  |  ?  |  |  | |  JHla  |
 +| News monolingual | WMT12 |  news  |  |  |  |  | |  JHla  |
 +| United Nations | WMT12 |  ?  |  ?  |  |  |  | |  JHla  |
 +| French-English 109 corpus | WMT12 |  web  |  ?  |  |  |  | |  JHla  |
 +
 +
 +K,M ... thousand, milion 
 +w,s ... words, sentences (for parallel data only source (English) words are counted)
 +
 +
 +JRC Acquis by mel mit pres 3 Ms:
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html
 +
 === Zdroje (dle PP) === === Zdroje (dle PP) ===
 __Khresmoi wiki__ __Khresmoi wiki__
Line 31: Line 59:
  
 __ELDA__ __ELDA__
 +
 +Objednali jsme několik balíčků s in-domain daty (EN-FR, FR) 
  
 __TDA__ __TDA__
 +
 +Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.
  
 __LDC__ __LDC__

[ Back to the navigation ] [ Back to the content ]