[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/24 14:23]
hlavacova
khresmoi:start [2012/02/02 14:36]
hlavacova
Line 16: Line 16:
 ==== Data ==== ==== Data ====
  
-^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^ +=== MT training data available for KHRESMOI === 
-TMX | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  | + 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE   alignment   EN  ^  FR  ^  DE  ^  Note  ^ 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting +TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  8-) PP  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |   sent   |  |  |  waiting 
-| French Gigaword | LDC |  out   |  |  |   863Kw | |  DVD  | +| EQueR Evaluation Package  | ELRA |  in    |  |  |  140 MiB | |  waiting 
-| Acquis | JRC |  out   1,25M sentences |  |  |  |    8-) JHla  +| CESART Evaluation Package | ELRA |  in    |  |  |  9000 Kw | |  waiting 
-| EMEA | European Medicines Agency |  in  |  373k sentences |  |  |  |    8-) JHla  | +| French Gigaword | LDC |  news  |   |  |  |   863 Kw | |  8-) DVD  | 
-EMEA European Medicines Agency |  in  |  |  |  |  14.9Mw |    8-) JHla  | +| Acquis | JRC |  law   1,25 Ms  1,33 Ms |  sent   |  |    8-) JHla (jen FR) 
-EMEA European Medicines Agency |  in  |  |  |  26,34Mw |  |   |  8-) JHla  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    8-) JHla, JB  | 
-MESH U.SNational Library of Medicine |  in  |  |  |  838kw |      8-) JHla  | +MESH U.S. National Library of Medicine |  in  |  |  |  |  838 kw |   |    8-) JHla  | 
-OrphaNet  OrphaNet |  in  |    |  |  | |  negotiating  |+OrphaNet  OrphaNet |  in  |  ?   |  |  |  | |  Wien will do  | 
 +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  8-) JHla  | 
 +News Commentary  WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  8-) JHla  | 
 +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  8-) JHla  | 
 +| United Nations | WMT12 |  news  |  12.3Ms |  |  |  |  | |  8-) JHla  | 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  8-) JHla  | 
 +| Medpedia wiki| Medpedia |  in  |   |  |  |  ? |  | |  only EN found  | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw/1,2Ms |  |  sent  |     |     8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw/7,5Ms |  |  sent  |         8-) JHla   
 +Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech   178,8Mw |  |  par  |         8-) JHla   | 
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |     |  8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms  sent  |  |      8-) JB   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | 
 + 
 + 
 +k, M ... thousand, milion  
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) 
 + 
 +=== Zdroje  === 
 +__JRC Acquis__  
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
 + 
 +__MAREC__ 
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
 +Nevím, kolik slov, není to v jednolitém balíku. 
 + 
 +__Coppa__ 
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od autorů) 
 +Patenty členěny podle roku, ve dvou verzích: 
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. 
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
  
-=== Zdroje (dle PP) === 
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 36: Line 66:
 __www stranka WMT workshopu__ __www stranka WMT workshopu__
 http://www.statmt.org/wmt12/ http://www.statmt.org/wmt12/
 +http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade
  
 __korpus OPUS__  __korpus OPUS__ 

[ Back to the navigation ] [ Back to the content ]