[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/26 16:50]
hlavacova
khresmoi:start [2012/02/02 14:36]
hlavacova
Line 18: Line 18:
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
  
-^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^ +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE   alignment   EN  ^  FR  ^  DE  ^  Note  ^ 
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  | +| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  8-) PP  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |   sent   |  |  |  waiting 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting +| EQueR Evaluation Package  | ELRA |  in    |  |  |  140 MiB | |  waiting 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting +| CESART Evaluation Package | ELRA |  in    |  |  |  9000 Kw | |  waiting 
-| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  8-) DVD  | +| French Gigaword | LDC |  news    |  |  |   863 Kw | |  8-) DVD  | 
-| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  |  |    8-) JHla (jen FR) | +| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    8-) JHla (jen FR) | 
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  26.34 Mw |  14.9Mw |    8-) JHla, JB  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    8-) JHla, JB  | 
-| MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |      8-) JHla  | +| MESH | U.S. National Library of Medicine |  in    |  |  838 kw |      8-) JHla  | 
-| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  Wien will do  | +| OrphaNet  | OrphaNet |  in  |  ?    |  |  | |  Wien will do  | 
-| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  |  | |  8-) JHla  | +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms   sent   |  | |  8-) JHla  | 
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  |  | |  8-) JHla  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  8-) JHla  | 
-| News monolingual | WMT12 |  news  |  |  |  181kw |  147kw |  162kw |  8-) JHla  | +| News monolingual | WMT12 |  news    |  |  181kw |  147kw |  162kw |  8-) JHla  | 
-| United Nations | WMT12 |  news  |  12.3Ms |  |  |  | |  8-) JHla  | +| United Nations | WMT12 |  news  |  12.3Ms |  |  |  |  | |  8-) JHla  | 
-| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  |  | |  8-) JHla  | +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |   sent   |  | |  8-) JHla  | 
-| Medpedia wiki| Medpedia |  in  |    |  ? |  | |  only EN found  | +| Medpedia wiki| Medpedia |  in  |   |  |  |  ? |  | |  only EN found  | 
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in#all   1.6Mf#170Mw |  |    |     |  waiting for DVD JHla   | +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw/1,2Ms |  |  sent  |     |     8-) JHla   | 
-| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |    |    |    8-) JB   |+| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw/7,5Ms |  |  sent  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |         8-) JHla   | 
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |   |    8-) JB   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | 
  
 k, M ... thousand, milion  k, M ... thousand, milion 
Line 47: Line 53:
 A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files 
 Nevím, kolik slov, není to v jednolitém balíku. Nevím, kolik slov, není to v jednolitém balíku.
 +
 +__Coppa__
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od autorů)
 +Patenty členěny podle roku, ve dvou verzích:
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
  
 __Khresmoi wiki__ __Khresmoi wiki__

[ Back to the navigation ] [ Back to the content ]