[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/24 14:52]
ufal
khresmoi:start [2012/02/29 10:12]
hlavacova
Line 12: Line 12:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
 +
 +
 ==== Data ==== ==== Data ====
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
  
-^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^ +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE   alignment   EN  ^  FR  ^  DE  ^  Note  ^ 
-TMX | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  | +TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent   |  |  |  DONE  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting  | +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |   sent   |  |  |  DONE  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  | +| EQueR Evaluation Package  | ELRA |  in    |  |  |  140 MiB | |  DONE  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  | +| CESART Evaluation Package | ELRA |  in    |  |  |  9000 Kw | |  DONE  | 
-| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  DVD  | +| French Gigaword | LDC |  news    |  |  |   863 Kw | |  8-) DVD  | 
-| Acquis | JRC |  law  |  1,25 Ms |  |  |  |   |  8-) JHla  | +[[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent   |  |   |  jrc :!:  | 
-| EMEA | European Medicines Agency |  in  |  373 Ks |  |  |  |   |  8-) JHla  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  DONE i CS  | 
-EMEA European Medicines Agency |  in  |  |  |  |  14.9Mw |   |  8-) JHla  | +MESH U.S. National Library of Medicine |  in  |  |  |  |  838 kw |   |   |  DONE*  | 
-EMEA European Medicines Agency |  in  |  |  |  26.34 Mw |  |   |  8-) JHla  | +OrphaNet  OrphaNet |  in  |  ?   |  |  |  | |  Wien will do  | 
-MESH U.SNational Library of Medicine |  in  |  |  |  838 kw |     |  8-JHla  | +| Europarl | WMT12 |  parl  |  1.8Ms  1.7Ms   sent  |  |  | |  DONE  | 
-OrphaNet  OrphaNet |  in  |  ?  |  |  |  | |  negotiating  |+News Commentary  WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE  | 
 +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE  | 
 +| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE  | 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | 
 +| Medpedia wiki| Medpedia |  in  |   |  |  |  ? |  | |  only EN found  | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |     |     :?: JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         DONE   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   
 +Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech   178,8Mw |  |  par  |         DONE   | 
 +| MAREC | Wien TU |  in  |  ?   ?  |  |     |  viz níže   | 
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
  
-K,M ... thousand, milion  
-w,s ... words, sentences (for parallel data only source (English) words are counted) 
  
-=== Zdroje (dle PP) ===+k, M ... thousand, milion  
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) 
 +* viz podrobnější info v podsekcích 
 + 
 + 
 +[[khresmoi:data_notes|Poznámky k datům]] 
 + 
 + 
 +=== Zdroje  === 
 + 
 +__MAREC__ 
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
 +Nevím, kolik slov, není to v jednolitém balíku. 
 +Na žádost o přístup odpověděli: 
 +//the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.// 
 + 
 + 
 +__Coppa__ 
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od WIPO) 
 +Patenty členěny podle roku, ve dvou verzích: 
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. 
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) 
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 41: Line 76:
 __www stranka WMT workshopu__ __www stranka WMT workshopu__
 http://www.statmt.org/wmt12/ http://www.statmt.org/wmt12/
 +http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade
  
 __korpus OPUS__  __korpus OPUS__ 
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
- 
-__JRC Acquis__ 
-http://langtech.jrc.it/JRC-Acquis.html 
  
 __ELDA__ __ELDA__
Line 72: Line 105:
  
 ---- ----
-==== SVN ==== +==== Úložiště ==== 
-Prosím PP o doplnění+/net/data/khresmoi
 ---- ----

[ Back to the navigation ] [ Back to the content ]