[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/17 11:36]
hlavacova vytvořeno
khresmoi:start [2012/02/22 15:36]
hlavacova
Line 1: Line 1:
-===== Khresmoi =====+====== Khresmoi ======
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
Line 12: Line 12:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
  
 ==== Data ==== ==== Data ====
-=== Zdroje (dle PP) ===+ 
 +=== MT training data available for KHRESMOI === 
 + 
 +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ 
 +| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE  | 
 +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  PROCESSING 
 +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  PROCESSING 
 +| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  PROCESSING 
 +| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  8-) DVD  | 
 +| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    8-) JHla (jen FR
 +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE - i CS  | 
 +| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE*  | 
 +| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  | 
 +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE  | 
 +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE  | 
 +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE  | 
 +| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE  | 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | 
 +| Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw 1,2Ms |  |  sent  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw 7,5Ms |  |  sent  |         8-) JHla   | 
 +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |         8-) JHla   | 
 +| MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |      viz níže   | 
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | 
 + 
 + 
 +k, M ... thousand, milion  
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) 
 +* viz podrobnější info v podsekcích 
 + 
 +=== Zdroje  === 
 +__JRC Acquis__  
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
 + 
 +__MAREC__ 
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
 +Nevím, kolik slov, není to v jednolitém balíku. 
 +Na žádost o přístup odpověděli: 
 +//the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.// 
 + 
 + 
 +__Coppa__ 
 +IPC: A61, C12N, C12P ... medical patents (doporučeno od WIPO) 
 +Patenty členěny podle roku, ve dvou verzích: 
 +  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. 
 +  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) 
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 23: Line 73:
 __www stranka WMT workshopu__ __www stranka WMT workshopu__
 http://www.statmt.org/wmt12/ http://www.statmt.org/wmt12/
 +http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade
  
 __korpus OPUS__  __korpus OPUS__ 
Line 31: Line 82:
  
 __ELDA__ __ELDA__
 +
 +Objednali jsme několik balíčků s in-domain daty (EN-FR, FR) 
  
 __TDA__ __TDA__
 +
 +Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.
  
 __LDC__ __LDC__
Line 50: Line 105:
  
 ---- ----
-==== SVN ==== +==== Úložiště ==== 
-Prosím PP o doplnění+/net/data/khresmoi
 ---- ----

[ Back to the navigation ] [ Back to the content ]