[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/26 16:46]
hlavacova
khresmoi:start [2012/02/29 14:47]
hlavacova
Line 2: Line 2:
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
- 
  
  
Line 12: Line 11:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
 +
 +
 ==== Data ==== ==== Data ====
 +Jsou zde **/net/data/khresmoi**
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
  
-^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^ +---- 
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  | +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE   alignment   EN  ^  FR  ^  DE  ^  Note  ^ 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting  | +| [[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent   |  |  |  DONE:tda  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  | +| [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent   |  |  |  DONE:cesta  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  | +| EQueR Evaluation Package  | ELRA |  in    |  |  |  140 MiB | |  DONE:equer  | 
-| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  8-) DVD  | +| CESART Evaluation Package | ELRA |  in    |  |  |  9000 Kw | |  DONE:cesart  | 
-| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  |  |   |  8-) JHla (jen FR) +| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news    |  |  |   863 Kw | |  DONE:french-gigaword  | 
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  26.34 Mw |  14.9Mw |   |  8-) JHla, JB  | +| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  DONE:jrc :!:  
-| MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |     |  8-) JHla  | +| [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  DONE:emea  | 
-| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  Wien will do  | +| [[khresmoi:data_notes#MESH|MESH]] | U.S. National Library of Medicine |  in    |  |  838 kw |     |  DONE:mesh*  | 
-| Europarl | WMT12 |  parl  |  1.8Ms/47Mw |  1.7Ms/43Mw   |  | |  8-) JHla  | +| [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?    |  |  | |  :-? Wien will do  | 
-| News Commentary  | WMT12 |  news  |  43ks/0.9Mw |  60ks/1.2Mw |  |  | |  8-) JHla  | +| [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms   sent   |  | |  DONE:europarl  | 
-| News monolingual | WMT12 |  news  |  |  |  181kw |  147kw |  162kw |  8-) JHla  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-commentary  | 
-| United Nations | WMT12 |  news   12.3Ms |  |  |  | |  8-) JHla  | +| News monolingual | WMT12 |  news    |  |  181kw |  147kw |  162kw |  DONE:wmt-news  | 
-| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  |  | |  8-) JHla  | +| United Nations | WMT12 |  un   12.3Ms |  |  |  |  | |  DONE:undoc  | 
-| Medpedia wiki| Medpedia |  in  |    |  ? |  | |  only EN found  | +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |   sent   |  | |  DONE  | 
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in#all   1.6Mf#170Mw |  |    |     |  waiting for DVD JHla   | +| Medpedia wiki| Medpedia |  in  |   |  |  |  ? |  | |  only EN found  | 
-| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |    |    |    8-) JB   |+[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO  in   33,5Mw |  |  par  |   |     |  DONE:wipo 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  | 
 +| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |   |    8-) JB   |
  
 +== Vysvětlivky ==
 k, M ... thousand, milion  k, M ... thousand, milion 
 w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
 +* viz podrobnější info v podsekcích
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek
 +8-) stažená data, ale nezpracovaná
 +:?: nevíme, jestli chceme
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
 +8-O čekáme na data
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
 +
 +
 +[[khresmoi:data_notes|Poznámky k datům]]
 +
  
 === Zdroje  === === Zdroje  ===
-__JRC Acquis__  
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
- 
-__MAREC__ 
-A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
-Nevím, kolik slov, není to v jednolitém balíku. 
  
 __Khresmoi wiki__ __Khresmoi wiki__
Line 59: Line 75:
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
  
-__JRC Acquis__ +==== Dokumenty ====
-http://langtech.jrc.it/JRC-Acquis.html +
- +
-__ELDA__ +
- +
-Objednali jsme několik balíčků s in-domain daty (EN-FR, FR)  +
- +
-__TDA__ +
- +
-Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. +
- +
-__LDC__ +
- +
-=== Paralelní data ===  +
- [[EN-FR]] +
- [[EN-DE]] +
- +
-=== Mono data === +
-[[FR]] +
-[[DE]] +
-[[EN]]+
  
 ---- ----
  
-==== Dokumenty ==== 
- 
----- 
-==== SVN ==== 
-Prosím PP o doplnění 
----- 

[ Back to the navigation ] [ Back to the content ]