[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/17 11:36]
hlavacova vytvořeno
khresmoi:start [2012/02/29 14:48]
hlavacova
Line 1: Line 1:
-===== Khresmoi =====+====== Khresmoi ======
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
- 
  
  
Line 12: Line 11:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
 +
  
 ==== Data ==== ==== Data ====
-=== Zdroje (dle PP) === +Jsou zde **/net/data/khresmoi**
-__Khresmoi wiki__ +
-http://wiki.khresmoi.eu/index.php5/Data_sets_used +
-http://wiki.khresmoi.eu/index.php5/Data_sets+
  
-__www stranka WMT workshopu__ +=== MT training data available for KHRESMOI ===
-http://www.statmt.org/wmt12/+
  
-__korpus OPUS__  +---- 
-http://opus.lingfil.uu.se/+^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ 
 +| [[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE:tda 
 +| [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE:cesta 
 +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer 
 +| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart 
 +| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:french-gigaword 
 +| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc :!:  | 
 +| [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea 
 +| [[khresmoi:data_notes#MESH|MESH]] | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE:mesh* 
 +| [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  | 
 +| [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl 
 +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-commentary 
 +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news 
 +| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | 
 +| Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  | 
 +| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
  
-__JRC Acquis__ +== Vysvětlivky == 
-http://langtech.jrc.it/JRC-Acquis.html+k, M ... thousand, milion  
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) 
 +* viz podrobnější info v podsekcích 
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek 
 +8-) stažená data, ale nezpracovaná 
 +:?: nevíme, jestli chceme 
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin 
 +8-O čekáme na data 
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
  
-__ELDA__ 
  
-__TDA__+[[khresmoi:data_notes|Poznámky k datům]]
  
-__LDC__ 
  
-=== Paralelní data ===  +=== Další odkazy  ===
- [[EN-FR]] +
- [[EN-DE]]+
  
-=== Mono data === +__Khresmoi wiki__ 
-[[FR]] +http://wiki.khresmoi.eu/index.php5/Data_sets_used 
-[[DE]] +http://wiki.khresmoi.eu/index.php5/Data_sets
-[[EN]]+
  
-----+__www stranka WMT workshopu__ 
 +http://www.statmt.org/wmt12/ 
 +http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade 
 + 
 +__korpus OPUS__  
 +http://opus.lingfil.uu.se/
  
 ==== Dokumenty ==== ==== Dokumenty ====
  
 ---- ----
-==== SVN ==== +
-Prosím PP o doplnění +
-----+

[ Back to the navigation ] [ Back to the content ]