[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/23 10:57]
ufal
khresmoi:start [2012/02/29 14:48]
hlavacova
Line 2: Line 2:
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
- 
  
  
Line 12: Line 11:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
 +
  
 ==== Data ==== ==== Data ====
-=== Zdroje (dle PP) === +Jsou zde **/net/data/khresmoi**
-__Khresmoi wiki__ +
-http://wiki.khresmoi.eu/index.php5/Data_sets_used +
-http://wiki.khresmoi.eu/index.php5/Data_sets+
  
-__www stranka WMT workshopu__ +=== MT training data available for KHRESMOI ===
-http://www.statmt.org/wmt12/+
  
-__korpus OPUS__  +---- 
-http://opus.lingfil.uu.se/+^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ 
 +| [[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE:tda 
 +| [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE:cesta 
 +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer 
 +| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart 
 +| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:french-gigaword 
 +| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc :!:  | 
 +| [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea 
 +| [[khresmoi:data_notes#MESH|MESH]] | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE:mesh* 
 +| [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  | 
 +| [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl 
 +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-commentary 
 +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news 
 +| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc 
 +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | 
 +| Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   | 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  | 
 +| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
  
-__JRC Acquis__ +== Vysvětlivky == 
-http://langtech.jrc.it/JRC-Acquis.html+k, M ... thousand, milion  
 +w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) 
 +* viz podrobnější info v podsekcích 
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek 
 +8-) stažená data, ale nezpracovaná 
 +:?: nevíme, jestli chceme 
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin 
 +8-O čekáme na data 
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
  
-__ELDA__ 
  
-Objednali jsme několik balíčků s in-domain daty (EN-FR, FR) +[[khresmoi:data_notes|Poznámky datům]]
  
-__TDA__ 
  
-Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.+=== Další odkazy  ===
  
-__LDC__+__Khresmoi wiki__ 
 +http://wiki.khresmoi.eu/index.php5/Data_sets_used 
 +http://wiki.khresmoi.eu/index.php5/Data_sets
  
-=== Paralelní data ===  +__www stranka WMT workshopu__ 
- [[EN-FR]] +http://www.statmt.org/wmt12/ 
- [[EN-DE]]+http://www.statmt.org/wmt11/translation-task.html   ... tady je to vsecko pohromade
  
-=== Mono data === +__korpus OPUS__  
-[[FR]] +http://opus.lingfil.uu.se/
-[[DE]] +
-[[EN]] +
- +
-----+
  
 ==== Dokumenty ==== ==== Dokumenty ====
  
 ---- ----
-==== SVN ==== +
-Prosím PP o doplnění +
-----+

[ Back to the navigation ] [ Back to the content ]