[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
khresmoi:start [2012/02/29 14:32]
hlavacova
khresmoi:start [2012/06/14 12:09]
hlavacova
Line 2: Line 2:
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
- 
  
  
Line 18: Line 17:
  
 ==== Data ==== ==== Data ====
 +Jsou zde **/net/data/khresmoi**
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
 +Kliknutím na korpus (první sloupec) se dostanete do sekce [[khresmoi:data_notes|Poznámky k datům]], případně na stránku, odkud jsou data stažená. 
 +----
 ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^
 | [[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE:tda  | | [[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE:tda  |
 | [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE:cesta  | | [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE:cesta  |
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer +| [[khresmoi:data_notes#ELDA|EQueR ]]Evaluation Package | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart +| [[khresmoi:data_notes#ELDA|CESART]] Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart 
-| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:french-gigaword +| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:gigaword 
-| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc :!:  |+| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc  |
 | [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea  | | [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea  |
-| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE:mesh*  |+[[khresmoi:data_notes#MESH|MESH]] | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE:mesh*  |
 | [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  | | [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  |
 | [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl  | | [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl  |
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-commentary  |+| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-com  |
 | News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news  | | News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news  |
 | United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc  | | United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc  |
-| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  |+| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE:giga  |
 | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  |
-| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   |+| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |        DONE:wipo  |
 | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo  | | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo  |
-| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   |+| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |        DONE:wipo   |
 | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo  | | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo  |
 | [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  | | [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  |
-| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  1.09 Mw |  sent   |     |  8-) JB   |+| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  800kw |  par  1.1Mw |    1.0Mw |  DONE:muchmore   |
 | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   |
 | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
 +| Czeng | UFAL |    |    |    sent  |  |      JB   |
 +| Drugbank | drugbank.ca |  in  |    |  |    624kw |      DONE:drugbank   |
 +| [[http://sig.biostr.washington.edu/projects/fma/release/v3.2.1/alt_formats.html|FMA]] | Foundational Model of Anatomy ontology |  in  |    |  |    855,5kw |      DONE:fma   |
 +| PIL | The Patient Information Leaflet Corpus |  in  |    |  |    0,5Mw |      DONE:pil   |
 +| [[www.nactem.ac.uk/download.php?target=GREC/GREC_Standoff.zip|GREC]] | Gene Regulation Event Corpus |  in  |    |  |    52kw |      DONE:grec   |
 +| [[www.nactem.ac.uk/GENIA/current/GENIA-corpus/Part-of-speech/GENIAcorpus3.02p.tgz|GENIA]] | GENIA |  in  |    |  |    490kw |      DONE:genia   |
 +| [[https://download.ir-facility.org/khresmoi/coch.zip|Cochrane]] | Cochrane |  in  |    |  |    53.6Mw |      DONE:cochrane  |
 +| [[khresmoi:data_notes#un|un]]| Euromatrix |  gen  |  |  |  sent  |  517.4Mw |  386.3Mw |  5.9Mw |  DONE:un  |
 +| [[http://universitypublisher.meduniwien.ac.at/radio2wiki/index.php/Main_Page|Radio2wiki]] | Radio2wiki |  in  |    |  |    |    74kw |  DONE:radio2wiki   |
 +
 +
 +
  
 == Vysvětlivky == == Vysvětlivky ==
Line 58: Line 71:
  
  
-[[khresmoi:data_notes|Poznámky k datům]] +=== Další odkazy  ===
- +
- +
-=== Zdroje  === +
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 74: Line 83:
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
  
-__ELDA__ +==== Dokumenty ====
- +
-Objednali jsme několik balíčků s in-domain daty (EN-FR, FR)  +
- +
-__TDA__ +
- +
-Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. +
- +
-__LDC__ +
- +
-=== Paralelní data ===  +
- [[EN-FR]] +
- [[EN-DE]] +
- +
-=== Mono data === +
-[[FR]] +
-[[DE]] +
-[[EN]]+
  
 ---- ----
  
-==== Dokumenty ==== 
- 
----- 
-==== Úložiště ==== 
-/net/data/khresmoi 
----- 

[ Back to the navigation ] [ Back to the content ]