[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
khresmoi:start [2012/03/02 14:48]
ufal
khresmoi:start [2012/06/14 12:09]
hlavacova
Line 20: Line 20:
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
-Kliknutím na korpus (první sloupec) se dostanete do sekce [[khresmoi:data_notes|Poznámky k datům]].+Kliknutím na korpus (první sloupec) se dostanete do sekce [[khresmoi:data_notes|Poznámky k datům]], případně na stránku, odkud jsou data stažená.
 ---- ----
 ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^
Line 27: Line 27:
 | [[khresmoi:data_notes#ELDA|EQueR ]]Evaluation Package | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer  | | [[khresmoi:data_notes#ELDA|EQueR ]]Evaluation Package | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer  |
 | [[khresmoi:data_notes#ELDA|CESART]] Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart  | | [[khresmoi:data_notes#ELDA|CESART]] Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart  |
-| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:french-gigaword  |+| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:gigaword  |
 | [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc  | | [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |    DONE:jrc  |
 | [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea  | | [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea  |
Line 33: Line 33:
 | [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  | | [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  |
 | [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl  | | [[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl  |
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-commentary  |+| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-com  |
 | News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news  | | News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news  |
 | United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc  | | United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc  |
Line 43: Line 43:
 | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo  | | [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo  |
 | [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  | | [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  |
-| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  1.09 Mw |  sent   |     |  8-) JB   |+| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  800kw |  par  1.1Mw |    1.0Mw |  DONE:muchmore   |
 | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   |
 | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
 | Czeng | UFAL |    |    |    sent  |  |      JB   | | Czeng | UFAL |    |    |    sent  |  |      JB   |
 +| Drugbank | drugbank.ca |  in  |    |  |    624kw |      DONE:drugbank   |
 +| [[http://sig.biostr.washington.edu/projects/fma/release/v3.2.1/alt_formats.html|FMA]] | Foundational Model of Anatomy ontology |  in  |    |  |    855,5kw |      DONE:fma   |
 +| PIL | The Patient Information Leaflet Corpus |  in  |    |  |    0,5Mw |      DONE:pil   |
 +| [[www.nactem.ac.uk/download.php?target=GREC/GREC_Standoff.zip|GREC]] | Gene Regulation Event Corpus |  in  |    |  |    52kw |      DONE:grec   |
 +| [[www.nactem.ac.uk/GENIA/current/GENIA-corpus/Part-of-speech/GENIAcorpus3.02p.tgz|GENIA]] | GENIA |  in  |    |  |    490kw |      DONE:genia   |
 +| [[https://download.ir-facility.org/khresmoi/coch.zip|Cochrane]] | Cochrane |  in  |    |  |    53.6Mw |      DONE:cochrane  |
 +| [[khresmoi:data_notes#un|un]]| Euromatrix |  gen  |  |  |  sent  |  517.4Mw |  386.3Mw |  5.9Mw |  DONE:un  |
 +| [[http://universitypublisher.meduniwien.ac.at/radio2wiki/index.php/Main_Page|Radio2wiki]] | Radio2wiki |  in  |    |  |    |    74kw |  DONE:radio2wiki   |
 +
 +
 +
  
 == Vysvětlivky == == Vysvětlivky ==

[ Back to the navigation ] [ Back to the content ]