[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Khresmoi

Medical Information Analysis & Retrieval
http://www.khresmoi.eu/

People and contacts


Poznámky k datům

Píšu to rovnou sem nahoru, aby to bylo na ráně. — hlavacova 2012/02/27 17:21
Data z JRC-Aquis se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla.
Zpracování fr-en jsem provedla “ručně”, ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.
Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. Lepší?

Data

MT training data available for KHRESMOI

Corpus Source Domain EN-FR EN-DE alignment EN FR DE Note
TDA translation memory TDA in 13517 Kw 6797 Kw sent DONE
CESTA Evaluation Package ELRA in 38 Kw sent DONE
EQueR Evaluation Package ELRA in 140 MiB DONE
CESART Evaluation Package ELRA in 9000 Kw DONE
French Gigaword LDC news 863 Kw 8-) DVD
Acquis JRC law 1,25 Ms 1,33 Ms sent Part DONE (jen FR), see ↑
EMEA European Medicines Agency in 373 Ks 12 Mw 26.34 Mw 14.9Mw DONE - i CS
MESH U.S. National Library of Medicine in 838 kw DONE*
OrphaNet OrphaNet in ? Wien will do
Europarl WMT12 parl 1.8Ms 1.7Ms sent DONE
News Commentary WMT12 news 43ks 60ks sent DONE
News monolingual WMT12 news 181kw 147kw 162kw DONE
United Nations WMT12 un 12.3Ms DONE
French-English 109 corpus WMT12 web 22.5Ms sent DONE
Medpedia wiki Medpedia in ? only EN found
Corpus Of Parallel Patent Applications (Coppa) WIPO in 24,8Mw = 1,2Ms sent :?: JHla
Corpus Of Parallel Patent Applications (Coppa) WIPO in 33,5Mw par DONE
Corpus Of Parallel Patent Applications (Coppa) WIPO tech 153,8Mw = 7,5Ms sent :?: JHla
Corpus Of Parallel Patent Applications (Coppa) WIPO tech 178,8Mw par DONE
MAREC Wien TU in ? ? ? viz níže
Springer Bilingual Corpus much.more in 1.09 Mw sent 8-) JB
Europarl3 OPUS 1.3 Ms sent neni poreba
OpenSubtitles2011 OPUS 5 Ms sent 8-) JB

k, M … thousand, milion
w, s, f … words, sentences, files (for parallel data only source (English) words are counted)
* viz podrobnější info v podsekcích

Zdroje

JRC Acquis
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html

MAREC
A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files
Nevím, kolik slov, není to v jednolitém balíku.
Na žádost o přístup odpověděli:
the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.

Coppa
IPC: A61, C12N, C12P … medical patents (doporučeno od WIPO)
Patenty členěny podle roku, ve dvou verzích:

Khresmoi wiki
http://wiki.khresmoi.eu/index.php5/Data_sets_used
http://wiki.khresmoi.eu/index.php5/Data_sets

www stranka WMT workshopu
http://www.statmt.org/wmt12/
http://www.statmt.org/wmt11/translation-task.html … tady je to vsecko pohromade

korpus OPUS
http://opus.lingfil.uu.se/

JRC Acquis
http://langtech.jrc.it/JRC-Acquis.html

ELDA

Objednali jsme několik balíčků s in-domain daty (EN-FR, FR)

TDA

Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.

LDC

Paralelní data

EN-FR
EN-DE

Mono data

FR
DE
EN


Dokumenty


Úložiště

/net/data/khresmoi



[ Back to the navigation ] [ Back to the content ]