This is an old revision of the document!
Table of Contents
Poznámky k datům
JRC-Aquis
http://langtech.jrc.it/JRC-Acquis.html
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html
Data z JRC-Aquis se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla.
Zpracování fr-en jsem provedla “ručně”, ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.
Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
Coppa
Corpus Of Parallel Patent Applications
Dostali jsme na DVD na vyžádání.
IPC: A61, C12N, C12P … medical patents (doporučeno od WIPO)
Patenty členěny podle roku, ve dvou verzích:
- segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
- nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
Zatím jsem udělala jen ty nesegmentované.
MAREC
A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files
Nevím, kolik slov, není to v jednolitém balíku.
Na žádost o přístup odpověděli:
the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.
TDA
Pharmaceuticals and Biotechnology
en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov
Staženo, TMX format, kvalita zatím neověřena (PP)
Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.
EMEA
Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
Orphanet
info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul
HON certified web sites
asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php