Poznámky k datům
- JRC-Aquis
- ELDA
- Coppa
- French Gigaword
- MESH
- MAREC
- TDA
- EMEA
- Orphanet
- Europarl
- UN
- much.more
- LDC
- HON certified web sites

Poznámky k datům

JRC-Aquis

http://langtech.jrc.it/JRC-Acquis.html … mono data
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html … HunAlign alignment
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html … Vanilla alignment

právnická data, ne med
Skript na vytvoření paralelních dat: getAlignmentWithText.pl
POZOR! v návodu READ.ME se jmenuje jinak.
Funguje jen s Vanilla
Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji z mailu od Ralfa Steinbergera (29.02.2012 14:40:37):

There is a small bug in the hunAlign version of the corpus which prevents
the
getAlignmentWithText.pl scipt from working: all document identifiers (using
the
English-Polish alignemnt as an example) have the string “format/en.pl/jrc”
prepended (or infixed) to the actual document ID.

This applies to the following attributes:

- text/body/div[@n] (eg. “format/en.pl/jrc21970A0720(01)” insted of
> “21970A0720(01)”)
> - linkGrp[@n] (as above)
- linkGrp[@id] (eg. “jrcformat/en.pl/jrc21970A0720_01-en-pl” instead of
> “jrc21970A0720_01-en-pl”)
> - linkGrp[@xtargets] (as above)

Preprocessing the alignment files with

sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml

is enough to get the script working, but perhaps this information could be
added to the documentation, the Perl script modified for the hunAlign
version
or the alignemnt files modified on the server to save others the confusion
and
unnecessary work.

With kind regards,
Łukasz Dróżdż
University of Łódź

pocet anglickych vet:
egrep “\<s1\>” alignedCorpus_en_fr.xml |wc → 1250092

pocet francouzskych vet:
egrep “\<s2\>” alignedCorpus_en_fr.xml | wc → 1250095

egrep “\<link type=” alignedCorpus_en_fr.xml | cut -d“ ” -f2|sort|uniq -c →

1228037 type=“1:1”
14162 type=“1:2”
6607 type=“2:1”
1284 type=“2:2”

celkem 1 250 090 linků

ELDA

ELRA-E0020, CESTA Evaluation Package

Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words

ELRA-E0022: EQueR Evaluation Package

Subpart: 140 Mb of data from the medical domain

ELRA-E0019: CESART Evaluation Package

Subpart (medical corpus): 9,000,000 words

Coppa

Corpus Of Parallel Patent Applications
Dostali jsme na DVD na vyžádání.
IPC: A61, C12N, C12P … medical patents (doporučeno od WIPO)
Patenty členěny podle roku, ve dvou verzích:

segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)

Zpracované obojí, viz read.me u dat.
POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž

French Gigaword

3rd edition, catalogue number LDC2011T10, máme DVD
Formát: SGML, segmentace na věty, netokenizováno
862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.

MESH

EN
Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html

Z možných formátů jsem stáhla jen ASCII zaznamy.
d2012.bin … Dulezite jsou jen polozky

MH = nazev leku - celkem 26581 položek
MS = slovni popis - celkem 25554 … nějaké asi chybí

q2012.bin … Dulezite jsou jen polozky

SH = nazev, ale nevim moc, ceho - celkem 83
MS = slovni popis - celkem 83

Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
c2012.bin … tohle je ale vlastne jen chemicke, asi nepouzit

NM = nazev leku
NO = popis

Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
podmnozinou tech z roku 2012 - namatkove overeno na
MH = Autistic Disorder

FR
Francouzi mají překlad, je možno o něj zažádat z téhle adresy:
http://mesh.inserm.fr/mesh/get_file.htm

MAREC

A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files
Nevím, kolik slov, není to v jednolitém balíku.
Na žádost o přístup odpověděli:
the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.

TDA

Pharmaceuticals and Biotechnology

en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov
en-GB → de-DE: 412,406
de-DE → en-GB: 6,385,051

Staženo, TMX format, kvalita zatím neověřena (PP)
Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.

EMEA

Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences

Orphanet

info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul

Europarl

http://www.statmt.org/europarl/
wc europarl-v6.fr-en.*

1825077  45682922 273660925 europarl-v6.fr-en.en
1825077  47667366 314658361 europarl-v6.fr-en.fr

Stažený nástroj na alignment.

UN

Data z projektu Euromatrix
Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc → 13127945 352668682 2290530218
http://www.euromatrixplus.net/multi-un/
Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
Kromě toho je součástí balení README a skript extract.py, který udělá “paralelní data”, což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.

much.more

Alignované abstrakty medicínských článů, staženo, >1 Mw
Volitelně anotace:
Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.

LDC

Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá.

Hansard French/English … LDC Catalog No.: LDC95T20, government documents

To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1995, 1996, 1997 members
Reduced-License Fee: US $3250.00

UN Parallel Text (Complete) … LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents

To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1994 members
Non-member Fee: US $4000.00
Reduced-License Fee: US $2000.00

HON certified web sites

asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents