Table of Contents
Poznámky k datům
JRC-Aquis
http://langtech.jrc.it/JRC-Acquis.html … mono data
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html … HunAlign alignment
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html … Vanilla alignment
právnická data, ne med
Skript na vytvoření paralelních dat: getAlignmentWithText.pl
POZOR! v návodu READ.ME se jmenuje jinak.
Funguje jen s Vanilla
Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji z mailu od Ralfa Steinbergera (29.02.2012 14:40:37):
There is a small bug in the hunAlign version of the corpus which prevents
the
getAlignmentWithText.pl scipt from working: all document identifiers (using
the
English-Polish alignemnt as an example) have the string “format/en.pl/jrc”
prepended (or infixed) to the actual document ID.
This applies to the following attributes:
- text/body/div[@n] (eg. “format/en.pl/jrc21970A0720(01)” insted of
> “21970A0720(01)”)
> - linkGrp[@n] (as above)
- linkGrp[@id] (eg. “jrcformat/en.pl/jrc21970A0720_01-en-pl” instead of
> “jrc21970A0720_01-en-pl”)
> - linkGrp[@xtargets] (as above)
Preprocessing the alignment files with
sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml
is enough to get the script working, but perhaps this information could be
added to the documentation, the Perl script modified for the hunAlign
version
or the alignemnt files modified on the server to save others the confusion
and
unnecessary work.
With kind regards,
Łukasz Dróżdż
University of Łódź
pocet anglickych vet:
egrep “\<s1\>” alignedCorpus_en_fr.xml |wc → 1250092
pocet francouzskych vet:
egrep “\<s2\>” alignedCorpus_en_fr.xml | wc → 1250095
egrep “\<link type=” alignedCorpus_en_fr.xml | cut -d“ ” -f2|sort|uniq -c →
- 1228037 type=“1:1”
- 14162 type=“1:2”
- 6607 type=“2:1”
- 1284 type=“2:2”
celkem 1 250 090 linků
ELDA
- ELRA-E0020, CESTA Evaluation Package
Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
- ELRA-E0022: EQueR Evaluation Package
Subpart: 140 Mb of data from the medical domain
- ELRA-E0019: CESART Evaluation Package
Subpart (medical corpus): 9,000,000 words
Coppa
Corpus Of Parallel Patent Applications
Dostali jsme na DVD na vyžádání.
IPC: A61, C12N, C12P … medical patents (doporučeno od WIPO)
Patenty členěny podle roku, ve dvou verzích:
- segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
- nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
Zpracované obojí, viz read.me u dat.
POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž
French Gigaword
3rd edition, catalogue number LDC2011T10, máme DVD
Formát: SGML, segmentace na věty, netokenizováno
862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
MESH
EN
Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
Z možných formátů jsem stáhla jen ASCII zaznamy.
d2012.bin … Dulezite jsou jen polozky
- MH = nazev leku - celkem 26581 položek
- MS = slovni popis - celkem 25554 … nějaké asi chybí
q2012.bin … Dulezite jsou jen polozky
- SH = nazev, ale nevim moc, ceho - celkem 83
- MS = slovni popis - celkem 83
Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
c2012.bin … tohle je ale vlastne jen chemicke, asi nepouzit
- NM = nazev leku
- NO = popis
Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
podmnozinou tech z roku 2012 - namatkove overeno na
MH = Autistic Disorder
FR
Francouzi mají překlad, je možno o něj zažádat z téhle adresy:
http://mesh.inserm.fr/mesh/get_file.htm
MAREC
A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files
Nevím, kolik slov, není to v jednolitém balíku.
Na žádost o přístup odpověděli:
the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.
TDA
Pharmaceuticals and Biotechnology
en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov
en-GB → de-DE: 412,406
de-DE → en-GB: 6,385,051
Staženo, TMX format, kvalita zatím neověřena (PP)
Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.
EMEA
Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
Orphanet
info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul
Europarl
http://www.statmt.org/europarl/
wc europarl-v6.fr-en.*
1825077 45682922 273660925 europarl-v6.fr-en.en 1825077 47667366 314658361 europarl-v6.fr-en.fr
Stažený nástroj na alignment.
UN
Data z projektu Euromatrix
Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc → 13127945 352668682 2290530218
http://www.euromatrixplus.net/multi-un/
Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
Kromě toho je součástí balení README a skript extract.py, který udělá “paralelní data”, což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.
much.more
Alignované abstrakty medicínských článů, staženo, >1 Mw
Volitelně anotace:
Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
LDC
Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá.
- Hansard French/English … LDC Catalog No.: LDC95T20, government documents
To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1995, 1996, 1997 members
Reduced-License Fee: US $3250.00
- UN Parallel Text (Complete) … LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents
To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1994 members
Non-member Fee: US $4000.00
Reduced-License Fee: US $2000.00
HON certified web sites
asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php