This is an old revision of the document!
Table of Contents
Paralelní data EN-FR
Zatím mám vše uloženo u sebe. — — hlavacova 2012/01/19 16:08
Vysvětlivky
už stažená data
nevíme, jestli chceme
chceme stahovat, ale zatím nevíme, jak na to … z různých příčin
čekáme na data
ELDA
ELRA-E0020, CESTA Evaluation Package
Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
Zatim nedodáno (PP)
TDA
Pharmaceuticals and Biotechnology
en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov
Staženo, TMX format, kvalita zatím neověřena (PP)
EMEA
Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
Orphanet
info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul
HON certified web sites
asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php
JRC
vseobecna data, ne med
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
podle návodu jsem udělala paralelní korpus ze stažených dat:
perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
pocet anglickych vet:
egrep “\<s1\>” alignedCorpus_en_fr.xml |wc → 1250092
pocet francouzskych vet:
egrep “\<s2\>” alignedCorpus_en_fr.xml | wc → 1250095
egrep “\<link type=” alignedCorpus_en_fr.xml | cut -d“ ” -f2|sort|uniq -c →
- 1228037 type=“1:1”
- 14162 type=“1:2”
- 6607 type=“2:1”
- 1284 type=“2:2”
celkem 1 250 090 linků
korpus Europarl
wc europarl-v6.fr-en.*
1825077 45682922 273660925 europarl-v6.fr-en.en 1825077 47667366 314658361 europarl-v6.fr-en.fr
Stažený nástroj na alignment.
LDC
- Hansard French/English … LDC Catalog No.: LDC95T20, government documents
To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1995, 1996, 1997 members
Reduced-License Fee: US $3250.00
- UN Parallel Text (Complete) … LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents
To by bylo třeba objednat, ale je to drahé:
Member fee: $0 for 1994 members
Non-member Fee: US $4000.00
Reduced-License Fee: US $2000.00
MAREC
Tenhle odkaz z wiki Khresmoi vede na stránky WIPO. Jde o patenty z nejrůznějších oborů.
Odpověděli na můj dotaz mailem, objednala jsem korpus COPPA (viz tabulka) - viz http://www.wipo.int/patentscope/en/data/products.html
Měl by být paralelní se 170Mw. Z toho je něco in domain - podle kódu, který mám, je možno data identifikovat.
Možná se budou hodit i ostatní, ale nevím, z jakých jsou oborů.
JRC - Acquis
wc europarl-v6.fr-en.*
1825077 45682922 273660925 europarl-v6.fr-en.en 1825077 47667366 314658361 europarl-v6.fr-en.fr