This is an old revision of the document!
Table of Contents
Paralelní data EN-FR
Zatím mám vše uloženo u sebe. — — hlavacova 2012/01/19 16:08
Vysvětlivky
už stažená data
nevíme, jestli chceme
chceme stahovat, ale zatím nevíme, jak na to … z různých příčin
ELDA
ELRA-E0020, CESTA Evaluation Package,
Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
Zatim nedodáno (PP)
TDA
Pharmaceuticals and Biotechnology
en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov
Staženo, TMX format, kvalita zatím neověřena (PP)
EMEA
Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
Orphanet
info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul
HON certified web sites
asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php
JRC
vseobecna data, ne med
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
podle návodu jsem udělala paralelní korpus ze stažených dat:
perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
pocet anglickych vet:
egrep “\<s1\>” alignedCorpus_en_fr.xml |wc → 1250092
pocet francouzskych vet:
egrep “\<s2\>” alignedCorpus_en_fr.xml | wc → 1250095
Nevím, proč se ta čísla liší.
egrep “\<link type=” alignedCorpus_en_fr.xml | cut -d“ ” -f2|sort|uniq -c →
- 1228037 type=“1:1”
- 14162 type=“1:2”
- 6607 type=“2:1”
- 1284 type=“2:2”
celkem 1 250 090 linků
LDC
Hansard French/English z roku 1995
LDC Catalog No.: LDC95T20
UN Parallel Text (Complete) z roku 1994
LDC Catalog No.: LDC94T4A
Obojí jsou staré government documents