khresmoi:en-fr [ufal wiki]

This is an old revision of the document!

Paralelní data EN-FR
- ELDA
- TDA
- EMEA
- Orphanet
- HON certified web sites
- JRC
- LDC

Paralelní data EN-FR

Zatím mám vše uloženo u sebe. — — hlavacova 2012/01/19 16:08

Vysvětlivky

už stažená data
nevíme, jestli chceme
chceme stahovat, ale zatím nevíme, jak na to … z různých příčin

ELDA

ELRA-E0020, CESTA Evaluation Package,

Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words

Zatim nedodáno (PP)

TDA

Pharmaceuticals and Biotechnology

en-GB → fr-FR: 13,033,584 slov
fr-FR → en-GB 483,610 slov

Staženo, TMX format, kvalita zatím neověřena (PP)

EMEA

Zdroj: http://opus.lingfil.uu.se/EMEA.php
en-fr.tmx.gz … alignovana data - download translation memory files (TMX), 373 152 sentence pairs
en-fr.xml.gz … sentence alignments in XCES format
en-fr.txt.zip … jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
Adresář fr obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences

Orphanet

info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
orig. stránka: http://www.orpha.net
Není to žádný kompaktní balík, to se bude muset prolejzat.
Navíc nejsou jasné podmínky, HON negotiates
Vyslán dotaz, zda už to někdo nestáhnul

HON certified web sites

asi změť všeho možného.
Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
egrep “\.fr” HON_Certified_Web_Sites_1.1.xml | wc → 2675
Asi tam jsou i různé úrovně “podstránek”, např. www.grio.org/ a www.grio.org/liens.php

JRC

vseobecna data, ne med
http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
podle návodu jsem udělala paralelní korpus ze stažených dat:
perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml

pocet anglickych vet:
egrep “\<s1\>” alignedCorpus_en_fr.xml |wc → 1250092

pocet francouzskych vet:
egrep “\<s2\>” alignedCorpus_en_fr.xml | wc → 1250095

Nevím, proč se ta čísla liší.
egrep “\<link type=” alignedCorpus_en_fr.xml | cut -d“ ” -f2|sort|uniq -c →

1228037 type=“1:1”
14162 type=“1:2”
6607 type=“2:1”
1284 type=“2:2”

celkem 1 250 090 linků

LDC

Hansard French/English z roku 1995
LDC Catalog No.: LDC95T20

UN Parallel Text (Complete) z roku 1994
LDC Catalog No.: LDC94T4A

Obojí jsou staré government documents

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents