Differences

This shows you the differences between two versions of the page.

--- khresmoi:en-fr [2012/01/19 14:15]
hlavacova
+++ khresmoi:en-fr [2012/01/23 10:51]
ufal
@@ Line 1: / Line 1: @@
 ===== Paralelní data EN-FR =====
-Zatím mám vše uloženo u sebe.  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 11:08//
+Zatím mám vše uloženo u sebe.  ---  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 16:08//
+== Vysvětlivky ==
+-) už stažená data
+:?: nevíme, jestli chceme
+:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
+==== ELDA ====
+**ELRA-E0020, CESTA Evaluation Package**
+Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
+Zatim nedodáno (PP)
+==== TDA ====
+**Pharmaceuticals and Biotechnology**
+en-GB -> fr-FR: 13,033,584 slov
+fr-FR -> en-GB  483,610 slov
+Staženo, TMX format, kvalita zatím neověřena (PP)
 ==== EMEA ====
+-)
 Zdroj: http://opus.lingfil.uu.se/EMEA.php
 **en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs
@@ Line 9: / Line 32: @@
 ==== Orphanet ====
+:-?
 info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
 orig. stránka: http://www.orpha.net
 Není to žádný kompaktní balík, to se bude muset prolejzat.
-Navíc nejsou jasné podmínky, HON negotiates ... napíšu jim
+Navíc nejsou jasné podmínky, HON negotiates
+Vyslán dotaz, zda už to někdo nestáhnul
 ==== HON certified web sites ====
+-)
 asi změť všeho možného.
 Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
 egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675
 Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php
+==== JRC ====
+-)
+vseobecna data, ne med
+http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
+podle návodu jsem udělala paralelní korpus ze stažených dat:
+ perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
+pocet anglickych vet:
+egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092
+pocet francouzskych vet:
+egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
+Nevím, proč se ta čísla liší.
+egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
+  *  1228037 type="1:1"
+  *    14162 type="1:2"
+  *     6607 type="2:1"
+  *     1284 type="2:2"
+celkem 1 250 090 linků
+==== LDC ====
+:?:
+Hansard French/English z roku 1995
+LDC Catalog No.:        LDC95T20
+UN Parallel Text (Complete) z roku 1994
+LDC Catalog No.:        LDC94T4A
+Obojí jsou staré government documents

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences