[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:en-fr [2012/01/19 16:09]
hlavacova
khresmoi:en-fr [2012/02/29 14:20]
hlavacova
Line 1: Line 1:
 ===== Paralelní data EN-FR ===== ===== Paralelní data EN-FR =====
-Zatím mám vše uloženo u sebe.  ---  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 16:08// 
-== Vysvětlivky == 
-8-) už stažená data 
-:?: chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin 
  
-==== EMEA ==== +==== LDC ====
-8-) +
-Zdroj: http://opus.lingfil.uu.se/EMEA.php +
-**en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs +
-**en-fr.xml.gz** ... sentence alignments in XCES format +
-**en-fr.txt.zip** ... jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++) +
-Adresář **fr** obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences +
- +
-==== Orphanet ====+
 :?: :?:
-info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet +  * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents 
-origstránkahttp://www.orpha.net +To by bylo třeba objednatale je to drahé: 
-Není to žádný kompaktní balík, to se bude muset prolejzat. +Member fee: $0 for 199519961997 members 
-Navíc nejsou jasné podmínkyHON negotiates  +Reduced-License Fee: US $3250.00 
-Vyslán dotazzda už to někdo nestáhnul +  * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents 
- +To by bylo třeba objednat, ale je to drahé: 
-==== HON certified web sites ==== +Member fee: $0 for 1994 members 
-8-) +Non-member Fee: US $4000.00 
-asi změť všeho možného+Reduced-License Fee: US $2000.00
-Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné +
-egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675    +
-Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php+
  
-==== JRC ==== 
-8-) 
-vseobecna data, ne med 
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html 
-podle návodu jsem udělala paralelní korpus ze stažených dat: 
- perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml 
  
-pocet anglickych vet: 
-egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092 
  
-pocet francouzskych vet: 
-egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095 
  
-Nevím, proč se ta čísla liší. 
-egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  → 
-  *  1228037 type="1:1" 
-  *    14162 type="1:2" 
-  *     6607 type="2:1" 
-  *     1284 type="2:2" 
-celkem 1 250 090 linků 
  

[ Back to the navigation ] [ Back to the content ]