[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:en-fr [2012/01/19 16:07]
hlavacova
khresmoi:en-fr [2012/01/26 16:43]
hlavacova
Line 1: Line 1:
 ===== Paralelní data EN-FR ===== ===== Paralelní data EN-FR =====
-Zatím mám vše uloženo u sebe.  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 11:08//+Zatím mám vše uloženo u sebe.  ---  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 16:08// 
 +== Vysvětlivky ==
 8-) už stažená data 8-) už stažená data
-:?: chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin+:?: nevíme, jestli chceme 
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin 
 +8-O čekáme na data 
 +==== ELDA ==== 
 + 
 +**ELRA-E0020, CESTA Evaluation Package**  
 + 
 +Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words 
 + 
 +Zatim nedodáno (PP) 
 + 
 +==== TDA ==== 
 + 
 +**Pharmaceuticals and Biotechnology** 
 + 
 +en-GB -> fr-FR: 13,033,584 slov 
 +fr-FR -> en-GB  483,610 slov 
 + 
 +Staženo, TMX format, kvalita zatím neověřena (PP)
  
 ==== EMEA ==== ==== EMEA ====
 +8-) 
 Zdroj: http://opus.lingfil.uu.se/EMEA.php Zdroj: http://opus.lingfil.uu.se/EMEA.php
 **en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs **en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs
Line 12: Line 32:
  
 ==== Orphanet ==== ==== Orphanet ====
 +:-?
 info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
 orig. stránka: http://www.orpha.net orig. stránka: http://www.orpha.net
 Není to žádný kompaktní balík, to se bude muset prolejzat. Není to žádný kompaktní balík, to se bude muset prolejzat.
-Navíc nejsou jasné podmínky, HON negotiates ... napíšjim+Navíc nejsou jasné podmínky, HON negotiates  
 +Vyslán dotaz, zda už to někdo nestáhnul
  
 ==== HON certified web sites ==== ==== HON certified web sites ====
 +8-)
 asi změť všeho možného. asi změť všeho možného.
 Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
Line 24: Line 47:
  
 ==== JRC ==== ==== JRC ====
 +8-)
 vseobecna data, ne med vseobecna data, ne med
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
Line 35: Line 59:
 egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095 egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
  
-Nevím, proč se ta čísla liší. 
 egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  → egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
   *  1228037 type="1:1"   *  1228037 type="1:1"
Line 42: Line 65:
   *     1284 type="2:2"   *     1284 type="2:2"
 celkem 1 250 090 linků celkem 1 250 090 linků
 +
 +==== korpus Europarl ====
 +8-)
 +http://www.statmt.org/europarl/
 +wc europarl-v6.fr-en.*
 +  1825077  45682922 273660925 europarl-v6.fr-en.en
 +  1825077  47667366 314658361 europarl-v6.fr-en.fr
 +Stažený nástroj na alignment.
 +
 +
 +
 +==== LDC ====
 +:?:
 +  * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1995, 1996, 1997 members
 +Reduced-License Fee: US $3250.00
 +  * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents
 +To by bylo třeba objednat, ale je to drahé:
 +Member fee: $0 for 1994 members
 +Non-member Fee: US $4000.00
 +Reduced-License Fee: US $2000.00
 +
 +==== MAREC ====
 +8-O
 +Tenhle odkaz z wiki Khresmoi vede na stránky WIPO. Jde o patenty z nejrůznějších oborů.
 +Odpověděli na můj dotaz mailem, objednala jsem korpus COPPA (viz tabulka) - viz http://www.wipo.int/patentscope/en/data/products.html
 +Měl by být paralelní se 170Mw. Z toho je něco in domain - podle kódu, který mám, je možno data identifikovat.
 +Možná se budou hodit i ostatní, ale nevím, z jakých jsou oborů.
 +
 +
  

[ Back to the navigation ] [ Back to the content ]