[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:en-fr [2012/01/19 16:00]
hlavacova
khresmoi:en-fr [2012/01/19 16:24]
hlavacova
Line 1: Line 1:
 ===== Paralelní data EN-FR ===== ===== Paralelní data EN-FR =====
-Zatím mám vše uloženo u sebe.  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 11:08// +Zatím mám vše uloženo u sebe.  ---  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/01/19 16:08// 
-==== EMEA ====+== Vysvětlivky == 
 +8-) už stažená data 
 +:?: nevíme, jestli chceme 
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin 
 + 
 +UN Parallel Text (Complete) 
 + 
 +  
 +Item Name: UN Parallel Text (Complete) 
 +Authors: David Graff 
 +LDC Catalog No.: LDC94T4A 
 + 
 +==== 8-) EMEA ==== 
 Zdroj: http://opus.lingfil.uu.se/EMEA.php Zdroj: http://opus.lingfil.uu.se/EMEA.php
 **en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs **en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs
Line 9: Line 22:
  
 ==== Orphanet ==== ==== Orphanet ====
 +:-?
 info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
 orig. stránka: http://www.orpha.net orig. stránka: http://www.orpha.net
 Není to žádný kompaktní balík, to se bude muset prolejzat. Není to žádný kompaktní balík, to se bude muset prolejzat.
-Navíc nejsou jasné podmínky, HON negotiates ... napíšjim+Navíc nejsou jasné podmínky, HON negotiates  
 +Vyslán dotaz, zda už to někdo nestáhnul
  
 ==== HON certified web sites ==== ==== HON certified web sites ====
 +8-)
 asi změť všeho možného. asi změť všeho možného.
 Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
Line 21: Line 37:
  
 ==== JRC ==== ==== JRC ====
 +8-)
 vseobecna data, ne med vseobecna data, ne med
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
Line 34: Line 51:
 Nevím, proč se ta čísla liší. Nevím, proč se ta čísla liší.
 egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  → egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
- 1228037 type="1:1" +  *  1228037 type="1:1" 
-   14162 type="1:2" +     14162 type="1:2" 
-    6607 type="2:1" +      6607 type="2:1" 
-    1284 type="2:2"+      1284 type="2:2"
 celkem 1 250 090 linků celkem 1 250 090 linků
  
 +==== LDC ====
 +:?:
 +Hansard French/English z roku 1995
 +LDC Catalog No.:        LDC95T20
 +
 +UN Parallel Text (Complete) z roku 1994
 +LDC Catalog No.:        LDC94T4A
 +
 +Obojí jsou staré government documents

[ Back to the navigation ] [ Back to the content ]