[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 13:49]
hlavacova
khresmoi:data_notes [2012/02/29 14:01]
hlavacova
Line 16: Line 16:
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované. Zatím jsem udělala jen ty nesegmentované.
- 
  
 ===== MAREC ===== ===== MAREC =====
Line 24: Line 23:
 //the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.// //the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.//
  
 +===== TDA =====
 +Pharmaceuticals and Biotechnology
 +
 +en-GB → fr-FR: 13,033,584 slov
 +fr-FR → en-GB 483,610 slov
 +
 +Staženo, TMX format, kvalita zatím neověřena (PP) 
 +Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. 
 +
 +===== EMEA =====
 +8-) 
 +Zdroj: http://opus.lingfil.uu.se/EMEA.php
 +**en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs
 +**en-fr.xml.gz** ... sentence alignments in XCES format
 +**en-fr.txt.zip** ... jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
 +Adresář **fr** obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
 +
 +===== Orphanet =====
 +:-?
 +info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
 +orig. stránka: http://www.orpha.net
 +Není to žádný kompaktní balík, to se bude muset prolejzat.
 +Navíc nejsou jasné podmínky, HON negotiates 
 +Vyslán dotaz, zda už to někdo nestáhnul
 +
 +===== korpus Europarl =====
 +8-)
 +http://www.statmt.org/europarl/
 +wc europarl-v6.fr-en.*
 +  1825077  45682922 273660925 europarl-v6.fr-en.en
 +  1825077  47667366 314658361 europarl-v6.fr-en.fr
 +Stažený nástroj na alignment.
 +
 +===== HON certified web sites =====
 +8-)
 +asi změť všeho možného.
 +Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
 +egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675   
 +Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php
  

[ Back to the navigation ] [ Back to the content ]