[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 14:18]
hlavacova
khresmoi:data_notes [2012/02/29 14:31]
hlavacova
Line 30: Line 30:
 celkem 1 250 090 linků celkem 1 250 090 linků
  
 +===== ELDA =====
 +  * **ELRA-E0020, CESTA Evaluation Package** 
 +Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
  
 +  * **ELRA-E0022: EQueR Evaluation Package**
 +Subpart: 140 Mb of data from the medical domain
 +
 +  * **ELRA-E0019: CESART Evaluation Package** 
 +Subpart (medical corpus): 9,000,000 words
  
 ===== Coppa ===== ===== Coppa =====
Line 40: Line 48:
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované. Zatím jsem udělala jen ty nesegmentované.
 +
 +===== French Gigaword =====
 +3rd edition, catalogue number LDC2011T10, máme DVD
 +Formát: SGML, segmentace na věty, netokenizováno
 +862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
 +Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
  
 ===== MAREC ===== ===== MAREC =====
Line 52: Line 66:
 en-GB → fr-FR: 13,033,584 slov en-GB → fr-FR: 13,033,584 slov
 fr-FR → en-GB 483,610 slov fr-FR → en-GB 483,610 slov
 +en-GB → de-DE: 412,406
 +de-DE → en-GB: 6,385,051 
  
 Staženo, TMX format, kvalita zatím neověřena (PP)  Staženo, TMX format, kvalita zatím neověřena (PP) 
Line 72: Line 88:
 Vyslán dotaz, zda už to někdo nestáhnul Vyslán dotaz, zda už to někdo nestáhnul
  
-===== korpus Europarl =====+===== Europarl =====
 8-) 8-)
 http://www.statmt.org/europarl/ http://www.statmt.org/europarl/
Line 79: Line 95:
   1825077  47667366 314658361 europarl-v6.fr-en.fr   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment. Stažený nástroj na alignment.
 +
 +===== much.more =====
 +8-)
 +Alignované abstrakty medicínských článů, staženo, >1 Mw
 +Volitelně anotace:
 +Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
 +
  
 ===== HON certified web sites ===== ===== HON certified web sites =====

[ Back to the navigation ] [ Back to the content ]