[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/01/26 14:05]
hlavacova
khresmoi:start [2012/02/29 13:57]
hlavacova
Line 12: Line 12:
     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>     * **JD**   = Jan Dědek <dedek (at) ksi.mff.cuni.cz>
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
 +    * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
  
 ---- ----
 +
 +
 ==== Data ==== ==== Data ====
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
  
-^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  EN  ^  FR  ^  DE  ^  Note  ^ +^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE   alignment   EN  ^  FR  ^  DE  ^  Note  ^ 
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  |  |  |  8-) PP  | +[[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent   |  |  |  DONE:tda  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  |  |  |  waiting  | +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent   |  |  |  DONE:cesta  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  140 MiB | |  waiting  | +| EQueR Evaluation Package  | ELRA |  in    |  |  |  140 MiB | |  DONE:equer  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  9000 Kw | |  waiting  | +| CESART Evaluation Package | ELRA |  in    |  |  |  9000 Kw | |  DONE:cesart  | 
-| French Gigaword | LDC |  news  |  |  |  |   863 Kw | |  8-) DVD  | +| French Gigaword | LDC |  news    |  |  |   863 Kw | |  DONE:french-gigaword  | 
-| Acquis | JRC |  law  |  1,25 Ms (?3,034 Ms) (3,128 Ms|  |  |   |  8-) JHla  | +[[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  DONE:jrc :!:  | 
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  26.34 Mw |  14.9Mw |   |  8-) JHla, JB  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  DONE:emea  | 
-| MESH | U.S. National Library of Medicine |  in  |  |  |  838 kw |     |  8-) JHla  | +| MESH | U.S. National Library of Medicine |  in    |  |  838 kw |     |  DONE:mesh*  | 
-| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  | |  negotiating  | +| OrphaNet  | OrphaNet |  in  |  ?    |  |  | |  :-? Wien will do  | 
-| Europarl | WMT12 |  parl  |  1.8Ms/47Mw  |  1.7Ms/43Mw   |  | |  JHla  | +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms   sent   |  | |  DONE:europarl  | 
-| News Commentary  | WMT12 |  news  |  43ks/0.9Mw  |  60ks/1.2Mw   |  | |  JHla  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent   |  | |  DONE:news-commentary  | 
-| News monolingual | WMT12 |  news  |  |  |  181kw |  147kw |  162kw |  JHla  | +| News monolingual | WMT12 |  news    |  |  181kw |  147kw |  162kw |  DONE:wmt-news  | 
-| United Nations | WMT12 |   |    |  |  | |  JHla  | +| United Nations | WMT12 |  un  |  12.3Ms |   |  |  | |  DONE:undoc  | 
-| French-English 109 corpus | WMT12 |  web  |    |  |  | |  JHla  | +| French-English 109 corpus | WMT12 |  web  |  22.5Ms |   sent   |  | |  DONE  | 
-| Medpedia wiki| Medpedia |  in  |    |  ? |  | |  only EN found  | +| Medpedia wiki| Medpedia |  in  |   |  |  |  ? |  | |  only EN found  | 
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in/all   1.6Mf/170Mw     |     |  waiting for DVD JHla   | +[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |   sent    |     |   :?: JHla   | 
-| Springer Bilingual Corpus | much.more |  in  |    | 1.09 Mw |    |    |    8-) JB   |+| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   
 +| [[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo 
 +| [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |      :-?  
 +| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | 
 +| Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | 
 +| OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |   |    8-) JB   |
  
 +== Vysvětlivky ==
 k, M ... thousand, milion  k, M ... thousand, milion 
 w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
 +* viz podrobnější info v podsekcích
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek
 +8-) stažená data, ale nezpracovaná
 +:?: nevíme, jestli chceme
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
 +8-O čekáme na data
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
  
- 161805  3419087 25531801 training-monolingual/news-commentary-v6.de 
-  180657  3798233 23801236 training-monolingual/news-commentary-v6.en 
-  147251  3588247 23741477 training-monolingual/news-commentary-v6.fr 
  
 +[[khresmoi:data_notes|Poznámky k datům]]
  
-JRC Acquis by mel mit pres 3 Ms: 
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
  
 === Zdroje  === === Zdroje  ===
- 
-__MAREC__ 
-A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
-Nevím, kolik slov, není to v jednolitém balíku. 
  
 __Khresmoi wiki__ __Khresmoi wiki__
Line 64: Line 73:
 __korpus OPUS__  __korpus OPUS__ 
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
- 
-__JRC Acquis__ 
-http://langtech.jrc.it/JRC-Acquis.html 
  
 __ELDA__ __ELDA__
Line 92: Line 98:
  
 ---- ----
-==== SVN ==== +==== Úložiště ==== 
-Prosím PP o doplnění+/net/data/khresmoi
 ---- ----

[ Back to the navigation ] [ Back to the content ]