[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:start [2012/02/28 15:00]
hlavacova
khresmoi:start [2012/02/29 13:38]
hlavacova
Line 15: Line 15:
  
 ---- ----
-==== Poznámky k datům ==== 
-Píšu to rovnou sem nahoru, aby to bylo na ráně.  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/02/27 17:21// 
-Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. 
-Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  
-Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. Lepší? 
- 
  
  
Line 28: Line 22:
  
 ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE  | +| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  tda  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE  | +| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  cesta  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE  | +| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  equer  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE  | +| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  cesart  | 
-| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  8-) DVD  | +| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  french-gigaword  | 
-| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  Part DONE (jen FR), see ↑ +| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  jrc :!:  
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  DONE - i CS  | +| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |   |  emea  | 
-| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |     |  DONE*  |+| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |     |  mesh*  |
 | OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  | | OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  |
-| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE  | +| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  europarl  | 
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  news-commentary  | 
-| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE  | +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  wmt-news  | 
-| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE  |+| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  undoc  |
 | French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  | | French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  |
 | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  |
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         8-) JHla   | +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         :?: JHla   | 
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         DONE   +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |        wipo  
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         8-) JHla   | +| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         :?: JHla   | 
-| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |         DONE   |+| Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |        wipo  |
 | MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |      viz níže   | | MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |      viz níže   |
 | Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   | | Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent  |  |      8-) JB   |
Line 52: Line 46:
 | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
  
 +== Vysvětlivky ==
 k, M ... thousand, milion  k, M ... thousand, milion 
 w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
 * viz podrobnější info v podsekcích * viz podrobnější info v podsekcích
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek
 +8-) stažená data, ale nezpracovaná
 +:?: nevíme, jestli chceme
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
 +8-O čekáme na data
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
 +
 +
 +[[khresmoi:data_notes|Poznámky k datům]]
 +
  
 === Zdroje  === === Zdroje  ===
-__JRC Acquis__  
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
  
 __MAREC__ __MAREC__
Line 84: Line 86:
 __korpus OPUS__  __korpus OPUS__ 
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
- 
-__JRC Acquis__ 
-http://langtech.jrc.it/JRC-Acquis.html 
  
 __ELDA__ __ELDA__

[ Back to the navigation ] [ Back to the content ]