[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
khresmoi:start [2012/02/27 17:27]
hlavacova
khresmoi:start [2013/04/23 23:40] (current)
ufal +rosa
Line 2: Line 2:
 Medical Information Analysis & Retrieval Medical Information Analysis & Retrieval
 http://www.khresmoi.eu/ http://www.khresmoi.eu/
- 
  
  
Line 13: Line 12:
     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>     * **JB**   = Jakub Bystroň <jb.elitecode (at) gmail.com>
     * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>     * **ZU**   = Zdeňka Urešová <uresova (at) ufal.mff.cuni.cz>
 +    * **RR**   = Rudolf Rosa <rosa (at) ufal.mff.cuni.cz>
  
 ---- ----
-==== Poznámky k datům ==== 
-Píšu to rovnou sem nahoru, aby to bylo na ráně.  --- //[[hlavacova@ufal.mff.cuni.cz|hlavacova]] 2012/02/27 17:21// 
-Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. 
-Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  
-Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. Lepší? 
- 
  
  
 ==== Data ==== ==== Data ====
 +Jsou zde **/net/data/khresmoi**
  
 === MT training data available for KHRESMOI === === MT training data available for KHRESMOI ===
 +Kliknutím na korpus (první sloupec) se dostanete do sekce [[khresmoi:data_notes|Poznámky k datům]], případně na stránku, odkud jsou data stažená. 
 +----
 ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^ ^ Corpus ^ Source ^ Domain ^  EN-FR  ^  EN-DE  ^  alignment  ^  EN  ^  FR  ^  DE  ^  Note  ^
-| TDA translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE  | +[[khresmoi:data_notes#TDA|TDA]] translation memory  | TDA |  in  |  13517 Kw |  6797 Kw |  sent  |  |  |  |  DONE:tda  | 
-| CESTA Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE  | +| [[khresmoi:data_notes#ELDA|CESTA]] Evaluation Package  | ELRA |  in  |  38 Kw |  |  sent  |  |  |  |  DONE:cesta  | 
-| EQueR Evaluation Package  | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE  | +| [[khresmoi:data_notes#ELDA|EQueR ]]Evaluation Package | ELRA |  in  |  |  |  |  |  140 MiB | |  DONE:equer  | 
-| CESART Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE  | +| [[khresmoi:data_notes#ELDA|CESART]] Evaluation Package | ELRA |  in  |  |  |  |  |  9000 Kw | |  DONE:cesart  | 
-| French Gigaword | LDC |  news  |  |  |  |  |   863 Kw | |  8-) DVD  | +| [[khresmoi:data_notes#French Gigaword|French Gigaword]] | LDC |  news  |  |  |  |  |   863 Kw | |  DONE:gigaword  | 
-| Acquis | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  8-) JHla (jen FR) +| [[khresmoi:data_notes#JRC-Acquis|Acquis]] | JRC |  law  |  1,25 Ms |  1,33 Ms |  sent  |  |  |   |  DONE:jrc  
-| EMEA | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE - i CS  | +| [[khresmoi:data_notes#EMEA|EMEA]] | European Medicines Agency |  in  |  373 Ks |  12 Mw |  |  26.34 Mw |  14.9Mw |    DONE:emea  | 
-| MESH | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE*  | +| [[khresmoi:data_notes#MESH|MESH]] | U.S. National Library of Medicine |  in  |  |  |  |  838 kw |      DONE:mesh*  | 
-| OrphaNet  | OrphaNet |  in  |  ?  |  |  |  |  | |  Wien will do  | +| [[khresmoi:data_notes#Orphanet|OrphaNet]]  | OrphaNet |  in  |  ?  |  |  |  |  | |  :-? Wien will do  | 
-| Europarl | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE  | +[[khresmoi:data_notes#Europarl|Europarl]] | WMT12 |  parl  |  1.8Ms |  1.7Ms  |  sent  |  |  | |  DONE:europarl  | 
-| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE  | +| News Commentary  | WMT12 |  news  |  43ks |  60ks |  sent  |  |  | |  DONE:news-com  | 
-| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE  | +| News monolingual | WMT12 |  news  |  |  |  |  181kw |  147kw |  162kw |  DONE:wmt-news  | 
-| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE  | +| United Nations | WMT12 |  un  |  12.3Ms |  |  |  |  | |  DONE:undoc  | 
-| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE  |+| French-English 109 corpus | WMT12 |  web  |  22.5Ms |  |  sent  |  |  | |  DONE:giga  |
 | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  | | Medpedia wiki| Medpedia |  in  |    |  |  ? |  | |  only EN found  |
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |         8-) JHla   +[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  24,8Mw = 1,2Ms |  |  sent  |        DONE:wipo  
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  in  |  33,5Mw |  |  par  |         8-) JHla   +[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  in  |  33,5Mw |  |  par  |        DONE:wipo  
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |         8-) JHla   | +[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  153,8Mw = 7,5Ms |  |  sent  |        DONE:wipo   | 
-Corpus Of Parallel Patent Applications (Coppa)| WIPO |  tech  |  178,8Mw |  |  par  |         8-) JHla   +[[khresmoi:data_notes#Coppa|Coppa]] (patenty)| WIPO |  tech  |  178,8Mw |  |  par  |        DONE:wipo  
-| MAREC | Wien TU |  in  |  ? |  ? |  ?  |  |     |  viz níže   +| [[khresmoi:data_notes#MAREC|MAREC]] | Wien TU |  in  |  ? |  ? |  ?  |  |     |  :-?  
-| Springer Bilingual Corpus | much.more |  in  |    |  1.09 Mw |  sent   |     |  8-) JB   |+| [[khresmoi:data_notes#much.more|Springer Bilingual Corpus]] | much.more |  in  |    |  800kw |  par  1.1Mw |    1.0Mw |  DONE:muchmore   |
 | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   | | Europarl3 | OPUS |    |    |  1.3 Ms |  sent  |  |      neni poreba   |
 | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   | | OpenSubtitles2011 | OPUS |    |    |  5 Ms |  sent  |  |      8-) JB   |
 +| Czeng | UFAL |    |    |    sent  |  |      JB   |
 +| Drugbank | drugbank.ca |  in  |    |  |    624kw |      DONE:drugbank   |
 +| [[http://sig.biostr.washington.edu/projects/fma/release/v3.2.1/alt_formats.html|FMA]] | Foundational Model of Anatomy ontology |  in  |    |  |    855,5kw |      DONE:fma   |
 +| PIL | The Patient Information Leaflet Corpus |  in  |    |  |    0,5Mw |      DONE:pil   |
 +| [[www.nactem.ac.uk/download.php?target=GREC/GREC_Standoff.zip|GREC]] | Gene Regulation Event Corpus |  in  |    |  |    52kw |      DONE:grec   |
 +| [[www.nactem.ac.uk/GENIA/current/GENIA-corpus/Part-of-speech/GENIAcorpus3.02p.tgz|GENIA]] | GENIA |  in  |    |  |    490kw |      DONE:genia   |
 +| [[https://download.ir-facility.org/khresmoi/coch.zip|Cochrane]] | Cochrane |  in  |    |  |    53.6Mw |      DONE:cochrane  |
 +| [[khresmoi:data_notes#un|un]]| Euromatrix |  gen  |  |  |  sent  |  517.4Mw |  386.3Mw |  5.9Mw |  DONE:un  |
 +| [[http://universitypublisher.meduniwien.ac.at/radio2wiki/index.php/Main_Page|Radio2wiki]] | Radio2wiki |  in  |    |  |    |    74kw |  DONE:radio2wiki   |
  
  
 +
 +
 +== Vysvětlivky ==
 k, M ... thousand, milion  k, M ... thousand, milion 
 w, s, f ... words, sentences, files (for parallel data only source (English) words are counted) w, s, f ... words, sentences, files (for parallel data only source (English) words are counted)
 * viz podrobnější info v podsekcích * viz podrobnější info v podsekcích
 +Sloupec Note obsahuje název podadresáře /net/data/khresmoi, kde je uložen výsledek
 +8-) stažená data, ale nezpracovaná
 +:?: nevíme, jestli chceme
 +:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
 +8-O čekáme na data
 +:!: nějaký problém, podrobněji v poznámkách - prokliknout z prvního sloupce
  
-=== Zdroje  === 
-__JRC Acquis__  
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html 
- 
-__MAREC__ 
-A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
-Nevím, kolik slov, není to v jednolitém balíku. 
-Na žádost o přístup odpověděli: 
-//the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.// 
- 
- 
-__Coppa__ 
-IPC: A61, C12N, C12P ... medical patents (doporučeno od WIPO) 
-Patenty členěny podle roku, ve dvou verzích: 
-  * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. 
-  * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) 
  
 +=== Další odkazy  ===
 __Khresmoi wiki__ __Khresmoi wiki__
 http://wiki.khresmoi.eu/index.php5/Data_sets_used http://wiki.khresmoi.eu/index.php5/Data_sets_used
Line 85: Line 84:
 http://opus.lingfil.uu.se/ http://opus.lingfil.uu.se/
  
-__JRC Acquis__ +==== Dokumenty ====
-http://langtech.jrc.it/JRC-Acquis.html +
- +
-__ELDA__ +
- +
-Objednali jsme několik balíčků s in-domain daty (EN-FR, FR)  +
- +
-__TDA__ +
- +
-Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. +
- +
-__LDC__ +
- +
-=== Paralelní data ===  +
- [[EN-FR]] +
- [[EN-DE]] +
- +
-=== Mono data === +
-[[FR]] +
-[[DE]] +
-[[EN]]+
  
 ---- ----
  
-==== Dokumenty ==== 
- 
----- 
-==== Úložiště ==== 
-/net/data/khresmoi 
----- 

[ Back to the navigation ] [ Back to the content ]