[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 13:58]
hlavacova
khresmoi:data_notes [2012/02/29 14:36]
hlavacova
Line 4: Line 4:
 http://langtech.jrc.it/JRC-Acquis.html http://langtech.jrc.it/JRC-Acquis.html
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html
 +vseobecna data, ne med
 +podle návodu jsem (leden 2012) udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +ALE
 Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla. Data z **JRC-Aquis** se během posledních několika týdnů změnila, takže nejsou kompatibilní se skriptem, který je k nim dodáván, ten se nezměnil. Měla jsem zálohovaná data z páru fr-en, tak jsem je zpracovala, jsou na svém místě. V adresáři original jsou i ostatní data, tj. pro páry de-en a cs-en, ale nejsou zpracovaná, protože ty jsem v lednu nestáhla.
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.  Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje. 
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem. Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 +
 +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
 +podle návodu jsem udělala paralelní korpus ze stažených dat:
 + perl getAlignmentWithText.pl jrc-en-fr.xml > alignedCorpus_en_fr.xml
 +
 +pocet anglickych vet:
 +egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092
 +
 +pocet francouzskych vet:
 +egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095
 +
 +egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  →
 +  *  1228037 type="1:1"
 +  *    14162 type="1:2"
 +  *     6607 type="2:1"
 +  *     1284 type="2:2"
 +celkem 1 250 090 linků
 +
 +===== ELDA =====
 +  * **ELRA-E0020, CESTA Evaluation Package** 
 +Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
 +
 +  * **ELRA-E0022: EQueR Evaluation Package**
 +Subpart: 140 Mb of data from the medical domain
 +
 +  * **ELRA-E0019: CESART Evaluation Package** 
 +Subpart (medical corpus): 9,000,000 words
  
 ===== Coppa ===== ===== Coppa =====
Line 16: Line 47:
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované. Zatím jsem udělala jen ty nesegmentované.
 +
 +===== French Gigaword =====
 +3rd edition, catalogue number LDC2011T10, máme DVD
 +Formát: SGML, segmentace na věty, netokenizováno
 +862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
 +Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
 +
 +===== MESH =====
 +Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
 +
 +Z možných formátů jsem stáhla jen ASCII zaznamy.
 + **d2012.bin**  ... Dulezite jsou jen polozky 
 +  * MH = nazev leku - celkem 26581 položek
 +  * MS = slovni popis - celkem  25554  ... nějaké asi chybí
 +**q2012.bin** ... Dulezite jsou jen polozky
 +  * SH = nazev, ale nevim moc, ceho - celkem 83
 +  * MS = slovni popis - celkem 83
 +  * 
 +Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
 +**c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit
 +  * NM = nazev leku
 +  * NO = popis
 +
 +Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
 +podmnozinou tech z roku 2012 - namatkove overeno na 
 +MH = Autistic Disorder
  
 ===== MAREC ===== ===== MAREC =====
Line 28: Line 85:
 en-GB → fr-FR: 13,033,584 slov en-GB → fr-FR: 13,033,584 slov
 fr-FR → en-GB 483,610 slov fr-FR → en-GB 483,610 slov
 +en-GB → de-DE: 412,406
 +de-DE → en-GB: 6,385,051 
  
 Staženo, TMX format, kvalita zatím neověřena (PP)  Staženo, TMX format, kvalita zatím neověřena (PP) 
 Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data.  Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FR, EN-DE in-domain data. 
 +
 +===== EMEA =====
 +8-) 
 +Zdroj: http://opus.lingfil.uu.se/EMEA.php
 +**en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs
 +**en-fr.xml.gz** ... sentence alignments in XCES format
 +**en-fr.txt.zip** ... jen angl. texty o lécich - vypadá to jako příbalové letáky 1 092 568 sentences, 26,34M words, download plain text files (MOSES/GIZA++)
 +Adresář **fr** obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované. 1987 files, 14.9M tokens, 1.2M sentences
 +
 +===== Orphanet =====
 +:-?
 +info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet
 +orig. stránka: http://www.orpha.net
 +Není to žádný kompaktní balík, to se bude muset prolejzat.
 +Navíc nejsou jasné podmínky, HON negotiates 
 +Vyslán dotaz, zda už to někdo nestáhnul
 +
 +===== Europarl =====
 +8-)
 +http://www.statmt.org/europarl/
 +wc europarl-v6.fr-en.*
 +  1825077  45682922 273660925 europarl-v6.fr-en.en
 +  1825077  47667366 314658361 europarl-v6.fr-en.fr
 +Stažený nástroj na alignment.
 +
 +===== much.more =====
 +8-)
 +Alignované abstrakty medicínských článů, staženo, >1 Mw
 +Volitelně anotace:
 +Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
 +
 +
 +===== HON certified web sites =====
 +8-)
 +asi změť všeho možného.
 +Počet stránek, ale ruznorodych, takze na stahovani ne příliš šikovné
 +egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675   
 +Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php
  

[ Back to the navigation ] [ Back to the content ]