[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
khresmoi:data_notes [2012/02/29 10:00]
hlavacova
khresmoi:data_notes [2012/03/02 13:50]
hlavacova
Line 2: Line 2:
  
 ===== JRC-Aquis ===== ===== JRC-Aquis =====
-http://langtech.jrc.it/JRC-Acquis.html +http://langtech.jrc.it/JRC-Acquis.html  ... mono data 
-http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html +http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignmentsHunAlign/index.html  ... HunAlign alignment 
-Data z **JRC-Aquis** se během posledních několika týdnů změnilatakže nejsou kompatibilní se skriptemkterý je k nim dodávánten se nezměnilMěla jsem zálohovaná data z páru fr-entak jsem je zpracovalajsou na svém místě. V adresáři original jsou i ostatní datatjpro páry de-en a cs-en, ale nejsou zpracovanáprotože ty jsem lednu nestáhla+http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html  ... Vanilla alignment 
-Zpracování fr-en jsem provedla "ručně"ne pomocí skriptu processing.shTen je ipravenale jak jsem napsalana současných datech nefunguje.  + 
-Z porovnání obou paralelních fr-en dat usuzuji, žna ně byl použit jiný alignerV tom ale problém asi nebudespíš je formát dat nekompatibililní se skriptem.+právnická data, ne med 
 +Skript na vytvoření paralelních dat: getAlignmentWithText.pl 
 +POZOR! v návodu READ.ME se jmenuje jinak. 
 +Funguje jen s Vanilla 
 +Kdyby se to chtělo udělat s HunAlign stránky, je třeba vstupní data zpracovat takto (cituji z mailu od Ralfa Steinbergera (29.02.2012 14:40:37): 
 + 
 +> There is a small bug in the hunAlign version of the corpus which prevents 
 +> the 
 +> getAlignmentWithText.pl scipt from working: all document identifiers (using 
 +> the 
 +> English-Polish alignemnt as an example) have the string "format/en.pl/jrc" 
 +> prepended (or infixed) to the actual document ID. 
 +>  
 +> This applies to the following attributes: 
 +>  
 +> - //text/body/div[@n] (eg. "format/en.pl/jrc21970A0720(01)" insted of 
 +> "21970A0720(01)"
 +> - //linkGrp[@n] (as above) 
 +> - //linkGrp[@id] (eg. "jrcformat/en.pl/jrc21970A0720_01-en-pl" instead of 
 +> "jrc21970A0720_01-en-pl"
 +> - //linkGrp[@xtargets] (as above) 
 +>  
 +> Preprocessing the alignment files with 
 +>  
 +> sed -i 's:format/en.pl/jrc::g' jrc-en-pl.xml 
 +>  
 +> is enough to get the script working, but perhaps this information could be 
 +> added to the documentation, the Perl script modified for the hunAlign 
 +> version 
 +> or the alignemnt files modified on the server to save others the confusion 
 +> and 
 +> unnecessary work. 
 +>  
 +> With kind regards, 
 +> Łukasz Dróżdż 
 +> University of Łódź 
 + 
 + 
 +pocet anglickych vet: 
 +egrep "\<s1\>" alignedCorpus_en_fr.xml |wc  → 1250092 
 + 
 +pocet francouzskych vet: 
 +egrep "\<s2\>" alignedCorpus_en_fr.xml | wc → 1250095 
 + 
 +egrep "\<link type=" alignedCorpus_en_fr.xml | cut -d" " -f2|sort|uniq -c  → 
 +  *  1228037 type="1:1" 
 +  *    14162 type="1:2" 
 +  *     6607 type="2:1" 
 +  *     1284 type="2:2" 
 +celkem 1 250 090 linků 
 + 
 +===== ELDA ===== 
 +  * **ELRA-E0020CESTA Evaluation Package**  
 +Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words 
 + 
 +  * **ELRA-E0022: EQueR Evaluation Package** 
 +Subpart: 140 Mb of data from the medical domain 
 + 
 +  * **ELRA-E0019: CESART Evaluation Package**  
 +Subpart (medical corpus): 9,000,000 words 
 + 
 +===== Coppa ===== 
 +Corpus Of Parallel Patent Applications 
 +Dostali jsme na DVD na vyžádání. 
 +IPC: A61C12NC12P ... medical patents (doporučeno od WIPO) 
 +Patenty členěny podle roku, ve dvou verzích: 
 +  * segmentované podle vět, ale menší - viz tabulkaNěkteré patenty chybí zcela, některé jsou zkráceny. 
 +  * nesegmentované každý patent má 2 záznamy: jméno a abstractobojí v EN i FRtedy alignment podle paragrafu (odhad) 
 +Zpracované obojí, viz read.me u dat.  
 +**POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž** 
 + 
 +===== French Gigaword ===== 
 +3rd edition, catalogue number LDC2011T10, máme DVD 
 +Formát: SGML, segmentace na věty, netokenizováno 
 +862 851 slov, tjsimply the number of white space-separated tokens (of all types) after all SGML tags are eliminated 
 +Všeobecné novinové texty, ne lékařské - Agence France-PresseAssociated Press French Service. 
 + 
 +===== MESH ===== 
 +**EN** 
 +Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html 
 + 
 +Z možných formátů jsem stáhla jen ASCII zaznamy. 
 + **d2012.bin**  ... Dulezite jsou jen polozky  
 +  * MH = nazev leku celkem 26581 položek 
 +  * MS = slovni popis celkem  25554  ... nějaké asi chybí 
 +**q2012.bin** ... Dulezite jsou jen polozky 
 +  * SH = nazev, ale nevim mocceho - celkem 83 
 +  * MS = slovni popis - celkem 83 
 +  *  
 +Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta. 
 +**c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit 
 +  * NM = nazev leku 
 +  * NO = popis 
 + 
 +Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt 
 +podmnozinou tech z roku 2012 - namatkove overeno na  
 +MH = Autistic Disorder 
 + 
 +**FR** 
 +Francouzi mají překlad, je možno o něj zažádat z téhle adresy: 
 +http://mesh.inserm.fr/mesh/get_file.htm 
 + 
 +===== MAREC ===== 
 +A61 (MEDICAL OR VETERINARY SCIENCE; HYGIENE): 1.589,849 files  
 +Nevím, kolik slov, není to jednolitém balíku
 +Na žádost o přístup odpověděli: 
 +//the IRF is not granting access to the MAREC collection anymore. However, the access for research purposes should be possible in a foreseeable future via the Vienna University of Technology - Allan will certainly come back to you when the legal status is cleared.// 
 + 
 +===== TDA ===== 
 +Pharmaceuticals and Biotechnology 
 + 
 +en-GB → fr-FR: 13,033,584 slov 
 +fr-FR → en-GB 483,610 slov 
 +en-GB → de-DE: 412,406 
 +de-DE → en-GB: 6,385,051  
 + 
 +Staženo, TMX format, kvalita zatím neověřena (PP)  
 +Máme kredit na stažení 1 mld. slov. Zatím stažena EN-FREN-DE in-domain data 
 + 
 +===== EMEA ===== 
 +8-)  
 +Zdroj: http://opus.lingfil.uu.se/EMEA.php 
 +**en-fr.tmx.gz** ... alignovana data - download translation memory files (TMX), 373 152 sentence pairs 
 +**en-fr.xml.gz** ... sentence alignments in XCES format 
 +**en-fr.txt.zip** ... jen angl. texty o lécich - vypadá to jako íbalové letáky 1 092 568 sentences26,34M words, download plain text files (MOSES/GIZA++) 
 +Adresář **fr** obsahuje francouzské texty, snad paralelní k en-fr.txt.zip (ověřím), v nějakém XML, morfologicky označkované1987 files, 14.9M tokens, 1.2M sentences 
 + 
 +===== Orphanet ===== 
 +:-? 
 +info na Kh wiki: http://wiki.khresmoi.eu/index.php5/Data_sets/Orphanet 
 +orig. stránka: http://www.orpha.net 
 +Není to žádný kompaktní balík, to se bude muset prolejzat. 
 +Navíc nejsou jasné podmínky, HON negotiates  
 +Vyslán dotaz, zda už to někdo nestáhnul 
 + 
 +===== Europarl ===== 
 +8-) 
 +http://www.statmt.org/europarl/ 
 +wc europarl-v6.fr-en.* 
 +  1825077  45682922 273660925 europarl-v6.fr-en.en 
 +  1825077  47667366 314658361 europarl-v6.fr-en.fr 
 +Stažený nástroj na alignment. 
 + 
 +===== much.more ===== 
 +8-) 
 +Alignované abstrakty medicínských článů, staženo, >1 Mw 
 +Volitelně anotace: 
 +Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS. 
 + 
 +===== LDC ===== 
 +Uvádím data nalezená v katalogu LDC, která by se případně taky dala použít, ale jsou dost drahá. 
 +  * **Hansard French/English** ... LDC Catalog No.: LDC95T20, government documents 
 +To by bylo třeba objednat, ale je to drahé: 
 +Member fee: $0 for 1995, 1996, 1997 members 
 +Reduced-License Fee: US $3250.00 
 +  * **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP, government documents 
 +To by bylo třeba objednat, ale je to drahé: 
 +Member fee: $0 for 1994 members 
 +Non-member Fee: US $4000.00 
 +Reduced-License Fee: US $2000.00 
 + 
 +===== HON certified web sites ===== 
 +8-) 
 +asi změť všeho možného. 
 +Počet stránekale ruznorodych, takze na stahovani ne příliš šikovné 
 +egrep "\.fr" HON_Certified_Web_Sites_1.1.xml | wc → 2675    
 +Asi tam jsou i různé úrovně "podstránek", např. www.grio.org/ a www.grio.org/liens.php 

[ Back to the navigation ] [ Back to the content ]