Differences

This shows you the differences between two versions of the page.

--- khresmoi:data_notes [2012/02/29 14:18]
hlavacova
+++ khresmoi:data_notes [2012/02/29 14:34]
hlavacova
@@ Line 11: / Line 11: @@
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
@@ Line 30: / Line 29: @@
 celkem 1 250 090 linků
+===== ELDA =====
+  * **ELRA-E0020, CESTA Evaluation Package**
+Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
+  * **ELRA-E0022: EQueR Evaluation Package**
+Subpart: 140 Mb of data from the medical domain
+  * **ELRA-E0019: CESART Evaluation Package**
+Subpart (medical corpus): 9,000,000 words
 ===== Coppa =====
@@ Line 40: / Line 47: @@
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované.
+===== French Gigaword =====
+rd edition, catalogue number LDC2011T10, máme DVD
+Formát: SGML, segmentace na věty, netokenizováno
+851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
+Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
+===== MESH =====
+Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
+Z možných formátů jsem stáhla jen ASCII zaznamy.
+ **d2012.bin**  ... Dulezite jsou jen polozky
+  * MH = nazev leku - celkem 26581 položek
+  * MS = slovni popis - celkem  25554  ... nějaké asi chybí
+**q2012.bin** ... Dulezite jsou jen polozky
+  * SH = nazev, ale nevim moc, ceho - celkem 83
+  * MS = slovni popis - celkem 83
+Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
+**c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit
+  * NM = nazev leku
+  * NO = popis
+Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
+podmnozinou tech z roku 2012 - namatkove overeno na
+MH = Autistic Disorder
 ===== MAREC =====
@@ Line 52: / Line 87: @@
 en-GB → fr-FR: 13,033,584 slov
 fr-FR → en-GB 483,610 slov
+en-GB → de-DE: 412,406
+de-DE → en-GB: 6,385,051
 Staženo, TMX format, kvalita zatím neověřena (PP)
@@ Line 72: / Line 109: @@
 Vyslán dotaz, zda už to někdo nestáhnul
-===== korpus Europarl =====
+===== Europarl =====
 -)
 http://www.statmt.org/europarl/
@@ Line 79: / Line 116: @@
   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment.
+===== much.more =====
+-)
+Alignované abstrakty medicínských článů, staženo, >1 Mw
+Volitelně anotace:
+Automatic (!) annotation includes: Part-of-Speech; Morphology (inflection and decomposition); Chunks; Semantic Classes (UMLS: Unified Medical Language System, MeSH: Medical Subject Headings, EuroWordNet); Semantic Relations from UMLS.
 ===== HON certified web sites =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences