Differences

This shows you the differences between two versions of the page.

--- khresmoi:data_notes [2012/02/29 14:25]
hlavacova
+++ khresmoi:data_notes [2012/02/29 14:36]
hlavacova
@@ Line 11: / Line 11: @@
 Zpracování fr-en jsem provedla "ručně", ne pomocí skriptu processing.sh. Ten je připraven, ale jak jsem napsala, na současných datech nefunguje.
 Z porovnání obou paralelních fr-en dat usuzuji, že na ně byl použit jiný aligner. V tom ale problém asi nebude, spíš je formát dat nekompatibililní se skriptem.
 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/alignments/index.html
@@ Line 31: / Line 30: @@
 ===== ELDA =====
-**ELRA-E0020, CESTA Evaluation Package**
+  * **ELRA-E0020, CESTA Evaluation Package**
 Subpart: English-French parallel corpus from the second campagne data. Includes an adaptation corpus of 19,383 English words and 22,741 French words + a test corpus of 18,880 English words and 23,411 French words
+  * **ELRA-E0022: EQueR Evaluation Package**
+Subpart: 140 Mb of data from the medical domain
+  * **ELRA-E0019: CESART Evaluation Package**
+Subpart (medical corpus): 9,000,000 words
 ===== Coppa =====
@@ Line 44: / Line 47: @@
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované.
+===== French Gigaword =====
+rd edition, catalogue number LDC2011T10, máme DVD
+Formát: SGML, segmentace na věty, netokenizováno
+851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
+Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
+===== MESH =====
+Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
+Z možných formátů jsem stáhla jen ASCII zaznamy.
+ **d2012.bin**  ... Dulezite jsou jen polozky
+  * MH = nazev leku - celkem 26581 položek
+  * MS = slovni popis - celkem  25554  ... nějaké asi chybí
+**q2012.bin** ... Dulezite jsou jen polozky
+  * SH = nazev, ale nevim moc, ceho - celkem 83
+  * MS = slovni popis - celkem 83
+  *
+Slovní popis je krátký odstavec, jehož první věta většinou neobsahuje sloveso! Takže to vlastně ani není věta.
+**c2012.bin** ... tohle je ale vlastne jen chemicke, asi nepouzit
+  * NM = nazev leku
+  * NO = popis
+Jeste jsou tam data z roku 2011: d2011.bin, q2011.bin, ale ty by mohly byt
+podmnozinou tech z roku 2012 - namatkove overeno na
+MH = Autistic Disorder
 ===== MAREC =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences