Differences

This shows you the differences between two versions of the page.

--- khresmoi:data_notes [2012/03/01 16:16]
hlavacova
+++ khresmoi:data_notes [2012/06/13 10:15] (current)
hlavacova
@@ Line 75: / Line 75: @@
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zpracované obojí, viz read.me u dat.
-POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž
+**POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž**
 ===== French Gigaword =====
@@ Line 84: / Line 84: @@
 ===== MESH =====
+**EN**
 Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
@@ Line 102: / Line 103: @@
 podmnozinou tech z roku 2012 - namatkove overeno na
 MH = Autistic Disorder
+**FR**
+Francouzi mají překlad, je možno o něj zažádat z téhle adresy:
+http://mesh.inserm.fr/mesh/get_file.htm
 ===== MAREC =====
@@ Line 143: / Line 148: @@
   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment.
+===== UN =====
+Data z projektu Euromatrix
+Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc  -> 13127945 352668682 2290530218
+http://www.euromatrixplus.net/multi-un/
+Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
+Kromě toho je součástí balení README a skript extract.py, který udělá "paralelní data", což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
+Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.
 ===== much.more =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences