[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
khresmoi:data_notes [2012/03/01 15:57]
hlavacova
khresmoi:data_notes [2012/06/13 10:15] (current)
hlavacova
Line 74: Line 74:
   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.   * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny.
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
- +Zpracované obojí, viz read.me u dat.  
-Zpracované obojí, viz read.me u dat.+**POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž**
  
 ===== French Gigaword ===== ===== French Gigaword =====
Line 84: Line 84:
  
 ===== MESH ===== ===== MESH =====
 +**EN**
 Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html Staženo ze stránky http://www.nlm.nih.gov/mesh/filelist.html
  
Line 102: Line 103:
 podmnozinou tech z roku 2012 - namatkove overeno na  podmnozinou tech z roku 2012 - namatkove overeno na 
 MH = Autistic Disorder MH = Autistic Disorder
 +
 +**FR**
 +Francouzi mají překlad, je možno o něj zažádat z téhle adresy:
 +http://mesh.inserm.fr/mesh/get_file.htm
  
 ===== MAREC ===== ===== MAREC =====
Line 143: Line 148:
   1825077  47667366 314658361 europarl-v6.fr-en.fr   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment. Stažený nástroj na alignment.
 +
 +===== UN =====
 +Data z projektu Euromatrix
 +Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc  -> 13127945 352668682 2290530218
 +http://www.euromatrixplus.net/multi-un/
 +Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
 +Kromě toho je součástí balení README a skript extract.py, který udělá "paralelní data", což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
 +Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.
  
 ===== much.more ===== ===== much.more =====

[ Back to the navigation ] [ Back to the content ]