Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
khresmoi:data_notes [2012/03/01 16:16] hlavacova |
khresmoi:data_notes [2012/06/13 10:15] (current) hlavacova |
||
---|---|---|---|
Line 84: | Line 84: | ||
===== MESH ===== | ===== MESH ===== | ||
+ | **EN** | ||
Staženo ze stránky http:// | Staženo ze stránky http:// | ||
Line 102: | Line 103: | ||
podmnozinou tech z roku 2012 - namatkove overeno na | podmnozinou tech z roku 2012 - namatkove overeno na | ||
MH = Autistic Disorder | MH = Autistic Disorder | ||
+ | |||
+ | **FR** | ||
+ | Francouzi mají překlad, je možno o něj zažádat z téhle adresy: | ||
+ | http:// | ||
===== MAREC ===== | ===== MAREC ===== | ||
Line 143: | Line 148: | ||
1825077 | 1825077 | ||
Stažený nástroj na alignment. | Stažený nástroj na alignment. | ||
+ | |||
+ | ===== UN ===== | ||
+ | Data z projektu Euromatrix | ||
+ | Staženo ze stránky (navíc španělské texty, kterých je zcat ../ | ||
+ | http:// | ||
+ | Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML. | ||
+ | Kromě toho je součástí balení README a skript extract.py, který udělá " | ||
+ | Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory. | ||
===== much.more ===== | ===== much.more ===== |