Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
khresmoi:data_notes [2012/03/02 13:50] hlavacova |
khresmoi:data_notes [2012/06/13 10:15] (current) hlavacova |
||
---|---|---|---|
Line 148: | Line 148: | ||
1825077 | 1825077 | ||
Stažený nástroj na alignment. | Stažený nástroj na alignment. | ||
+ | |||
+ | ===== UN ===== | ||
+ | Data z projektu Euromatrix | ||
+ | Staženo ze stránky (navíc španělské texty, kterých je zcat ../ | ||
+ | http:// | ||
+ | Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML. | ||
+ | Kromě toho je součástí balení README a skript extract.py, který udělá " | ||
+ | Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory. | ||
===== much.more ===== | ===== much.more ===== |