[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
khresmoi:data_notes [2012/03/02 13:50]
hlavacova
khresmoi:data_notes [2012/06/13 10:15]
hlavacova
Line 148: Line 148:
   1825077  47667366 314658361 europarl-v6.fr-en.fr   1825077  47667366 314658361 europarl-v6.fr-en.fr
 Stažený nástroj na alignment. Stažený nástroj na alignment.
 +
 +===== UN =====
 +Data z projektu Euromatrix
 +Staženo ze stránky (navíc španělské texty, kterých je zcat ../un.es.gz|wc  -> 13127945 352668682 2290530218
 +http://www.euromatrixplus.net/multi-un/
 +Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML.
 +Kromě toho je součástí balení README a skript extract.py, který udělá "paralelní data", což ale znamená jen výběr jen těch souborů, jejichž texty jsou ve všech požadovaných jazycích (shoduje se název kromě zkratky jazyka) a potom ještě vytažení čistého textu z XML. Alignment je už součástí textů - číslování odstavců a vět, ale namátkovou kontrolou to moc nesedí, proto jsme se rozhodli to nepoužít.
 +Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory.
  
 ===== much.more ===== ===== much.more =====

[ Back to the navigation ] [ Back to the content ]