Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
khresmoi:data_notes [2012/03/01 11:34] hlavacova |
khresmoi:data_notes [2012/06/13 10:15] (current) hlavacova |
||
---|---|---|---|
Line 74: | Line 74: | ||
* segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. | * segmentované podle vět, ale menší - viz tabulka. Některé patenty chybí zcela, některé jsou zkráceny. | ||
* nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) | * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) | ||
- | Zatím jsem udělala jen ty nesegmentované. | + | Zpracované obojí, viz read.me u dat. |
+ | **POZOR!!! segmentovaná a nesegmentovaná verze neobsahují totéž** | ||
===== French Gigaword ===== | ===== French Gigaword ===== | ||
Line 83: | Line 84: | ||
===== MESH ===== | ===== MESH ===== | ||
+ | **EN** | ||
Staženo ze stránky http:// | Staženo ze stránky http:// | ||
Line 101: | Line 103: | ||
podmnozinou tech z roku 2012 - namatkove overeno na | podmnozinou tech z roku 2012 - namatkove overeno na | ||
MH = Autistic Disorder | MH = Autistic Disorder | ||
+ | |||
+ | **FR** | ||
+ | Francouzi mají překlad, je možno o něj zažádat z téhle adresy: | ||
+ | http:// | ||
===== MAREC ===== | ===== MAREC ===== | ||
Line 142: | Line 148: | ||
1825077 | 1825077 | ||
Stažený nástroj na alignment. | Stažený nástroj na alignment. | ||
+ | |||
+ | ===== UN ===== | ||
+ | Data z projektu Euromatrix | ||
+ | Staženo ze stránky (navíc španělské texty, kterých je zcat ../ | ||
+ | http:// | ||
+ | Při rozbalení originálních korpusů se vytvoří adresáře un/xml a pak podle jazyků, v rámci každého jazyka ještě podle let. Uvnitř jsou pak dokumenty ve velmi jednoduchém XML. | ||
+ | Kromě toho je součástí balení README a skript extract.py, který udělá " | ||
+ | Zpracované jsou tedy jen jednojazyčné texty, ale v tabulce je uveden alignment podle vět, aby se vědělo, že to nějak (!) uděláno je. Jelikož výroba dat je snadná (popsáno v README), data jsme smazali, v original jsou jen původní zabalené soubory. | ||
===== much.more ===== | ===== much.more ===== |