Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
khresmoi:data_notes [2012/02/29 14:29] hlavacova |
khresmoi:data_notes [2012/02/29 14:31] hlavacova |
||
---|---|---|---|
Line 48: | Line 48: | ||
* nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) | * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad) | ||
Zatím jsem udělala jen ty nesegmentované. | Zatím jsem udělala jen ty nesegmentované. | ||
+ | |||
+ | ===== French Gigaword ===== | ||
+ | 3rd edition, catalogue number LDC2011T10, máme DVD | ||
+ | Formát: SGML, segmentace na věty, netokenizováno | ||
+ | 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | ||
+ | Všeobecné novinové texty, ne lékařské - Agence France-Presse, | ||
===== MAREC ===== | ===== MAREC ===== |