Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
khresmoi:fr [2012/01/20 11:26] hlavacova |
khresmoi:fr [2012/02/29 14:32] hlavacova odstraněno |
||
---|---|---|---|
Line 5: | Line 5: | ||
:?: nevíme, jestli chceme | :?: nevíme, jestli chceme | ||
:-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin | :-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin | ||
+ | |||
+ | ==== ELRA ==== | ||
+ | |||
+ | * **ELRA-E0022: | ||
+ | |||
+ | Subpart: 140 Mb of data from the medical domain | ||
+ | Zatím nedodáno (PP) | ||
+ | |||
+ | * **ELRA-E0019: | ||
+ | |||
+ | Subpart (medical corpus): 9,000,000 words | ||
+ | Zatím nedodáno (PP) | ||
==== LDC ==== | ==== LDC ==== | ||
- | **French Gigaword** 3rd edition, catalogue number LDC2011T10, máme DVD | + | * **French Gigaword** 3rd edition, catalogue number LDC2011T10, máme DVD |
Formát: SGML, segmentace na věty, netokenizováno | Formát: SGML, segmentace na věty, netokenizováno | ||
862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | ||
Všeobecné novinové texty, ne lékařské - Agence France-Presse, | Všeobecné novinové texty, ne lékařské - Agence France-Presse, | ||
- | Dále jsem našla | + | Dále jsem našla: |
- | **Hansard French/ | + | |
- | **UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP | + | |