Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
khresmoi:fr [2012/01/20 11:17] hlavacova vytvořeno |
khresmoi:fr [2012/02/29 14:32] hlavacova odstraněno |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== FR ====== | + | ===== Jazyková data FR ===== |
- | ===== LDC ===== | + | Zatím mám vše uloženo u sebe. --- // |
- | French Gigaword | + | == Vysvětlivky |
+ | 8-) už stažená data | ||
+ | :?: nevíme, jestli chceme | ||
+ | :-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin | ||
+ | |||
+ | ==== ELRA ==== | ||
+ | |||
+ | * **ELRA-E0022: | ||
+ | |||
+ | Subpart: 140 Mb of data from the medical domain | ||
+ | Zatím nedodáno (PP) | ||
+ | |||
+ | * **ELRA-E0019: | ||
+ | |||
+ | Subpart (medical corpus): 9,000,000 words | ||
+ | Zatím nedodáno (PP) | ||
+ | |||
+ | ==== LDC ==== | ||
+ | * **French Gigaword** 3rd edition, catalogue number LDC2011T10, máme DVD | ||
+ | Formát: SGML, segmentace na věty, netokenizováno | ||
+ | 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated | ||
+ | Všeobecné novinové texty, ne lékařské - Agence France-Presse, | ||
+ | Dále jsem našla: |