[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
khresmoi:fr [2012/01/20 11:26]
hlavacova
khresmoi:fr [2012/02/29 14:32]
hlavacova odstraněno
Line 5: Line 5:
 :?: nevíme, jestli chceme :?: nevíme, jestli chceme
 :-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin :-? chceme stahovat, ale zatím nevíme, jak na to ... z různých příčin
 +
 +==== ELRA ====
 +
 +  * **ELRA-E0022: EQueR Evaluation Package**
 +
 +Subpart: 140 Mb of data from the medical domain
 +Zatím nedodáno (PP)
 +
 +  * **ELRA-E0019: CESART Evaluation Package** 
 +
 +Subpart (medical corpus): 9,000,000 words
 +Zatím nedodáno (PP)
  
 ==== LDC ==== ==== LDC ====
-**French Gigaword** 3rd edition, catalogue number LDC2011T10, máme DVD+  * **French Gigaword** 3rd edition, catalogue number LDC2011T10, máme DVD
 Formát: SGML, segmentace na věty, netokenizováno Formát: SGML, segmentace na věty, netokenizováno
 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated 862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
 Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service. Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
-Dále jsem našla  +Dále jsem našla:
-**Hansard French/English** ... LDC Catalog No.LDC95T20 +
-**UN Parallel Text (Complete)** ... LDC Catalog No.: LDC94T4A, jazyky EN, FR, SP+
  

[ Back to the navigation ] [ Back to the content ]