[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Jazyková data FR

Zatím mám vše uloženo u sebe. — hlavacova 2012/01/20 11:18

Vysvětlivky

8-) už stažená data
:?: nevíme, jestli chceme
:-? chceme stahovat, ale zatím nevíme, jak na to … z různých příčin

LDC

French Gigaword 3rd edition, catalogue number LDC2011T10, máme DVD
Formát: SGML, segmentace na věty, netokenizováno
862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.


[ Back to the navigation ] [ Back to the content ]