[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
khresmoi:data_notes [2012/02/29 14:29]
hlavacova
khresmoi:data_notes [2012/02/29 14:31]
hlavacova
Line 48: Line 48:
   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)   * nesegmentované - každý patent má 2 záznamy: jméno a abstract, obojí v EN i FR, tedy alignment podle paragrafu (odhad)
 Zatím jsem udělala jen ty nesegmentované. Zatím jsem udělala jen ty nesegmentované.
 +
 +===== French Gigaword =====
 +3rd edition, catalogue number LDC2011T10, máme DVD
 +Formát: SGML, segmentace na věty, netokenizováno
 +862 851 slov, tj. simply the number of white space-separated tokens (of all types) after all SGML tags are eliminated
 +Všeobecné novinové texty, ne lékařské - Agence France-Presse, Associated Press French Service.
  
 ===== MAREC ===== ===== MAREC =====

[ Back to the navigation ] [ Back to the content ]