[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:ukoly:pavouk [2007/10/12 13:54]
zeman telugu2latin.pl
user:zeman:ukoly:pavouk [2007/10/17 08:59]
zeman Zapomenutý milión.
Line 10: Line 10:
   - Program na natrénování statistiky, podle které dokážeme rozpoznat jazyk dokumentu.   - Program na natrénování statistiky, podle které dokážeme rozpoznat jazyk dokumentu.
   - Rozšíření pavouka o modul, který načte natrénované statistiky jazyků a o stahovaných dokumentech pak dokáže říct, zda jsou v požadovaném jazyku, nebo ne.   - Rozšíření pavouka o modul, který načte natrénované statistiky jazyků a o stahovaných dokumentech pak dokáže říct, zda jsou v požadovaném jazyku, nebo ne.
-  - Vytipování počátečního URL pro jazyk, který vám byl zadán. Spusťte pavouka a stáhněte korpus, který po vyčištění bude obsahovat alespoň 1 milión slov (před tokenizací, tedy od mezery do mezery).+  - Vytipování počátečního URL pro jazyk, který vám byl zadán. Spusťte pavouka a stáhněte korpus, který po vyčištění bude obsahovat alespoň 500000 slov (před tokenizací, tedy od mezery do mezery).
  
 Odevzdávat budete oba programy a stažený korpus. Odevzdávat budete oba programy a stažený korpus.

[ Back to the navigation ] [ Back to the content ]