[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:ukoly:pavouk [2007/10/12 13:38]
zeman Psát v Perlu.
user:zeman:ukoly:pavouk [2007/10/12 13:44]
zeman Snížení limitu.
Line 42: Line 42:
 e       0.0497783839072622 e       0.0497783839072622
 a       0.0422775315376747</code> a       0.0422775315376747</code>
 +
  
 ===== Specifikace volání a práce pavouka ===== ===== Specifikace volání a práce pavouka =====
Line 47: Line 48:
 Program se bude jmenovat ''pavouk.pl'' a bude se volat s jedním nebo více argumenty, které se interpretují jako URL (internetové adresy). Kromě toho se mohou mezi argumenty nacházet i volby (options), které určují, kolik textu a z jakého jazyka se má stáhnout. Program se bude jmenovat ''pavouk.pl'' a bude se volat s jedním nebo více argumenty, které se interpretují jako URL (internetové adresy). Kromě toho se mohou mezi argumenty nacházet i volby (options), které určují, kolik textu a z jakého jazyka se má stáhnout.
  
-<code>pavouk.pl -l frq/cs.frq -t 0.36 -n 1000000 http://seznam.cz/ http://centrum.cz/</code>+<code>pavouk.pl -l frq/cs.frq -t 0.36 -n 500000 http://seznam.cz/ http://centrum.cz/</code>
  
 ''-l frq/cs.frq'' říká, že v souboru frq/cs.frq program najde frekvenční charakteristiku jazyka, ve kterém mají dokumenty být. Parametrem ''-t'' můžete předat prahovou hodnotu míry podobnosti dokumentu danému jazyku, pod kterou už se mají dokumenty zahodit (alternativně můžete zadat cestu ke složce s charakteristikami dalších jazyků a text, který se více podobá jinému jazyku, taky zahodit; bez prahu se ale neobejdete, protože jinak hrozí, že narazíte na jazyk, který se dostatečně nepodobá ničemu, co máte natrénováno, ale bohužel vašemu jazyku se podobá o něco víc než těm ostatním). ''-l frq/cs.frq'' říká, že v souboru frq/cs.frq program najde frekvenční charakteristiku jazyka, ve kterém mají dokumenty být. Parametrem ''-t'' můžete předat prahovou hodnotu míry podobnosti dokumentu danému jazyku, pod kterou už se mají dokumenty zahodit (alternativně můžete zadat cestu ke složce s charakteristikami dalších jazyků a text, který se více podobá jinému jazyku, taky zahodit; bez prahu se ale neobejdete, protože jinak hrozí, že narazíte na jazyk, který se dostatečně nepodobá ničemu, co máte natrénováno, ale bohužel vašemu jazyku se podobá o něco víc než těm ostatním).
  
-Parametr ''-n 1000000'' říká že program má procházení ukončit poté, co velikost získaného korpusu překročí milión slov. Volba ''-n 0'' by znamenala, že má běžet tak dlouho, dokud ho někdo neukončí násilím.+Parametr ''-n 500000'' říká že program má procházení ukončit poté, co velikost získaného korpusu překročí půl miliónu slov. Volba ''-n 0'' by znamenala, že má běžet tak dlouho, dokud ho někdo neukončí násilím.
  
 Úkolem programu je stahovat dokumenty na uvedených adresách, hledat v nich odkazy na další dokumenty, ty také stahovat a takto pokračovat až do nalezení dostatečného množství textu. Dokumenty, které nejsou v požadovaném jazyku, zahodí. Program se nesmí zacyklit, tj. opakovaně zpracovávat stránky, na kterých už byl. (K identifikaci takových stránek někdy nestačí URL, potřebujete sledovat i obsah. Některé dynamicky generované stránky obsahují odkaz na sebe sama pokaždé s jiným URL.) Úkolem programu je stahovat dokumenty na uvedených adresách, hledat v nich odkazy na další dokumenty, ty také stahovat a takto pokračovat až do nalezení dostatečného množství textu. Dokumenty, které nejsou v požadovaném jazyku, zahodí. Program se nesmí zacyklit, tj. opakovaně zpracovávat stránky, na kterých už byl. (K identifikaci takových stránek někdy nestačí URL, potřebujete sledovat i obsah. Některé dynamicky generované stránky obsahují odkaz na sebe sama pokaždé s jiným URL.)

[ Back to the navigation ] [ Back to the content ]