Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:ukoly:pavouk [2009/02/27 17:49] zeman {{template>spolecne}} |
user:zeman:ukoly:pavouk [2009/03/03 15:35] zeman Program by měl vypsat N nejpravděpodobnějších jazyků s vahami. |
e 0.0497783839072622 | e 0.0497783839072622 |
a 0.0422775315376747</code> | a 0.0422775315376747</code> |
| |
| |
===== Specifikace volání a práce pavouka ===== | ===== Specifikace volání a práce pavouka ===== |
Program se bude jmenovat ''pavouk.pl'' a bude se volat s jedním nebo více argumenty, které se interpretují jako URL (internetové adresy). Kromě toho se mohou mezi argumenty nacházet i volby (options), které určují, kolik textu a z jakého jazyka se má stáhnout. | Program se bude jmenovat ''pavouk.pl'' a bude se volat s jedním nebo více argumenty, které se interpretují jako URL (internetové adresy). Kromě toho se mohou mezi argumenty nacházet i volby (options), které určují, kolik textu a z jakého jazyka se má stáhnout. |
| |
<code>pavouk.pl -l frq/cs.frq -t 0.36 -n 500000 http://seznam.cz/ http://centrum.cz/</code> | <code>pavouk.pl -l frq/cs.frq -f frq -t 0.36 -n 500000 http://seznam.cz/ http://centrum.cz/</code> |
| |
''-l frq/cs.frq'' říká, že v souboru frq/cs.frq program najde frekvenční charakteristiku jazyka, ve kterém mají dokumenty být. Parametrem ''-t'' můžete předat prahovou hodnotu míry podobnosti dokumentu danému jazyku, pod kterou už se mají dokumenty zahodit (alternativně můžete zadat cestu ke složce s charakteristikami dalších jazyků a text, který se více podobá jinému jazyku, taky zahodit; bez prahu se ale neobejdete, protože jinak hrozí, že narazíte na jazyk, který se dostatečně nepodobá ničemu, co máte natrénováno, ale bohužel vašemu jazyku se podobá o něco víc než těm ostatním). | ''-l frq/cs.frq'' říká, že v souboru frq/cs.frq program najde frekvenční charakteristiku jazyka, ve kterém mají dokumenty být. Parametrem ''-t'' můžete předat prahovou hodnotu míry podobnosti dokumentu danému jazyku, pod kterou už se mají dokumenty zahodit (alternativně můžete parametrem ''-f'' zadat cestu ke složce s charakteristikami dalších jazyků a text, který se více podobá jinému jazyku, taky zahodit; bez prahu se ale neobejdete, protože jinak hrozí, že narazíte na jazyk, který se dostatečně nepodobá ničemu, co máte natrénováno, ale bohužel vašemu jazyku se podobá o něco víc než těm ostatním). |
| |
Parametr ''-n 500000'' říká že program má procházení ukončit poté, co velikost získaného korpusu překročí půl miliónu slov. Volba ''-n 0'' by znamenala, že má běžet tak dlouho, dokud ho někdo neukončí násilím. | Parametr ''-n 500000'' říká že program má procházení ukončit poté, co velikost získaného korpusu překročí půl miliónu slov. Volba ''-n 0'' by znamenala, že má běžet tak dlouho, dokud ho někdo neukončí násilím. |
| |
Snažte se identifikovat a likvidovat opakované výskyty téhož odstavce (zejména pokud jde o jednoslovné odstavce, jako jsou různé položky nabídek na internetových portálech). Volitelně můžete také zkusit identifikovat jazyk každého odstavce a vyhodit intervenující např. anglické odstavce v dokumentu, který je jinak převážně ve vámi hledaném jazyku. Počítejte ale s tím, že určit statisticky jazyk krátkého řetězce je těžší než u delšího dokumentu. | Snažte se identifikovat a likvidovat opakované výskyty téhož odstavce (zejména pokud jde o jednoslovné odstavce, jako jsou různé položky nabídek na internetových portálech). Volitelně můžete také zkusit identifikovat jazyk každého odstavce a vyhodit intervenující např. anglické odstavce v dokumentu, který je jinak převážně ve vámi hledaném jazyku. Počítejte ale s tím, že určit statisticky jazyk krátkého řetězce je těžší než u delšího dokumentu. |
| |
| Stažené texty posílejte na standardní výstup (STDOUT, viz níže). Kromě toho na standardní chybový výstup (STDERR) pište (přinejmenším): jaký dokument (URL) právě zpracováváte, N nejpravděpodobnějších jazyků, ve kterých by dokument mohl být, a váhy, které vyjadřují, jak moc se dokument podobá danému jazyku. To je důležité, protože bez možnosti vidět váhy uživatel těžko dokáže odhadnout vhodný práh do parametru ''-t''. Ze stejného důvodu by neškodilo, aby se na STDERR objevilo i několik slov ze začátku dokumentu. |
| |
===== Specifikace výstupního formátu ===== | ===== Specifikace výstupního formátu ===== |