Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
grid [2008/10/20 15:04] novak |
grid [2011/11/04 09:13] zeman Munin. |
||
---|---|---|---|
Line 3: | Line 3: | ||
Cluster (shluk) neboli grid (mříž, síť) je skupina počítačů, | Cluster (shluk) neboli grid (mříž, síť) je skupina počítačů, | ||
- | * lrc.ufal.hide.ms.mff.cuni.cz: | + | * lrc.ufal.hide.ms.mff.cuni.cz: |
- | * fireball1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory | + | * V následující tabulce je uveden seznam výpočetních uzlů clusteru (aktuální k 27.6.2011): |
- | * tauri1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory | + | |
- | * orion1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory | + | ^ Jméno |
- | * sol1 až 13 (4xcore, | + | | andromeda[1-13] |
+ | | fireball[1-10] | ||
+ | | hyperion[1-10] | 2xCore2 | ||
+ | | orion[1-10] | 2xCore4 Intel Xeon 2 Ghz | 32 | Ubuntu 10.04 | | ||
+ | | pandora[1-10] | ||
+ | | sol[1-8,11-13] | ||
+ | | tauri[1-10] | ||
+ | | ||
Frontovací systém umožňuje: | Frontovací systém umožňuje: | ||
Line 18: | Line 25: | ||
Jednou za život musíte provést [[Základní nastavení SGE]], abyste SGE mohli používat. | Jednou za život musíte provést [[Základní nastavení SGE]], abyste SGE mohli používat. | ||
- | |||
- | |||
===== Ukázka užití SGE ===== | ===== Ukázka užití SGE ===== | ||
Line 26: | Line 31: | ||
< | < | ||
- | ssh lrc | + | ssh lrc2 |
# přihlašte se na hlavu clusteru | # přihlašte se na hlavu clusteru | ||
echo " | echo " | ||
Line 39: | Line 44: | ||
# Pořadí parametrů **je** důležité, | # Pořadí parametrů **je** důležité, | ||
qstat | qstat | ||
- | | + | qstat -u ' |
+ | | ||
# SGE chvíli čeká, než skript opravdu spustí. Pro malinké úlohy tedy SGE může představovat | # SGE chvíli čeká, než skript opravdu spustí. Pro malinké úlohy tedy SGE může představovat | ||
# zbytečné zpoždění. | # zbytečné zpoždění. | ||
+ | # -u ' | ||
cat skript.sh.oXXXXX | cat skript.sh.oXXXXX | ||
# vypište si výstup skriptu. XXXXX je ID jobu, které bylo přiděleno | # vypište si výstup skriptu. XXXXX je ID jobu, které bylo přiděleno | ||
Line 65: | Line 72: | ||
qsub -V | qsub -V | ||
# když chcete předat proměnné prostředí | # když chcete předat proměnné prostředí | ||
- | qdel all | + | qdel \* |
# když chcete zrušit všechny své joby (rušit cizí nesmíte) | # když chcete zrušit všechny své joby (rušit cizí nesmíte) | ||
</ | </ | ||
- | |||
- | ** V.N.: "qdel all" mi nefunguje, nahradil jsem za:** | ||
- | qdel " | ||
Line 97: | Line 101: | ||
===== Triky a opentlení ===== | ===== Triky a opentlení ===== | ||
+ | |||
==== ~bojar/ | ==== ~bojar/ | ||
Line 109: | Line 114: | ||
</ | </ | ||
+ | lépe funguje '' | ||
==== ~zeman/ | ==== ~zeman/ | ||
Line 127: | Line 133: | ||
(Kdybych místo uvozovek použil apostrofy, nerozbalily by se mi proměnné. První argument (název skriptu) klidně mohl být v uvozovkách spolu s přesměrováním. Dal jsem ho ven jen proto, že potom '' | (Kdybych místo uvozovek použil apostrofy, nerozbalily by se mi proměnné. První argument (název skriptu) klidně mohl být v uvozovkách spolu s přesměrováním. Dal jsem ho ven jen proto, že potom '' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== TectoMT: devel/ | ||
+ | |||
+ | Jako '' | ||
+ | |||
+ | | ||
+ | |||
+ | Skript zadanou hromádku souboru rozdělí do '' | ||
+ | |||
+ | Soubory možno zadat filelistem, nebo pomocí '' | ||
+ | |||
+ | Je nutné buď zadat '' | ||
+ | |||
+ | Parametr '' | ||
+ | |||
+ | Parametr '' | ||
+ | |||
+ | Výstup každého jobu jde do vlastního logu, '' | ||
+ | |||
+ | Parametr '' | ||
+ | |||
+ | Bez '' | ||
+ | |||
+ | ===== Monitorování úloh ===== | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * mem_total: celkova pamet uzlu | ||
+ | * mem_free: tedy kolik je jeste volne pameti z pametove quoty uzlu | ||
+ | * act_mem_free: | ||
+ | * mem_used: kolik je pameti skutecne pouzito | ||
+ | * ''/ | ||
+ | * celkovy pocet jader, pocet vyuzitych jader | ||
+ | * celkova velikost RAM, kolik je ji fyzicky nepouzite, kolik je ji jeste nerezervovane | ||
+ | * po jednotlivych uzivatelich (zrovna pocitajicich) -- kolik jim bezi uloh, kolik jich maji ve fronte a kolik z nich je ve stavu hold | ||
+ | * '' | ||
+ | * [[https:// | ||
===== Časté a záludné problémy ===== | ===== Časté a záludné problémy ===== | ||
- | ==== Submitnutý job nesmí znovu submitovat ==== | ||
- | Pokud se nemýlím, není dovoleno použít '' | + | ==== Submitnutý job může znovu submitovat ==== |
+ | |||
+ | Danovy starší zkušenosti s clusterem PBS (nikoli SGE) říkaly, že tohle nejde. Ale jde to, aspoň u nás. Příkazy | ||
Line 193: | Line 244: | ||
</ | </ | ||
+ | ==== Jak zjistit, jaké zdroje jsem pro svou úlohu požadoval ==== | ||
+ | < | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
===== Synchronizace úloh (v Perlu) ===== | ===== Synchronizace úloh (v Perlu) ===== | ||
Line 208: | Line 267: | ||
* Ve svém hlavním skriptu ho pak zavolám a posbírám výsledky: | * Ve svém hlavním skriptu ho pak zavolám a posbírám výsledky: | ||
< | < | ||
+ | use FileHandle; | ||
+ | use IPC::Open2; | ||
use threads; | use threads; | ||
use threads:: | use threads:: | ||
Line 241: | Line 302: | ||
* Pokud lze všechno předat parametry, nemusí se otevírat obousměrná roura a situace bude jednodušší | * Pokud lze všechno předat parametry, nemusí se otevírat obousměrná roura a situace bude jednodušší | ||
* Pokud '' | * Pokud '' | ||
- | * Celý příklad je použit | + | * Celý příklad je k vidění |