Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
grid [2010/03/28 14:21] zeman Submitnutá úloha může znova submitovat. |
grid [2015/02/13 19:53] ufal +more lucifers |
||
---|---|---|---|
Line 3: | Line 3: | ||
Cluster (shluk) neboli grid (mříž, síť) je skupina počítačů, | Cluster (shluk) neboli grid (mříž, síť) je skupina počítačů, | ||
- | * lrc.ufal.hide.ms.mff.cuni.cz: | + | * lrc.ufal.hide.ms.mff.cuni.cz: |
- | * fireball1 až 10 (4xcore, 32 GB RAM, Ubuntu | + | * V následující tabulce je uveden seznam výpočetních uzlů clusteru |
- | * tauri1 až 10 (4xcore, | + | |
- | | + | ^ Jméno |
- | * sol1 až 13 (4xcore, 16 GB RAM, Ubuntu | + | | andromeda[1-13] |
+ | | fireball[1-10] | ||
+ | | hyperion[1-10] | 2xCore2 Intel Xeon 3 Ghz | 32 | Ubuntu | ||
+ | | lucifer[1-10] | ||
+ | | orion[1-10] | ||
+ | | pandora[1-10] | ||
+ | | sol[1-8,11-13] | ||
+ | | tauri[1-10] | ||
+ | | cosmos | ||
+ | | belzebub | ||
+ | | iridium | ||
+ | | twister[1,2] | 2xCore4 Intel Xeon 2.4 Ghz | 48 | Ubuntu 10.04 | | ||
+ | | ||
Frontovací systém umožňuje: | Frontovací systém umožňuje: | ||
Line 24: | Line 36: | ||
< | < | ||
- | ssh lrc-two | + | ssh lrc2 |
# přihlašte se na hlavu clusteru | # přihlašte se na hlavu clusteru | ||
echo " | echo " | ||
Line 65: | Line 77: | ||
qsub -V | qsub -V | ||
# když chcete předat proměnné prostředí | # když chcete předat proměnné prostředí | ||
- | qdel all | + | qdel \* |
# když chcete zrušit všechny své joby (rušit cizí nesmíte) | # když chcete zrušit všechny své joby (rušit cizí nesmíte) | ||
</ | </ | ||
- | |||
- | ** V.N.: "qdel all" mi nefunguje, nahradil jsem za:** | ||
- | qdel " | ||
Line 81: | Line 90: | ||
* Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) | * Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) | ||
+ | * Interaktivní shell se dá získat příkazem '' | ||
Další doporučení: | Další doporučení: | ||
Line 87: | Line 97: | ||
* Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. | * Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. | ||
* Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. | * Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. | ||
- | * Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť: < | + | * Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť |
Line 155: | Line 165: | ||
Bez '' | Bez '' | ||
+ | |||
+ | ===== Monitorování úloh ===== | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * mem_total: celkova pamet uzlu | ||
+ | * mem_free: tedy kolik je jeste volne pameti z pametove quoty uzlu | ||
+ | * act_mem_free: | ||
+ | * mem_used: kolik je pameti skutecne pouzito | ||
+ | * ''/ | ||
+ | * celkovy pocet jader, pocet vyuzitych jader | ||
+ | * celkova velikost RAM, kolik je ji fyzicky nepouzite, kolik je ji jeste nerezervovane | ||
+ | * po jednotlivych uzivatelich (zrovna pocitajicich) -- kolik jim bezi uloh, kolik jich maji ve fronte a kolik z nich je ve stavu hold | ||
+ | * '' | ||
+ | * [[https:// | ||
===== Časté a záludné problémy ===== | ===== Časté a záludné problémy ===== | ||
Line 222: | Line 250: | ||
</ | </ | ||
+ | ==== Jak zjistit, jaké zdroje jsem pro svou úlohu požadoval ==== | ||
+ | < | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | ==== Jak rezervovat více jader na stejném stroji pro 1 job ==== | ||
+ | < | ||
+ | qsub -pe smp <pocet jader> | ||
+ | </ | ||
===== Synchronizace úloh (v Perlu) ===== | ===== Synchronizace úloh (v Perlu) ===== |