Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
grid [2011/09/27 16:21] ufal |
grid [2012/10/19 13:06] dusek |
| |
* lrc.ufal.hide.ms.mff.cuni.cz: hlava clusteru. To znamená, že neslouží k výpočtům, ale ke správě fronty výpočtů, které se odesílají na výpočetní stroje v clusteru. Na hlavě se nemají pouštět žádné náročné výpočty a naopak na ostatní stroje v clusteru se mají výpočty odesílat výhradně prostřednictvím hlavy. Hlava má 2 procesory Intel Pentium D 3 GHz a 1 GB paměti. Ve skutečnosti existují hlavy dvě - lrc1 a lrc2, které sdílí IP adresu lrc.ufal.hide.ms.mff.cuni.cz. V případě výpadku jedné z hlav, přebírá kontrolu ta druhá. | * lrc.ufal.hide.ms.mff.cuni.cz: hlava clusteru. To znamená, že neslouží k výpočtům, ale ke správě fronty výpočtů, které se odesílají na výpočetní stroje v clusteru. Na hlavě se nemají pouštět žádné náročné výpočty a naopak na ostatní stroje v clusteru se mají výpočty odesílat výhradně prostřednictvím hlavy. Hlava má 2 procesory Intel Pentium D 3 GHz a 1 GB paměti. Ve skutečnosti existují hlavy dvě - lrc1 a lrc2, které sdílí IP adresu lrc.ufal.hide.ms.mff.cuni.cz. V případě výpadku jedné z hlav, přebírá kontrolu ta druhá. |
* V následující tabulce je uveden seznam výpočetních uzlů clusteru (aktuální k 27.6.2011): | * V následující tabulce je uveden seznam výpočetních uzlů clusteru (aktuální k 6.4.2012): |
| |
^ Jméno ^ CPU ^ RAM (GB) ^ OS ^ | ^ Jméno ^ CPU ^ RAM (GB) ^ OS ^ |
| fireball[1-10] | 2xCore4 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | | | fireball[1-10] | 2xCore4 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | |
| hyperion[1-10] | 2xCore2 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | | | hyperion[1-10] | 2xCore2 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | |
| | lucifer[1-5] | 2xCore4 Intel Xeon 2.4 Ghz | 128 | Ubuntu 10.04 | |
| orion[1-10] | 2xCore4 Intel Xeon 2 Ghz | 32 | Ubuntu 10.04 | | | orion[1-10] | 2xCore4 Intel Xeon 2 Ghz | 32 | Ubuntu 10.04 | |
| pandora[1-10] | 2xCore2 Intel Xeon 2.6 Ghz | 16 | Ubuntu 10.04 | | | pandora[1-10] | 2xCore2 Intel Xeon 2.6 Ghz | 16 | Ubuntu 10.04 | |
| sol[1-8,11-13] | 2xCore4 AMD Opteron 2 Ghz | 16 | Ubuntu 10.04 | | | sol[1-8,11-13] | 2xCore4 AMD Opteron 2 Ghz | 16 | Ubuntu 10.04 | |
| tauri[1-10] | 2xCore4 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | | | tauri[1-10] | 2xCore4 Intel Xeon 3 Ghz | 32 | Ubuntu 10.04 | |
| | cosmos | 4xCore2 Intel Xeon 2.93 Ghz | 256 | Ubuntu 10.04 | |
| | iridium | 2xCore4 Intel Xeon 1.86 Ghz | 512 | Ubuntu 10.04 | |
| | twister[1,2] | 2xCore4 Intel Xeon 2.4 Ghz | 48 | Ubuntu 10.04 | |
| |
| |
| |
* Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) | * Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) |
| * Interaktivní shell se dá získat příkazem ''qrsh'' (přičemž specifikujete požadavky na zdroje stejně jako u ''qsub'') |
| |
Další doporučení: | Další doporučení: |
* Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. | * Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. |
* Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. | * Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. |
* Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť: <code>qsub -l mf=10g …</code> | * Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť (a používat "hard" limit, kdy SGE úlohu zabije, pokud rezervovanou paměť překročí): <code>qsub -hard -l mem_free=8G -l act_mem_free=8G -l h_vmem=8G</code> |
| |
| |
| |
Bez ''-''''-sync'' nebo ''-''''-join'' nezbývá, než kontrolovat, jestli logy jednotlivých jobů na konci nemají napsáno: ''Status: FAILED''. | Bez ''-''''-sync'' nebo ''-''''-join'' nezbývá, než kontrolovat, jestli logy jednotlivých jobů na konci nemají napsáno: ''Status: FAILED''. |
| |
| ===== Monitorování úloh ===== |
| |
| * ''qstat [-u user]'' -- seznam úloh aktuálně běžících / ve frontě |
| * ''qhost'' -- dostupné zdroje |
| * ''/SGE/REPORTER/LRC-UFAL/bin/lrc_users_real_mem_usage -u user -w'' -- aktuální využití paměti uživatelem |
| * ''/SGE/REPORTER/LRC-UFAL/bin/lrc_users_limits_requested -w'' -- nárokované požadavky uživatelů |
| * ''/SGE/REPORTER/LRC-UFAL/bin/lrc_nodes_meminfo'' -- vypis vsech uzlu a stav vytiznosti pameti. |
| * mem_total: celkova pamet uzlu |
| * mem_free: tedy kolik je jeste volne pameti z pametove quoty uzlu |
| * act_mem_free: kolik uzlu OPRAVDU zbyva volne pameti |
| * mem_used: kolik je pameti skutecne pouzito |
| * ''/SGE/REPORTER/LRC-UFAL/bin/lrc_state_overview'' -- celkový přehled o clusteru |
| * celkovy pocet jader, pocet vyuzitych jader |
| * celkova velikost RAM, kolik je ji fyzicky nepouzite, kolik je ji jeste nerezervovane |
| * po jednotlivych uzivatelich (zrovna pocitajicich) -- kolik jim bezi uloh, kolik jich maji ve fronte a kolik z nich je ve stavu hold |
| * ''cat /SGE/REPORTER/LRC-UFAL/stats/userlist.weight'' -- seznam uživatelů clusteru seřazený podle dosavadní aktivity (počet odeslaných úloh × čas, který běžely), aktualizovaný každý den v noci |
| * [[https://ufaladm2.ufal.hide.ms.mff.cuni.cz/munin/ufal.hide.ms.mff.cuni.cz/lrc1.ufal.hide.ms.mff.cuni.cz/lrc_users.html|Munin: graf vytíženosti clusteru podle uživatelů]] (viditelný pouze ze sítě ÚFAL) |
| |
===== Časté a záludné problémy ===== | ===== Časté a záludné problémy ===== |
hard resource_list: mem_free=16g | hard resource_list: mem_free=16g |
hard resource_list: mem_free=31g</code> | hard resource_list: mem_free=31g</code> |
| |
| ==== Jak rezervovat více jader na stejném stroji pro 1 job ==== |
| |
| <code> |
| qsub -pe smp <pocet jader> |
| </code> |
| |
===== Synchronizace úloh (v Perlu) ===== | ===== Synchronizace úloh (v Perlu) ===== |