Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
grid [2007/09/24 03:59] bojar nice a qsub, paralelni pristup ke sdilenym diskum |
grid [2017/09/26 18:30] popel delete outdated/old tricks |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | ====== |
- | Cluster | + | LRC (Linguistic Research Cluster) is a name of ÚFAL' |
- | * lrc.ufal.hide.ms.mff.cuni.cz: | + | If you need GPU processing, see a special page about our [[:gpu|GPU cluster called DLL]] (which is actually |
- | * fireball1 až 10 (na každém 4 procesory Intel Xeon 3 GHz, 16 GB paměti, Fedora 7) | + | |
- | * tauri1 | + | |
- | * orion1 až 10 (na každém 4 procesory Intel Xeon 2 GHz, 16 GB paměti, 12.9.2007 naplánovaná odstávka na reinstalaci) | + | |
- | * sol1 až 10 (na každém 4 procesory AMD Opteron Dual Core 2 GHz, 16 GB paměti, 12.9.2007 naplánovaná odstávka na reinstalaci) | + | |
+ | ===== List of Machines ===== | ||
+ | The list has been updated 2017/09. All machines have Ubuntu 14.04. | ||
+ | Some machines are at Malá Strana (ground floor, new server room built from Lindat budget), some are at Troja (5 km north-east). | ||
+ | If you need to quickly distinguish which machine is located where, you can use your knowledge of [[https:// | ||
+ | |||
+ | ==== Troja (troja-all.q) ==== | ||
+ | ^ Name ^ CPU type ^ GHz ^cores ^RAM(GB)^ note ^ | ||
+ | | achilles[1-8] | ||
+ | | hector[1-8] | ||
+ | | helena[1-8] | ||
+ | | paris[1-8] | ||
+ | |||
+ | ==== MS = Malá Strana (ms-all.q) ==== | ||
+ | |||
+ | ^ Name ^ CPU type ^ GHz ^cores ^RAM(GB)^ note ^ | ||
+ | | andromeda[1-13] | ||
+ | | hydra[1-4] | ||
+ | | fireball[1-10] | ||
+ | | hyperion[1-9] | ||
+ | | lucifer[1-10] | ||
+ | | orion[1-6] | ||
+ | | orion[7-10] | ||
+ | | tauri[1-10] | ||
+ | | cosmos | ||
+ | | belzebub | ||
+ | | iridium | ||
+ | | twister[1, | ||
+ | |||
+ | === Outside LRC cluster (but located as MS) === | ||
+ | ^ Name ^ CPU type ^ GHz ^cores ^ RAM(GB)^ note ^ | ||
+ | | lrc[1, | ||
+ | | pandora[1-10] | ||
+ | | sol[1-5] | ||
+ | | sol[6-8] | ||
+ | |||
+ | The two **lrc machines** are so called heads of the cluster. **No computation is allowed here**, i.e. no CPU-intensive, | ||
+ | |||
+ | Alternatively, | ||
+ | |||
+ | The **pandora machines** are in a special cluster (not accessible from lrc) and queue **ms-guests.q** available for our colleagues from KSVI and for students of [[http:// | ||
+ | |||
+ | fronty výpočtů, které se odesílají na výpočetní stroje v clusteru. Na hlavě se nemají pouštět žádné náročné výpočty a naopak na ostatní stroje v clusteru se mají výpočty odesílat výhradně prostřednictvím hlavy. Hlava má 2 procesory Intel Pentium D 3 GHz a 1 GB paměti. Ve skutečnosti existují hlavy dvě - lrc1 a lrc2, které sdílí IP adresu lrc.ufal.hide.ms.mff.cuni.cz. V případě výpadku jedné z hlav, přebírá kontrolu ta druhá. | ||
Frontovací systém umožňuje: | Frontovací systém umožňuje: | ||
Line 24: | Line 62: | ||
< | < | ||
- | ssh lrc | + | ssh lrc2 |
# přihlašte se na hlavu clusteru | # přihlašte se na hlavu clusteru | ||
echo " | echo " | ||
Line 37: | Line 75: | ||
# Pořadí parametrů **je** důležité, | # Pořadí parametrů **je** důležité, | ||
qstat | qstat | ||
- | | + | qstat -u ' |
+ | | ||
# SGE chvíli čeká, než skript opravdu spustí. Pro malinké úlohy tedy SGE může představovat | # SGE chvíli čeká, než skript opravdu spustí. Pro malinké úlohy tedy SGE může představovat | ||
# zbytečné zpoždění. | # zbytečné zpoždění. | ||
+ | # -u ' | ||
cat skript.sh.oXXXXX | cat skript.sh.oXXXXX | ||
# vypište si výstup skriptu. XXXXX je ID jobu, které bylo přiděleno | # vypište si výstup skriptu. XXXXX je ID jobu, které bylo přiděleno | ||
Line 61: | Line 101: | ||
qsub -S /bin/bash | qsub -S /bin/bash | ||
# když chcete, aby skript běžel v bashi | # když chcete, aby skript běžel v bashi | ||
- | qdel all | + | qsub -V |
+ | # když chcete předat proměnné prostředí | ||
+ | qdel \* | ||
# když chcete zrušit všechny své joby (rušit cizí nesmíte) | # když chcete zrušit všechny své joby (rušit cizí nesmíte) | ||
</ | </ | ||
+ | |||
+ | |||
Line 72: | Line 116: | ||
* Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) | * Nespouštět úlohy ručně. (O ručně spuštěných úlohách SGE nemá informaci, klidně na daný uzel pošle ještě další úlohy z fronty.) | ||
+ | * Interaktivní shell se dá získat příkazem '' | ||
Další doporučení: | Další doporučení: | ||
Line 78: | Line 123: | ||
* Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. | * Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí. | ||
* Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. | * Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data. | ||
+ | * Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť (a používat " | ||
+ | |||
Víc pravidel není. | Víc pravidel není. | ||
+ | ===== Slušné chování ===== | ||
+ | |||
+ | Pokud chci spouštět úlohy, které poběží dlouhou dobu (hodiny, dny), nepustím je všechny najednou, aby cluster mohli využívat i ostatní. | ||
===== Triky a opentlení ===== | ===== Triky a opentlení ===== | ||
- | ==== ~bojar/ | + | |
+ | ==== ~bojar/ | ||
qsubmit je jako qsub, ale příjemnější: | qsubmit je jako qsub, ale příjemnější: | ||
- | * nemusíte vyrábět skript, vyrobí ho sám | + | * nemusíte vyrábět skript, vyrobí ho sám (pozn.: nemusíte vyrábět skript, když použijete přepínač '' |
* nemusíte připisovat '' | * nemusíte připisovat '' | ||
- | |||
< | < | ||
- | ~bojar/ | + | ~bojar/ |
</ | </ | ||
+ | lépe funguje '' | ||
+ | |||
+ | ===== Monitorování úloh ===== | ||
+ | |||
+ | * '' | ||
+ | * '' | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * ''/ | ||
+ | * mem_total: celkova pamet uzlu | ||
+ | * mem_free: tedy kolik je jeste volne pameti z pametove quoty uzlu | ||
+ | * act_mem_free: | ||
+ | * mem_used: kolik je pameti skutecne pouzito | ||
+ | * ''/ | ||
+ | * celkovy pocet jader, pocet vyuzitych jader | ||
+ | * celkova velikost RAM, kolik je ji fyzicky nepouzite, kolik je ji jeste nerezervovane | ||
+ | * po jednotlivych uzivatelich (zrovna pocitajicich) -- kolik jim bezi uloh, kolik jich maji ve fronte a kolik z nich je ve stavu hold | ||
+ | * '' | ||
+ | * [[https:// | ||
===== Časté a záludné problémy ===== | ===== Časté a záludné problémy ===== | ||
- | ==== Submitnutý job nesmí znovu submitovat ==== | ||
- | Pokud se nemýlím, není dovoleno použít '' | + | ==== Submitnutý job může znovu submitovat ==== |
+ | |||
+ | Danovy starší zkušenosti s clusterem PBS (nikoli SGE) říkaly, že tohle nejde. Ale jde to, aspoň u nás. Příkazy | ||
+ | |||
==== Proměnné prostředí, | ==== Proměnné prostředí, | ||
Line 108: | Line 180: | ||
Zatím nevím přesně, které ze souborů '' | Zatím nevím přesně, které ze souborů '' | ||
+ | |||
+ | Z toho například také vyplývá, že bez ošetření se jako **Java** používá | ||
+ | |||
+ | java version " | ||
+ | gij (GNU libgcj) version 4.1.2 20070502 (Red Hat 4.1.2-12) | ||
+ | |||
+ | Pokud chcete submittovaný program pouštět ve svém oblíbeném prostředí (např. nastavení '' | ||
==== Jiný shell ==== | ==== Jiný shell ==== | ||
Line 152: | Line 231: | ||
fi | fi | ||
</ | </ | ||
+ | |||
+ | ==== Jak zjistit, jaké zdroje jsem pro svou úlohu požadoval ==== | ||
+ | |||
+ | < | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | hard resource_list: | ||
+ | |||
+ | ==== Jak rezervovat více jader na stejném stroji pro 1 job ==== | ||
+ | |||
+ | < | ||
+ | qsub -pe smp <pocet jader> | ||
+ | </ | ||
+ |