Differences

This shows you the differences between two versions of the page.

--- grid [2008/03/26 13:27]
zeman Příklad volání qsub.csh.
+++ grid [2008/10/29 11:31]
bojar ukazka volani a lepsi
@@ Line 4: / Line 4: @@
   * lrc.ufal.hide.ms.mff.cuni.cz: hlava clusteru. To znamená, že neslouží k výpočtům, ale ke správě fronty výpočtů, které se odesílají na výpočetní stroje v clusteru. Na hlavě se nemají pouštět žádné náročné výpočty a naopak na ostatní stroje v clusteru se mají výpočty odesílat výhradně prostřednictvím hlavy. Hlava má 2 procesory Intel Pentium D 3 GHz a 1 GB paměti.
-  * fireball1 až 10 (na každém 4 procesory Intel Xeon 3 GHz, 16 GB paměti, Fedora 7)
+  * fireball1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory Intel Xeon 3 GHz)
-  * tauri1 až 10 (na každém 4 procesory Intel Xeon 3 GHz, 16 GB paměti, Fedora 7)
+  * tauri1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory Intel Xeon 3 GHz)
-  * orion1 až 10 (na každém 4 procesory Intel Xeon 2 GHz, 16 GB paměti, 12.9.2007 naplánovaná odstávka na reinstalaci)
+  * orion1 až 10 (4xcore, 16 GB RAM, Fedora 7, 2 procesory Intel Xeon 2 GHz)
-  * sol1 až 10 (na každém 4 procesory AMD Opteron Dual Core 2 GHz, 16 GB paměti, 12.9.2007 naplánovaná odstávka na reinstalaci)
+  * sol1 až 13 (4xcore, 16 GB RAM, Fedora 7, 2 procesory AMD Opteron Dual Core 2 GHz)
 Frontovací systém umožňuje:
@@ Line 18: / Line 18: @@
 Jednou za život musíte provést [[Základní nastavení SGE]], abyste SGE mohli používat.
@@ Line 62: / Line 63: @@
 qsub -S /bin/bash
   # když chcete, aby skript běžel v bashi
+qsub -V
+  # když chcete předat proměnné prostředí
 qdel all
   # když chcete zrušit všechny své joby (rušit cizí nesmíte)
@@ Line 68: / Line 71: @@
 ** V.N.: "qdel all" mi nefunguje, nahradil jsem za:**
    qdel "*"
@@ Line 82: / Line 87: @@
   * Uklízet po sobě lokální data, protože jinak si tam už nikdo nic užitečného nepustí.
   * Vyhnout se hodně divokému paralelnímu přístupu ke sdíleným diskům. NFS server to pak nepěkně zpomalí pro všechny. Distribuujte tedy i data.
+  * Informovat SGE, kolik paměti úloha žere, aby na strojích nedošla paměť: <code>qsub -l mf=10g …</code>
 Víc pravidel není.
+===== Slušné chování =====
+Pokud chci spouštět úlohy, které poběží dlouhou dobu (hodiny, dny), nepustím je všechny najednou, aby cluster mohli využívat i ostatní.
 ===== Triky a opentlení =====
@@ Line 98: / Line 108: @@
 ~bojar/tools/shell/qsubmit "bashovy_prikaz < prismeruj > presmeruj 2> atd..."
 </code>
@@ Line 117: / Line 128: @@
 (Kdybych místo uvozovek použil apostrofy, nerozbalily by se mi proměnné. První argument (název skriptu) klidně mohl být v uvozovkách spolu s přesměrováním. Dal jsem ho ven jen proto, že potom ''qsub.csh'' podle něj pojmenuje job ve frontě.)
+==== TectoMT: devel/tools/cluster_utils/qrunblocks ====
+Jako ''$BRUNBLOCKS'', ale spouští úlohy na gridu (bez pomoci [[internal:jtred]]u).
+   qrunblocks filelist blocks
+Skript zadanou hromádku souboru rozdělí do ''-''''-jobs'' jobů. Každý job na gridu pak projede své soubory danou sekvencí bloků.
+Soubory možno zadat filelistem, nebo pomocí ''-''''-glob'' (stručně ''-g''). Bloky možno vyjmenovat v jednom argumentu, nebo načíst ze souboru pomocí ''--blocksfile SOUBOR''.
+Je nutné buď zadat ''-''''-tmt-root CESTA'', nebo mít nastaven ''$TMT_ROOT'' podle inicializace TectoMT.
+Parametr ''-E'' zpusobí, že se jobům z aktuálního prostředí procedí všechny proměnné ''TMT_PARAM_*'' (čili např. model parseru ap.). Případně je pomocí ''-e'' možné vyjmenovat některé (další) ručně.
+Parametr ''-''''-sync'' způsobí, že skript navíc bude (pasivně) čekat, až všechny joby skončí.
+Výstup každého jobu jde do vlastního logu, ''JOBNAME.o123456''. Pokud JOBNAME nezadáte (parametr ''-N''), užije se defaultní ''qrunblocks''.
+Zatím není na závěr nijak testováno, jestli se všechny analýzy povedly. Jediné, o co se snažím, je, aby na konci každého logu bylo napsáno ''Status: FAILED'', pokud se analýza toho kusu nepovedla.
+Určitě je tam ještě spousta nevychytaných much, zejm. s různým escapováním různých věcí... Do budoucna plánuju přidat nejenom hromadný test úspěchu, ale taky sebrání STDOUT všech kousků.
 ===== Časté a záludné problémy =====
@@ Line 182: / Line 219: @@
 fi
 </code>
+===== Synchronizace úloh (v Perlu) =====
+Pokud chci paralelizovat část úlohy (zde ''muj_skript.pl''), obvykle potřebuju po provedení paralelní části posbírat výsledky a hlavně počkat na dokončení všech paralelních větví. Jak na to jednoduše:
+  * Obalím svůj skript pro běh na gridu – vytvořím ''obaleno.sh'':
+    <code>
+#!/bin/bash
+. /net/projects/SGE/user/sge_profile >/dev/null
+qrsh -cwd -V -p -50 -l mf=5g -now no 'renice 10 $$ >/dev/null; ./muj_skript.pl $@'
+</code>
+  * Ve svém hlavním skriptu ho pak zavolám a posbírám výsledky:
+    <code>
+use FileHandle;
+use IPC::Open2;
+use threads;
+use threads::shared;
+my @threads;
+my @results;
+share(@results);
+for (@inputs)   {
+    my $t = async {
+        my $reader; my $writer;
+        my $pid = open2($reader, $writer, "./obaleno.sh " . $parametry); # Pustime ulohu na gridu
+        die "Failed to open bipipe" if !$pid;
+        $writer->autoflush(1); # Muzem zavolat, ale v gridu NEFUNGUJE!!!
+        print $writer "$_\n" or die; # Poslem uloze v gridu vstup
+        $writer->close(); # Dulezite, viz o 2 radky vyse
+        for (<$reader>)    { # Posbirame vysledky
+            chomp;
+            {
+               lock @results;
+               push @results, $_;
+            }
+        }
+        waitpid $pid, 0; # Pockame s ukoncenim vlakna na ukonceni ulohy v gridu
+        return $? >> 8; # Pokusime se ziskat navratovou hodnotu (netestoval jsem)
+    };
+    push @threads, $t;
+}
+for (@threads)  { # Pockame, az to vsichni dodelaji
+    die "Child exited with non-zero exit code" if $_->join();
+}
+</code>
+Poznámky:
+  * Pokud lze všechno předat parametry, nemusí se otevírat obousměrná roura a situace bude jednodušší
+  * Pokud ''muj_skript.pl'' začne psát na výstup dřív, než přečetl všechen vstup, dojde k deadlocku. Lze vyřešit obalením příkazy ''cat'' v ''obaleno.sh''.
+  * Celý příklad je k vidění v Czengu od V.N.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences