TU Berlin

HPC-ClusterJobs mit sehr langer Laufzeit

Inhalt des Dokuments

zur Navigation

Jobs mit sehr langer Laufzeit

Die maximale Laufzeit für Jobs beträgt 220 Stunden. Für einige Jobs reicht das nicht aus. Es gibt mehrere Möglichkeiten, damit umzugehen.

Am besten ist es, einen großen Job in mehrere kleine Jobs aufzuteilen, die optimalerweise unabhängig voneinander laufen können. Dies nutzt die Hardware des Clusters besser aus als ein einzelner großer Job.

Einige Software bietet auch die Möglicheit von Checkpoints. Dabei werden in regelmäßigen Abständen Zwischenstände ins Filesystem geschrieben. Später kann dann die Berechnung von einem dieser Zwischenstände aus wieder aufgenommen werden. Das ist also im Prinzip auch eine Unterteilung in mehrere kleinere Jobs, die aber nur nacheinander laufen können.

Falls das alles keine Option ist, dann bieten wir auf Anfrage den Zugang zu speziellen Queues mit längeren Maximallaufzeiten von bis zu 1344 Stunden (56 Tage) an. Dabei besteht aber immer das Risiko, dass ein Job wegen unvorhergesehener Probleme (Hardwaredefekt, Stromausfall etc.) auch nach 40 Tagen einfach abstürzen kann. Ohne Checkpoints ist dann die gesamt Berechnung verloren. Dies sollte also nur die letzte Option sein, wenn  nichts anderes geht.

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe