Webanwendung zum jobspezifischen Performance-Monitoring: Eine Erfolgsgeschichte: — keine Ressourcen-verschwendung, gezielte Optimierung

Unter jobspezifischem Performance-Monitoring versteht man die kontinuierliche Messung von Performance-Metriken auf Knotenebene und deren Verbindung mit Job-Metadaten sowie deren geeignete Präsentation. Der Nutzer erhält dadurch Feedback darüber, wie gut oder schlecht seine Jobs die verfügbaren Hardwareressourcen ausnutzen. Die HPC-Gruppe kann mit den Daten zum einen pathologische Jobs, die Ressourcen verschwenden, frühzeitig erkennen, und zum anderen gezielt Nutzer identifizieren, bei denen ein großes Optimierungspotential besteht. Gerade bei pathologischen Jobs ist das Problem oft nicht in der Applikation selber begründet, sondern im Jobskript oder der falschen Auswahl und Nutzung von Ressourcen. Ein weiterer Vorteil von jobspezifischem Performance-Monitoring besteht in der statistischen Auswertung, die zum Beispiel als Grundlage für die Hardwareauswahl bei Neubeschaffungen dienen kann. Bereits seit 2012 betreibt das RRZE eine solche selbstimplementierte Monitoring-Infrastruktur und war damit ein echter Trendsetter. Diese Webschnittstelle steht jedem HPC-Kunden des RRZE zur Verfügung. Monitoring-Daten sind für etwa vier Wochen verfügbar; die nötigen Zugangsdaten werden dem Nutzer am Job-Ende mitgeteilt.

ClusterCockpit bietet in einer übersichtlichen Weboberfläche Zugriff auf jobspezifische Performancedaten

Heute ist jobspezifisches Performance-Monitoring in aller Munde und Gegenstand vieler Forschungsprojekte. Unter der Haube werden häufig die von der HPC-Gruppe entwickelten LIKWID-Werkzeuge verwendet, daher war es naheliegend mit ClusterCockpit das Werkzeugportfolio um eine webbasierte Monitoring-Komponente zu erweitern. Im Prinzip handelt es sich um eine erweiterte Neu-Implementierung des bestehenden Monitoring-Systems. Die neue Webschnittstelle ermöglicht jedem Nutzer gerade laufende und auch beendete Jobs einzusehen. Für die Zukunft sind Automatismen geplant, die Kunden und HPC-Administratoren bei pathologischem Verhalten der Applikation benachrichtigen. ClusterCockpit ist noch in der Entwicklung und befindet sich momentan im Testbetrieb. Trotzdem haben schon jetzt viele nationale und internationale Rechenzentren Interesse an der Nutzung bekundet. (BI95, JE)

Weitere Informationen

Webschnittstelle zur Performanceüberwachung
www.hpc.rrze.fau.de/HPC-Status/job-info.php

ClusterCockpit
github.com/ClusterCockpit/ClusterCockpit

ClusterCockpit im Testbetrieb
hpc-monitoring.rrze.uni-erlangen.de/