„Und plötzlich gibt es kein Backup mehr“

Ein Blick in die verborgene Welt der Zentralen Systeme des Regionalen Rechenzentrums Erlangen.

Wenn in der IT alles funktioniert, merkt es keiner. Erst wenn etwas ausfällt – die Daten weg sind, die Software veraltet oder niemand mehr auf sein System kommt, wird klar, wer im Hintergrund für den reibungslosen Betrieb vieler Server sorgt: die Abteilung Zentrale Systeme des Regionalen Rechenzentrums Erlangen (RRZE). Doch was passiert, wenn dieses Team plötzlich nicht mehr arbeitet?

Ein Job zwischen Betriebssystemen, Backups und virtuellen Welten

Die Abteilung Zentrale Systeme ist keine klassische Support-Abteilung. Ihr Spielfeld ist komplex: Windows, Linux und macOS, Backups für die gesamte FAU, die Sync’n’Share-Lösung FAUbox – und zwei große Virtualisierungsumgebungen: Eine basiert auf VMware, in der virtuelle Maschinen betrieben werden, die andere, ein OpenStack-Cluster, erlaubt es Nutzern sogar, sich ihre eigene Testumgebung per Klick zusammenzustellen. Was für Außenstehende wie Fachchinesisch klingt, ist für das Team Alltag, und: hochgradig kritisch für den laufenden Betrieb der Universität.

Kein Backup? Kein Problem. Bis es eins wird.

Würde das Team der Zentralen Systeme plötzlich ausfallen, würde es nicht sofort auffallen. Vielleicht ein paar Tage, vielleicht sogar eine Woche lang. Doch dann beginnt es: Backup-Jobs laufen nicht mehr, weil Festplatten voll sind oder sich Prozesse aufhängen. Softwareverteilungen bleiben aus, Updates fehlen – das Sicherheitsrisiko steigt. „Je älter die Software auf einem Rechner ist, desto anfälliger wird sie für Viren oder Ransomware“, sagt Sebastian Schmitt der Abteilungsleiter. Was vorher Routine war, wird dann zum Albtraum.

Überwachen, prüfen, vorsorgen

Viele ihrer Aufgaben laufen automatisch – aber eben nicht alle. Rund um die Uhr werden alle Systeme per Monitoring (zum Beispiel mit Icinga oder CheckMK) automatisch überwacht. Besonders kritisch: die Domain-Controller, LDAP-Server, das IdM-System und natürlich das Backup.

Sofern nicht automatisch vom Monitoring gemeldet, gehen Mitarbeiter einmal die Woche, oft häufiger,  durch den Serverraum und prüfen: Sind Platten ausgefallen? Netzteile? Manches kann ein System verkraften, doch ein zweiter Ausfall kann Server lahmlegen. Genau solche Probleme behebt die Abteilung für Zentrale Systeme, bevor sie überhaupt jemand bemerkt.

Wie lange läuft ein Server ohne Wartung?

Die Antwort: schwer zu sagen. Manche Server laufen über ein Jahr ohne Neustart. Andere zeigen schon nach wenigen Tagen erste Aussetzer. Deshalb ist die Arbeit des Teams keine Event-Reaktion. Sie ist präventiv, strukturiert, leise und unverzichtbar.

Automatisieren, was nervt

Und was lässt sich automatisieren? Vieles. Denn in der IT gilt: „Alles, was du dreimal manuell gemacht hast, willst du beim vierten Mal automatisieren.“ Auch bei den Zentralen Systemen ist das so. Der Automatisierungsgrad ist hoch – nicht aus Faulheit, sondern aus Effizienz. „Der IT-ler an sich ist eigentlich faul“, sagt Schmitt augenzwinkernd. Aber genau das ist der Grund, warum vieles bei ihnen so reibungslos läuft.

Unbemerkt. Bis es zu spät ist

Die Arbeit der Zentralen Systeme bleibt meist unbemerkt. Bis etwas fehlt. Dann ist plötzlich kein Backup mehr da. Kein Login mehr möglich. Kein Zugriff mehr vorhanden.
Doch so weit kommt es selten – weil ein Team im Hintergrund täglich dafür sorgt, dass es gar nicht erst so weit kommt.

 


Text: Max Dotterweich