Stromausfall -> Größere Störung (Behoben)

Aufgrund eines ungeplanten Stromausfalls von ca. einer Stunde und eines Problems mit der Notstromversorgung des Serverraumes kam es am Abend des 15.6. zu einem Totalausfall aller Systeme im Serverraum des RRZE in der Martenstraße.

Die Verfügbarkeit aller Dienste konnte daher am Wochenende leider nicht sichergestellt werden.

Chronologie der Ereignisse:

  • 19:26 Stromausfall in Erlangen Sued-Ost und Tennenlohe. Ursache war laut ESTW eine defekte Isolation an einer 20 kV Leitung.
  • 19:27 Der Dieselgenerator fuer das Suedgelaende, der u.a. das RRZE versorgen sollte, schafft es nicht die Notstromversorgung zu uebernehmen
  • 19:42 Die Akkus der RRZE-USV sind leer – Stromausfall und damit Totalausfall aller Systeme im Serverraum
  • 20:22 Erlangen Sued hat wieder Strom, auf dem Uni Suedgelaende ist noch manuelle Nacharbeit noetig um die Stromversorgung wiederherzustellen.
  • 21:00 Strom im Serverraum ist teilweise wieder da. Es dauert (z.B. aufgrund ausgeloester Unterspannungsschutzschalter) bis etwa 21:30 bis alle Systeme wieder mit Strom versorgt werden.
  • 21:05 Erste Teile des Netzes funktionieren wieder

Status of the HPC systems: all systems and services are up and running again

  • all filesystems except /wsfs = $FASTTMP on Woody should be available again
  • filesystem /wsfs = $FASTTMP on Woody: available on the Woody frontends since 2012-06.16, 20:00 (via TCP only, i.e. not via Infiniband)
  • cshpc: up and running again
  • memoryhog: up and running again
  • Transtec cluster: sfront03/sfront04 are available again; batch processing on the Opteron nodes (snode2xx) has been resumed on 2012-06-16, 19:00. Batch processing on the Townsend nodes (snode3xx) has been resumed on 2012.06-18, 17:30 after hardware problems of the Infiniband fabric have been resolved
  • Woodcrest cluster: woody* frontends are available; batch processing has been resumed on 2012-06-17, 21:00 after hardware problems with the Infiniband switch have been solved
  • LiMa cluster: up and running again; lima1/lima2 frontends are available; batch processing has been resumed on 2012-06-16, 16:30
  • Tiny*: up and running again; batch processing hs been resumed on 2012-06-16, 16:30
  • Windows cluster: up and running again since at least 2012-06-16, 23:30; „aycasamba“ became available of 2012-06-18 at 13:30

Status OpenVPN (22.06.2012)

  • Der Dienst läuft seit gestern wieder stabil auf neuer Hardware