Abschaltung des HPC-Clusters LiMa nach über acht Jahren Betrieb

Nach über acht Jahren Dienst für die Wissenschaft wurde am 18. Dezember 2018 das HPC-Cluster LiMa abgeschaltet.

Bild: LiMa-Cluster am RRZE
LiMa-Cluster am RRZE

Als das von NEC gelieferte System im Herbst 2010 in Betrieb ging, war die Erlanger „Little Machine“ (LiMa) das schnellste bayerische HPC-System. Es war damit fast zwei Jahre vor dem SuperMUC des LRZ aktiv, dessen Phase 1 zum Jahresende 2018 das gleiche Schicksal wie LiMa ereilte und abgeschaltet wurde.

Im November 2010 schafften es die 500 Rechenknoten von LiMa in der Top500-Liste mit 64 TFlop/s Peak und 56.7 TFlop/s LINPACK-Leistung auf Platz 130. An diese gute Platzierung kamen die neueren HPC-Systemen am RRZE zum Zeitpunkt ihrer Inbetriebnahme („Emmy“ im Jahr 2013 mit 234 bzw. 191 TFlop/s sowie „Meggie“ im Jahr 2016 mit 511 bzw. 481 TFlop/s) nicht mehr heran.

Einen gewaltigen Einschnitt stellte der Sommer 2014 dar: Bei nächtlichen, ungeplanten Arbeiten an der Kaltwasserversorgung wurde LiMa massiv in Mitleidenschaft gezogen. In den geschlossenen Racks wurde es so warm, dass sich sogar die Plastikteile der Luftführungen plastisch verformten.

Als Folge der Überhitzung begannen die Rechenknoten stetig zu „sterben“. Glücklicherweise lösten die in Folge immer wieder „abrauchenden“ Netzteile die Brandmeldeanlage nie aus, sodass die universitätsweiten Dienste auch weiterhin verlässlich liefen. Dennoch bedeutete dieser Vorfall einen gewaltigen Dämpfer für das System.

Bild: Luftführung eines LiMa-Rechenknotens
Plastisch deformierte Luftführung eines LiMa-Rechenknotens

Bild: Abgebranntes Netzteil eines LiMa-Rechenknotens
Abgebranntes Netzteil eines LiMa-Rechenknotens


Zum Abschaltzeitpunkt am 18. Dezember 2018 waren weniger als 200 von einstmals 500 Rechenknoten einsatzbereit. Die verbliebene Rechenleistung entsprach damit nicht einmal mehr der von 100 aktuellen PCs, wenn man deren SIMD-Eigenschaften ausnutzt.

Bild: Auslastungsgrafik
Zahl der verfügbaren SMT-Threads (2x die Core-Zahl) und Auslastung des Systems im Zeitraum von 2012 bis 2018

Da so kein wirtschaftlicher Betrieb mehr möglich war, wurde das System nun in den Ruhestand geschickt. Hierdurch können täglich mehrere hundert Euro Stromkosten (pro Monat summiert mehr als 20.000 Euro) gespart werden. Für die vielen bis zuletzt treuen Nutzer von LiMa ist die Abschaltung dennoch sehr schade, schließlich wurden die noch knapp über 2000 Rechenkerne mit mehr als konkurrenzfähiger Taktfrequenz rege genutzt. Außerdem ist absehbar, dass nun die Wartezeiten auf den sonstigen HPC-Clustern steigen werden, um den enormen wissenschaftlichen Rechenbedarf an Bayerns zweitgrößter Universität auch in Zukunft decken zu können.

Bild: Leistungsaufnahme
Leistungsaufnahme der drei großen HPC-Cluster am RRZE (rot: Meggie, 728 Knoten; grün: Emmy, 559 Knoten; blau: LiMa, 190 Knoten) im Zeitraum vom 12. bis 18.12.2018

Erfreulicherweise wurde Ende November 2018 von der Universitätsleitung grünes Licht für einen DFG-Forschungsgroßgeräteantrag auf neue Hardware gegeben. Aus diesem Grund ist das Rechenzentrum aktuell mit der Bedarfserhebung unter den HPC-Nutzern beschäftigt und versucht hierbei, die zahlreichen unterschiedlichen Wünsche mit den Bedarfswert-Erfahrungen aus der Vergangenheit sowie dem angepeilten Finanzrahmen in Einklang zu bringen. Die Beschaffung eines neuen, zukunfts- und leistungsfähigen HPC-Systems wird sich bei zügiger Antragsgenehmigung danach bis mindestens Ende 2020 hinziehen.

Kontakt
HPC-Team des RRZE
Regionales Rechenzentrum Erlangen (RRZE)
support-hpc@fau.de