Valide Daten für die FAU: Keine Nachrichten sind gute Nachrichten!

Die Daten der FAU sind auf eine Vielzahl von Verfahren und Anwendungen in unterschiedlichen Repräsentationen verteilt. Das RRZE hat nun den Validierungsservice entwickelt, der die Qualität und Konsistenz dieser Daten in Hinblick auf ihre universitätsweite Nutzung überprüft und Auffälligkeiten an die Verfahrensbetreuer meldet. (BI95, KS, FrW)

Die Digitalisierung vieler Arbeitsabläufe und die Etablierung neuer Anwendungen führt in der Universität zu einer stetig wachsenden Vernetzung von Einrichtungen und Verfahren. Gerade in der Universitätsverwaltung bedeutet dies oft, dass Daten, die ursprünglich für einen bestimmten Zweck in einem System erhoben wurden, nun auch in einer Reihe anderer Systeme genutzt werden. Zum Beispiel werden Daten über die Gebäude und Räume der Universität nicht ausschließlich bei der Raum-Bedarfsanalyse und ähnlichen Anfragen an das Gebäudemanagementsystem FAMOS verwendet, sondern ebenfalls unter anderem als Standorte für Inventargegenstände, als Navigationsziele auf der FAU-eigenen Karte und als Gebäudekostenstellen in der Finanzbuchhaltung sowie der Kosten- und Leistungsrechnung herangezogen. Damit ergeben sich völlig neue Anforderungen an die Qualität und Konsistenz dieser Daten, die mitunter erst im Zusammenspiel verschiedener Systeme und Nutzungsformen zum Vorschein kommen.

Da Software-Hersteller verständlicherweise für gewöhnlich nur die Anforderungen an die Bedürfnisse der eigenen Anwendung über Plausibilitätstests abdecken, wurde ein externes Werkzeug zur Überwachung der semantischen Datenqualität benötigt. Der Validierungsservice des RRZE bietet deswegen nun eine automatisierte Lösung, sowohl Fehleingaben als auch Unstimmigkeiten in den Nutzdaten gezielt sichtbar und damit korrigierbar zu machen.

Bei Validierungen werden meist Datenflüsse von einem Quellsystem zu einem oder mehreren Zielsystemen betrachtet. Ausgangspunkt ist hierbei ein Fehler im Quellsystem oder ein Kriterium, das die Daten in einem Zielsystem erfüllen müssen. Mithilfe der Fragestellung, welche Datenkonstellation nicht auftreten darf, wird daraufhin eine Prüfung in der Fachsprache des Zielverfahrens formuliert.

Ausschnitt einer Konfiguration für Validierungen in DIP: Eine Konfiguration beschreibt ein oder mehrere Validierungsberichte für eine Datenbankverbindung.
Ausschnitt einer Konfiguration für Validierungen in DIP: Eine Konfiguration beschreibt ein oder mehrere Validierungsberichte für eine Datenbankverbindung.

Diese muss zusammen mit den Quellsystembetreibern so in eine technische Datenabfrage umformuliert werden, dass ausschließlich dagegen verstoßende Datensätze zurückgeliefert werden. Diese Datenabfrage wird solange iterativ verfeinert, bis nur noch echte Fehlerfälle im Ergebnis vorkommen. So kann es durchaus möglich sein, dass die Nutzung der Daten, wie im Zielsystem angedacht, gar nicht möglich ist. In diesem Fall muss das Problem organisatorisch anders gelöst werden, zum Beispiel durch zusätzliche Datenaufbereitungen oder eine strukturell andere Datenhaltung im Quellsystem.

Validierungsbericht im E-Mail-Eingang: Räume in Gebäuden der FAU, deren Schlüssel im Widerspruch zum Schlüssel des Geschosses stehen, da der Geschoss-Schlüssel mit dem Anfang des Schlüssels des Raumes übereinstimmen muss. Dieser Tippfehler wurde durch die Validierung in den gegenwärtig mehr als 37.000 Räumen gefunden und konnte sofort korrigiert werden.
Validierungsbericht im E-Mail-Eingang: Räume in Gebäuden der FAU, deren Schlüssel im Widerspruch zum Schlüssel des Geschosses stehen, da der Geschoss-Schlüssel mit dem Anfang des Schlüssels des Raumes übereinstimmen muss. Dieser Tippfehler wurde durch die Validierung in den gegenwärtig mehr als 37.000 Räumen gefunden und konnte sofort korrigiert werden.

Sind einmal diese inhaltlichen Vorbetrachtungen abgeschlossen, ist die technische Umsetzung der Validierung denkbar einfach. Die Betriebsparameter Datenbankabfrage, Empfängerkreis und Aktualisierungsfrequenz werden in einer Konfiguration an die Validierungskomponente von DIP, dem Datenintegrationsportal, übergeben und über einen Mausklick in Betrieb genommen. Ab diesem Zeitpunkt wird die Datenbankabfrage in regelmäßigem Abstand durchgeführt und bei einem Resultat eine E-Mail mit der Ergebnismenge an den Empfängerkreis versendet.

Dabei ist die Validierungskomponente in der Lage, gegenwärtig alle gängigen relationalen Datenbanken sowie die NoSQL-Datenbank MongoDB abzufragen. Auf der Datenbank wird dazu ein spezieller Nutzer angelegt, der lesenden Zugriff ausschließlich auf die in den Abfragen enthaltenen Datenstrukturen besitzt. Sollte eine Validierung eine bis dahin nicht unterstützte Datenanbindung benötigen, kann die Software in der Regel mit wenig bis moderatem Aufwand nachgerüstet werden.

Bei der Konzipierung des Validierungsservices spielte die Nutzerakzeptanz eine nicht unerhebliche Rolle — die Validierungsberichte werden deswegen zusammen mit dem datenpflegenden Personal entwickelt und ausschließlich im Falle eines Fundes versendet.

Eine Validierung von der Aufnahme der Konsistenzeigenschaft bis zum Validierungsbericht.
Eine Validierung von der Aufnahme der Konsistenzeigenschaft bis zum Validierungsbericht.

Die neue Validierungskomponente war 2018 im Testbetrieb und wurde Anfang 2019 in den Regelbetrieb überführt. Seitdem werden monatlich neue Validierungen hinzugefügt. In naher Zukunft gilt es, noch eine Reihe von bereits gesammelten Validierungen fertigzustellen und in Betrieb zu nehmen. Aber auch auf technischer Seite sind einige Erweiterungen geplant. So soll es möglich werden, die Ergebnismengen nicht nur per E-Mail, sondern auch als Webansicht und in verschiedenen Dateiformaten anschauen und weiterverarbeiten zu können. Ebenfalls ist gewünscht, dass Validierungen gezielt vom Kunden auf Knopfdruck neu berechnet werden können. Für eine Integration in das für die Verfahren etablierte Rechtemanagement müssen dazu zuerst Berechtigungsstrukturen auf Grundlage des Identity-Management-Systems (IdMS) beziehungsweise dem Dezentralen Funktionen Management (DFM) implementiert werden.

Ressourcenverfahren (RV)

Entwicklung, Integration, Verfahren