Datenmanagement – Lästige Pflicht oder lohnenswerte Investition?
Datenmanagement erfreut sich keiner großen Beliebtheit, obwohl sich die meisten Unternehmen bewusst sind, dass dieses Zukunftsthema vor dem Hintergrund einer steigenden Datenflut unerlässlich ist.
In der Praxis zeigt sich, dass trotzdem die wenigsten Unternehmen die Möglichkeiten eines (automatisierten) Datenmanagements in vollem Umfang nutzen. Oft mangelt es an Ressourcen und einer ausreichenden technischen Lösung.
Spätestens, wenn die Hana-Migration zu teuer gerät, da die Datenbank zu groß ist, wird eine Datenbereinigung unerlässlich, bevor die Migration stattfinden kann.
Gründe für das Datenwachstum
Es gibt unterschiedliche Gründe, die in den letzten Jahren zu immer größerem Datenwachstum geführt haben, etwa die Zunahme von Geschäftstransaktionen und neue digitale Geschäftsprozesse sowie rechtliche Regelungen, die eine Archivierung über längere Zeiträume vorschreiben.
Dazu zählen die Regelungen des Sarbanes-Oxley Act für börsennotierte Unternehmen und Bestimmungen von Basel III für Finanzinstitute. In den USA bestehen die Richtlinien der Securities and Exchange Commission (SEC) für die Kontrolle des Wertpapierhandels und in der EU die Data Retention Directive.
Als weitere Schlagworte seien hier FDA im Pharma- und Ernährungssektor, HIPAA im Gesundheitsbereich sowie GDPdU (DE), ElDI-V (CH), BAO (AT) und FRCP angeführt.
Vom Wert der Daten…
Je mehr das Datenvolumen in einem System wächst, desto geringer fällt der Prozentsatz an aktiv genutzten, wertvollen Daten aus. Gerade ältere, historische (kalte) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten.
Kalte Daten werden jedoch weiterhin in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Im Durchschnitt sind nur 7 bis 15 Prozent der Daten einer Datenbank produktiv genutzte und berichtsfertige Daten.
Der Rest sind Stammdaten, temporäre Daten, historische Daten (älter als zwei Jahre). Insbesondere SAP-BW-Systeme häufen Daten an, die ein proaktives, ausgeklügeltes Datenmanagement notwendig machen.
Im Durchschnitt sind 20 bis 30 Prozent der SAP-Datenbanken mit temporären Daten belegt. Diese werden bei jeder SAP-Transaktion und Interaktion erzeugt und verlieren ihren Wert sehr schnell nach der Generierung.
Häufig finden sich temporäre Daten in den Bereichen Logs (Application Logs, Change Logs), Staging (PSA & Change Logs), Communication Protocols (IDOCS, RFC, logs) und Administration Data (Requests)
…und deren Kosten
War es bisher noch der einfachere und gefühlt kostengünstigere Weg, neuen Speicherplatz zu kaufen, sobald es eng wurde, da dieser recht günstig zu haben war, so hat sich das in den letzten Jahren geändert.
Das liegt unter anderem daran, dass es mit ein bisschen Speicherplatz nicht getan ist: Wenig oder gar nicht genutzte Daten durchlaufen dieselben Prozesse und verursachen die gleichen Kosten wie produktive Daten. So wird jedes GB Daten aus einem Produktivsystem innerhalb der Systemlandschaft 7-mal repliziert.
Bei unseren Kunden verzeichnen wir ein durchschnittliches Datenwachstum von 32,5 Prozent im Jahr. Die Größe eines Systems vervierfacht sich schon bei 25 Prozent jährlichem Datenwachstum innerhalb von nur fünf Jahren, wenn keine Datenbereinigung erfolgt.
Im Gegenzug lassen sich im Beispielsystem mit einer anfänglichen Größe von 774 GB in fünf Jahren 3,6 TB einsparen, sofern die richtigen Maßnahmen für ein intelligentes Datenmanagement umgesetzt wurden.
Nicht nur bezüglich des benötigten Speicherplatzes verursacht eine aufgeblähte Datenbank unnötige Kosten. Auch für Wartung, Lizenzen, Backup oder Storage fallen höhere Kosten an.
Wir sehen heute beispielsweise deutliche Varianzen bei den Kosten für SAP Hana, zwischen 50.000 und 150.000 Euro, je nach Kunde und Setup. Cloud, Hosting, Tailored Data Center Integration, Appliance, HA/DR – alles hat Einfluss auf die Kosten, die Performance und die Skalierbarkeit.
Datenmüll beeinträchtigt Systeme
Ist das System mit Datenmüll verschmutzt, verschlechtert sich oft auch die System-Performance. Gerade bei der Navigation durch die Haupttransaktionen und beim Reporting kann sich das unangenehm bemerkbar machen.
Auch hier kostet der Datenballast Zeit und Geld. Zeit, die bei der Datenbereinigung fehlt, was zu weiterem Datenmüll führt – ein Teufelskreis.
Entgegen der Annahme, dass mangelndes Datenmanagement für den Endkunden keine Rolle spielt, leidet oft auch die Konsistenz der Daten darunter, wie das Beispiel unseres Kunden zeigt.
Die IT-Abteilung des Klinik- und Pflegebettenproduzenten Stiegelmeyer bekam von den Vertriebsmitarbeitern die Rückmeldung, dass das System aufgrund von Duplikaten in den Stammdaten unübersichtlich sei und der richtige Kunde nicht auf Anhieb gefunden werden konnte. Zusätzlich brach die Systemperformance zeitweise ein.
Grund dafür war eine gewachsene Systemlandschaft mit vielen Eigenentwicklungen. Wir ermittelten mit einem Systemscan die Schwachstellen und Optimierungsmöglichkeiten. Beispielsweise wurden 700 Eigenentwicklungen nicht genutzt und konnten stillgelegt werden. Auch in der Datenarchivierung schlummerte Optimierungspotenzial: 85 Prozent des Datenbestandes waren überflüssig und konnten archiviert werden.
Wie bleibt die Datenbank schlank?
Wir sehen fünf Ansatzpunkte, um Datenbanken schlank und effektiv zu halten:
1. Datenerzeugung vermeiden – oder Rohdaten nur in einem zentralen Data Lake halten. Je weniger ungenutzte Daten im SAP-System gespeichert werden, desto performanter ist das System und desto optimierter kann der Betrieb geregelt werden.
2. Nicht genutzte Daten, Anwendungen, Berichte löschen und stilllegen: Was nicht benötigt wird, sollte gelöscht werden.
3. Automatisiertes Housekeeping: Schlanke SAP-Systeme ohne Personalaufwand? Regelbasiert und mit Best Practices ausgestattet, kann eine Lösung für automatisiertes Housekeeping bis zu 35 Prozent des Datenbankinhaltes löschen, ohne dass Business-Wissen verloren geht.
4. Warme und kalte Daten in ein skalierendes und günstigeres Medium auslagern: Verschiedene Konzepte und Ansätze für Big Data können dank moderner Technologien wie Hadoop vereint werden. Beispielsweise indem Dokumente und Dateien von SAP nach Hadoop ausgelagert werden. Auch transaktionale und analytische Daten lassen sich outsourcen. Dank zertifizierter Schnittstellen kann weiterhin auf die Daten zugegriffen werden, auch wenn diese nicht in der Primärdatenbank gespeichert sind.
5. Selektives Kopieren nutzen: Test- und Validierungssysteme benötigen nicht alle Daten aus einem Produktivsystem.
Durch selektives Kopieren von prozessvalidierten Daten aus einem Produktivsystem zu einem Testsystem werden nicht produktive Systeme schlanker. Das beschleunigt die Kopierprozesse, die dadurch öfter wiederholt werden und so Hardware und Personalaufwand reduzieren.
Einsparungen im Datenmanagement
Üblicherweise lassen sich mit einem effizienten Datenmanagement 30 bis 50 Prozent der Systemgröße einsparen und die Wachstumsrate der Daten um 60 Prozent verringern.
An erster Stelle steht dabei eine optimale Datenklassifizierung, um zu entscheiden, ob und wie diese am besten aufbewahrt werden: Heiße Daten (hot data) müssen schnell verfügbar sein, sie werden im Hauptspeicher vorgehalten und, beispielsweise bei einer Migration nach SAP Hana, direkt migriert.
Warme Daten (warm data) können in eine andere (sekundäre) Datenbank ausgelagert werden, mit angemessener Performance, aber geringeren Kosten. Kalte Daten (cold data) werden möglichst kostengünstig gespeichert beziehungsweise archiviert oder gelöscht.
Typischerweise wird die Klassifizierung der Daten heute von Nutzungsstatistiken und Wertigkeitsanalysen unterstützt, die dem Data Steward in seiner Aufgabe als Information Lifecycle Manager zur Seite stehen.
Neben der Erstellung eines Data Catalog, der beschreibt, wo welche Daten in welchem Format und welcher Wichtigkeit gespeichert werden, beschäftigt sich ein Data Steward mit der Identifizierung und Bereitstellung von Daten, der Erstellung und Pflege von Referenzdaten sowie der konsistenten Qualität von Stammdaten.
Mithilfe eines effizienten automatisierten Datenmanagements konnte die KION-Group 30 Prozent an Datenballast entfernen und so die Systemperformance um durchschnittlich 25 Prozent steigern.
Microsoft Azure bietet mit SAP on Azure und verschiedensten Datenbank- und Storage-Optionen Enterprise-fähige Lösungen in der Cloud an. Auch sehr große Systeme lassen sich durch die Skalierbarkeit von SAP Hana, Hadoop und SQL-Servern effektiv betreiben. Immer beliebter werden hybride Szenarien mit einem Sekundärspeicher in der Cloud und der Primärdatenbank on premise, um den Ausbau der Cloudstrategie zu forcieren.
Fazit
Ein intelligentes Datenmanagement ist unabdingbar, um das Datenwachstum einzudämmen, eine dauerhaft gute Systemperformance zu gewährleisten und Kosten einzusparen. Es lohnt sich, die vorhandenen Hindernisse zu überwinden.
Ein zentralisiertes ILM ist der Schlüssel zu mehr Transparenz, weniger Aufwand und einer zuverlässigen Durchführung aller notwendigen Aufgaben. Daneben sind organisatorische Ansätze wie die Installation von Data Stewards und Data Catalogs wichtiger Bausteine.
Neue Technologien bestmöglich verknüpft und mit analytischen Tools versehen, bilden die Grundlage für ein modernes Data/Information Lifecycle Management.
Ein effektives Datenmanagement wird in Zeiten von schneller wachsenden Datenseen ein wichtiger Wettbewerbsfaktor für Unternehmen, damit sie die Möglichkeiten und Mehrwerte der zur Verfügung stehenden Daten bestmöglich nutzen können.
Kriterien für effektives Datenmanagement
Wert der Daten bemessen: Mithilfe von Analyse-Tools müssen die Daten richtig klassifiziert werden, um ihren Wert exakt zu erkennen. Hier helfen heute moderne Ansätze wie Machine Learning.
- Die Möglichkeit, die Daten ihrem Wert entsprechend automatisiert zu behandeln, abzuspeichern, zu archivieren, zu löschen
- Dadurch den Wert der Daten in Einklang mit den direkten und indirekten Kosten bringen
- Regelmäßige Durchführung unter Berücksichtigung neuer Objekte
- Vereinfachung des Datenmanagements durch Automatisierung
- Transparenz durch zentrale und systemübergreifende Dokumentation, Regeln, Terminierung und Monitoring
- Sicherheit durch ressourcenschonende Terminierung und Alternativen zum radikalen Behalten oder Löschen
Positive Effekte eines cleveren ILM
- Direkte und indirekte Kostenersparnis durch Reduktion der Systemgröße und Verlangsamung des Datenwachstums
- Erhöhte Performance
- Vereinfachung der Systemadministration und Beschleunigung aufwändiger Arbeiten wie Backup und Recovery, Systemkopien und Upgrades
- Direkte und indirekte Kostenersparnis beim Betrieb des Business Warehouse Accelerator Hana