Ende des Datenchaos
Das Problem
Jay Kreps ist der Gründer und CEO von Confluent und einer der ursprünglichen Autoren des Open-Source-Projekts Apache Kafka. Er versucht ein Problem zu lösen, das vielen bekannt ist: Die Daten sind nicht auf dem neuesten Stand, die Verbindungen sind brüchig und es ist ein ständiger Kampf, die Daten in vollem Umfang zu nutzen, weil es keine einheitliche Struktur gibt, um die Daten zwischen den verschiedenen Bereichen eines Unternehmens zu organisieren. Ein System ist von Anfang an vorhanden und dann werden neue Verbindungen, neue Drähte, hinzugefügt, was zu einem Sammelsurium von Unordnung führt.
Viele aktuelle Angebote bieten nur Lösungen für die analytische Seite der Daten, aber nicht für die operative Seite, und umgekehrt. Unternehmen müssen jedoch in der Lage sein, auf alle ihre Daten in vollem Umfang zuzugreifen, insbesondere wenn sie die Implementierung von KI in ihrem Unternehmen planen. Jede KI, die sie entwickeln, kann nur so gut sein wie die Daten, mit denen sie trainiert wird.
Zuständigkeiten, Technologien und Prozessen
Andere haben versucht, das Chaos in den Griff zu bekommen, indem sie die Lücke zwischen dem operativen Bereich, in dem die Anwendungen zur Verwaltung des Unternehmens laufen, und dem analytischen Bereich, in dem die Daten analysiert und finanzielle Aspekte ausgewertet werden, mit anderen Mitteln, z. B. mit Data-Lake-Technologien, geschlossen haben. Der Gründer und CEO von Kafka Apache, Jay Kreps, ist jedoch durchaus ehrgeizig und versucht, das Problem der unübersichtlichen Datensysteme und -infrastrukturen zu lösen. Kreps hat ein universelles Datenprodukt als Lösung vorgeschlagen, das Daten-Streaming als Mittel einsetzt, um Unternehmen den Zugriff auf und die Filterung von Daten in Echtzeit zu ermöglichen – was nach Jay Kreps’ Definition einfach bedeutet, dass sie sehr schnell sind, und zwar sowohl im operativen als auch im analytischen Bereich, wobei niedrige Latenzzeiten der Standard sind.
Laut Confluent ist ein Datenprodukt ein zuverlässiger Datensatz, der speziell für die gemeinsame Nutzung und Wiederverwendung mit anderen Teams und Diensten entwickelt wurde. Es ist eine Formalisierung von Zuständigkeiten, Technologien und Prozessen, die es den Nutzern ermöglicht, einfach auf die benötigten Daten zuzugreifen.
Das Datenprodukt von Confluent ist eine dreiteilige End-to-End-Lösung für Daten-Streaming – ein dreifacher Angriff auf das Datenchaos –, bestehend aus der Confluent Data Streaming Platform, die die zentrale Streaming-Funktionalität bereitstellt, Apache Flink, das die Echtzeitverarbeitung ermöglicht, und Iceberg, mit dem die Ergebnisse visualisiert und in Tabellenformaten geteilt werden können. Architekturen für KI-Anwendungen, die sowohl die operative als auch die analytische Welt umfassen, erfordern Stapelverarbeitung, und Streaming ist eine Verallgemeinerung der Stapelverarbeitung, eine Obermenge davon.
Daten-Streaming-Plattform
Die Confluent Data Streaming Platform ist ein cloudnatives, serverloses Angebot, das Kora integriert, die neue Kafka-Engine für die Cloud mit unendlichem Speicher, die angeblich sechzehnmal schneller ist als das ursprüngliche Apache Kafka. Apache Kafka ist ein verteiltes System, ein PubSub-Modell, bei dem Produzenten in der Lage sind, Nachrichten – also Daten in Echtzeit – an die Daten-Streaming-Plattform zu senden, und alle nachgelagerten Konsumenten, die mit diesen Daten in einer One-to-many-Methode arbeiten wollen, können darauf zugreifen und direkt damit arbeiten. Die Confluent-Plattform baut auf Apache Kafka auf und erleichtert Daten-Streaming-Funktionen, indem sie die Notwendigkeit für Unternehmen verringert, das ursprüngliche System zu verwalten. Sie bietet zusätzliche Zugänglichkeit zu Apache Kafka, indem sie den Overhead, die Kosten und die anderen Herausforderungen der Verwaltung von Open-Source-Software eliminiert.
SAP-Integration
Ein wichtiger Teil der Entwicklung von Confluent ist die SAP-Integration. Da SAP ein Kernangebot von Confluent ist, wird die Integration direkt in die SAP-Konsole eingebaut. Confluent ermöglicht es SAP-Kunden, auf ihre SAP-Daten zuzugreifen und sie in Echtzeit mit allen verschiedenen Datenquellen zusammenzuführen, wie z. B. IoT-Daten, Daten aus Marketing-Tools, Echtzeit-Klickströmen aus dem Internet und anderen Quellen, sodass sie diese in Echtzeit als vollständiges Datenprodukt an Datenbanken, Data Warehouses, Data Lakes und KI-ML-Tools weiterleiten können.
SAP-Kunden erhalten die Möglichkeit, direkt von SAP Datasphere aus auf die Confluent-Data-Streaming-Plattform und vollständig verwaltete Datenströme zuzugreifen. Das bedeutet, dass Anwender bei der Arbeit mit Datasphere auf der BTP (Business Technology Platform), sie zusätzlich die Möglichkeit haben, ein Echtzeitschreiben dieser Daten in vollständig verwaltete Datenströme auf der Confluent-Seite zu konfigurieren. Auf diese Weise können Anwender ERP-Daten aus SAP heraus freischalten und diese Daten in nachgelagerte Bereiche verschieben, um Anwendungen und Analysen mit Echtzeitdaten zu versorgen.
Flink
Die zweite Säule des dreiteiligen Angriffs nach der Confluent-Data-Streaming-Plattform ist Apache Flink. Flink ist einen Open-Source-Stromverarbeitungsdienst bereitstellt, der wie eine Batch-Systemverarbeitung funktioniert. Confluent behauptet, dass Flink ebenso wie die Kora-Suchmaschine sechzehnmal schneller ist als Apache Kafka, was es zu einem Add-on macht, das man in Betracht ziehen sollte, wenn Geschwindigkeit eine Priorität ist. Das Produkt ermöglicht es den Nutzern, Daten ohne eine einzige Zeile Code zu verarbeiten, was die Verwaltung für Mitarbeiter mit weniger spezialisierten Kenntnissen erleichtert, obwohl es für Interessierte auch Codierungsoptionen gibt. Flink ermöglicht auch die Verarbeitung kontinuierlicher Datenströme mit niedriger Latenz und hohem Durchsatz, mit zusätzlichen Fähigkeiten wie speziellen Verarbeitungssemantiken und Unterstützung für mehrere APIs.
Iceberg
Die dritte Säule nach Flink ist Apache Iceberg. Iceberg ist ein Open-Source-Projekt und eines der offenen Standard-Tabellenformate für das gesamte Ökosystem der Analysetools, wie z. B. Snowflake. Es ermöglicht den Nutzern den Zugriff auf Tabellen aus den gespeicherten Daten im Cloud-Speicher und erlaubt eine breite gemeinsame Nutzung. Darüber hinaus gibt es eine breite Community, die das Iceberg-Format nutzt, und dieses Ökosystem wird in den kommenden Jahren weiterwachsen, was bedeutet, dass zusätzliche Optionen und Funktionalitäten für Iceberg-Nutzer verfügbar sein werden, auch von anderen Anbietern.
Zu den weiteren herausragenden Merkmalen gehören atomare Transaktionen, bei denen die Daten entweder vollständig festgeschrieben oder vollständig ausgelagert werden, um Datenbeschädigungen oder -verluste zu verhindern; die Schema-Evolution, die die Änderung von Spalten ohne Unterbrechung bestehender Daten oder Abfragen ermöglicht; und die Zeitreise, die leider keine Zeitmaschinen beinhaltet, sondern es den Benutzern ermöglicht, Daten so abzufragen, wie sie zu einem bestimmten Zeitpunkt bestanden.
Durch die Einbeziehung von Iceberg kann das Angebot ein einheitliches System bieten, das Datenströme in Kafka und gemeinsame Tabellen in Iceberg ermöglicht. Genau dieselben Daten aus der Kora-Cloud-Engine werden dann als Iceberg-Tabellen zur Verfügung gestellt. Der Datenfluss erfolgt in drei Phasen. In Phase eins fließen die in der Kora-Engine gespeicherten Daten in Iceberg. In der zweiten Phase erfolgt der Datenfluss bidirektional, d. h., die Daten werden von beiden Standorten aus verfügbar. In der dritten Phase sind dann alle Iceberg-Daten (Tabellen usw.) über Kafka verfügbar.
Governance
Bei der Arbeit mit Daten ist die Kenntnis der Data-Governance-Richtlinien eines Unternehmens natürlich von entscheidender Bedeutung. In der Confluent-Plattform wird die Governance von Anfang an als Stream implementiert. Weitere Faktoren, die bei der Governance eine Rolle spielen, sind Stream-Qualität, Stream-Katalog und Stream-Lineage. Die Stream-Qualität besteht aus Datenintegrität, Datenregeln und Verträgen; sie stellt sicher, dass für alle Daten, die die Plattform durchlaufen, Standards vorhanden sind. Der Stream-Katalog und die Stream-Lineage ermöglichen dem Benutzer eine visuelle Darstellung der Datenbewegungen und der Veränderungen, die sie entlang ihrer Flugbahn erfahren haben. Die integrierte und vollständige Governance-Suite ist Teil des Datenprodukts und stellt eine weitere Möglichkeit dar, das Problem des Datenchaos zu lösen, indem die Arbeitslast des Sicherheitsteams verringert wird.
Ende des Datenchaos
Für SAP-Anwender, die mit dem Datenchaos in Datasphere auf der BTP (Business Technology Platform) zu kämpfen haben, könnte die umfassende dreiteilige Daten-Streaming-Lösung genau der Lichtblick sein, den sie suchen. Die Benutzer könnten nicht nur ihre Daten rationalisieren, sondern auch die mit der Verwaltung komplexer Datenströme verbundene Arbeitslast verringern. Durch die Nutzung dieses Dreiergespanns aus Apache-Technologien – der Daten-Streaming-Plattform von Confluent, den Stream-Processing-Funktionen von Flink und dem Tabellenformat von Iceberg für die Datenverwaltung – haben SAP-Anwender die Möglichkeit, eine bessere Kontrolle über ihre Daten zu erlangen und neue Effizienzpotenziale zu erschließen, sodass sie wertvolle Zeit und Ressourcen für die Verbesserung anderer Aspekte ihres Betriebs einsetzen können. Dies ist eine von vielen interessanten Optionen, die SAP-Anwendern zur Verfügung stehen, und das E3-Magazin wird die zukünftige Entwicklung von Confluent bei Daten-Streaming-Lösungen mit großem Interesse verfolgen.