Daten-Streaming-Pipelines gehört die Zukunft
Sie verwenden in der Regel Punkt-zu-Punkt-Daten-Pipelines, um Daten zwischen operativen Datenbanken und einem zentralisierten Data Warehouse oder Data Lake zu verschieben. ETL-Pipelines (Extrahieren, Transformieren und Laden) zum Beispiel nehmen Daten auf, transformieren sie in regelmäßigen Batches und leiten sie später an ein nachgelagertes analytisches Data Warehouse weiter. ETL-Pipelines und Reverse-ETL-Pipelines senden zudem Ergebnisse von Datenanalysen, die im Warehouse stattfinden, zurück an operative Datenbanken und Anwendungen.
Auch wenn Unternehmen heutzutage oft Dutzende bis Hunderte Punkt-zu-Punkt-Daten-Pipelines betreiben, kommen immer mehr IT-Verantwortliche zu dem Schluss, dass Punkt-zu-Punkt- und Batch-basierte Daten-Pipelines nicht mehr zeitgemäß sind. Ältere Pipelines sind in der Regel nicht sehr flexibel und werden von Entwicklern als „Blackboxes“ wahrgenommen, da sie nicht angepasst werden können und sich nur schwer in andere Umgebungen übertragen lassen. Wenn betriebliche Prozesse oder Daten angepasst werden müssen, vermeiden es Datenentwickler deshalb, bestehende Pipelines zu ändern. Stattdessen fügen sie noch mehr Pipelines und die damit verbundenen technischen Schulden hinzu. Im Endeffekt benötigen herkömmliche ETL-Pipelines zu viel Rechenleistung und Speicherplatz, was mit zunehmendem Datenvolumen und Anforderungen zu Skalierungs- und Leistungsproblemen sowie hohen Betriebskosten führen kann.
Daten-Streaming-Pipelines sind ein moderner Ansatz zur Bereitstellung von Daten als Self-Service-Produkt. Anstatt Daten an ein zentrales Warehouse oder ein Analyse-Tool zu senden, können Daten-Streaming-Pipelines Änderungen in Echtzeit erfassen, sie im Fluss anreichern und an nachgelagerte Systeme senden. Teams können mit einem eigenen Self-Service-Zugriff Daten verarbeiten, freigeben und wiederverwenden, wo und wann immer sie benötigt werden.
Im Gegensatz zu gewöhnlichen Pipelines können Daten-Streaming-Pipelines mit deklarativen Sprachen wie SQL erstellt werden. Dabei werden unnötige operative Aufgaben mit einer vordefinierten Logik der erforderlichen Vorgänge gemieden. Dieser Ansatz trägt dazu bei, das Gleichgewicht zwischen zentralisierter kontinuierlicher Observability, Sicherheit, Policy-Management, Compliance-Standards und der Notwendigkeit für leicht durchsuchbare und auffindbare Daten zu wahren.