El futuro es de las cadenas de flujo de datos
Suelen utilizar canalizaciones de datos punto a punto para mover los datos entre las bases de datos operativas y un almacén de datos centralizado o un lago de datos. Las canalizaciones ETL (extracción, transformación y carga), por ejemplo, ingieren datos, los transforman en lotes regulares y los envían posteriormente a un almacén de datos analíticos posterior. Los conductos ETL y los conductos ETL inversos también envían los resultados de los análisis de datos que tienen lugar en el almacén de vuelta a las bases de datos y aplicaciones operativas.
Aunque hoy en día las empresas suelen operar con docenas o cientos de canalizaciones de datos punto a punto, cada vez son más los responsables de TI que llegan a la conclusión de que las canalizaciones de datos punto a punto y por lotes ya no son adecuadas para su propósito. Los pipelines más antiguos suelen ser poco flexibles y los desarrolladores los perciben como "cajas negras", ya que no se pueden personalizar y son difíciles de transferir a otros entornos. Cuando es necesario personalizar los procesos operativos o los datos, los desarrolladores de datos evitan cambiar las canalizaciones existentes. En su lugar, añaden más canalizaciones y la deuda técnica asociada. En última instancia, las canalizaciones ETL tradicionales requieren demasiada potencia informática y espacio de almacenamiento, lo que puede provocar problemas de escalabilidad y rendimiento, así como elevados costes operativos a medida que aumentan los volúmenes de datos y los requisitos.
Las canalizaciones de flujo de datos son un enfoque moderno para proporcionar datos como un producto de autoservicio. En lugar de enviar los datos a un almacén centralizado o a una herramienta de análisis, las canalizaciones de flujo de datos pueden capturar los cambios en tiempo real, enriquecerlos en el flujo y enviarlos a los sistemas posteriores. Los equipos pueden utilizar su propio acceso de autoservicio para procesar, compartir y reutilizar los datos donde y cuando los necesiten.
A diferencia de los pipelines convencionales, los pipelines de flujo de datos pueden crearse utilizando lenguajes declarativos como SQL. Esto evita tareas operativas innecesarias con una lógica predefinida de las operaciones necesarias. Este enfoque ayuda a mantener el equilibrio entre la observabilidad continua centralizada, la seguridad, la gestión de políticas, las normas de cumplimiento y la necesidad de datos fáciles de buscar y descubrir.