Fin del caos de datos

La revista E3 fue invitada al evento Kafka Summit London 2024 en Londres. Aquí están nuestras observaciones sobre las últimas innovaciones en el mundo de Kafka Apache.

3 abril 2024

Contenido:

A los comentarios

Este texto ha sido traducido automáticamente del alemán al español.

El problema

Jay Kreps es el fundador y CEO de Confluent y uno de los autores originales del proyecto de código abierto Apache Kafka. Trata de resolver un problema familiar para muchos: los datos no están actualizados, las conexiones son frágiles y es una lucha constante utilizar los datos en todo su potencial porque no existe una estructura unificada para organizar los datos entre las distintas partes de una organización. Se crea un sistema desde el principio y luego se añaden nuevas conexiones, nuevos cables, lo que da lugar a una mezcolanza de desorden.

Muchas ofertas actuales solo proporcionan soluciones para la parte analítica de los datos, pero no para la parte operativa, y viceversa. Sin embargo, las organizaciones necesitan poder acceder a todos sus datos en su totalidad, especialmente si están planeando implantar la IA en su negocio. Cualquier IA que desarrollen solo puede ser tan buena como los datos utilizados para entrenarla.

Responsabilidades, tecnologías y procesos

Otros han intentado atajar el caos salvando las distancias entre el área operativa, donde se ejecutan las aplicaciones para gestionar la empresa, y el área analítica, donde se analizan los datos y se evalúan los aspectos financieros, utilizando otros medios como las tecnologías de lago de datos. Sin embargo, el fundador y CEO de Kafka Apache, Jay Kreps, es bastante ambicioso y está tratando de resolver el problema de la saturación de los sistemas e infraestructuras de datos. Kreps ha propuesto un producto de datos universal como solución, utilizando el flujo de datos como medio para permitir a las empresas acceder a los datos y filtrarlos en tiempo real, lo que, según la definición de Jay Kreps, significa simplemente muy rápido, tanto desde el punto de vista operativo como analítico, siendo la baja latencia la norma.

Según Confluent, un producto de datos es un conjunto fiable de datos diseñado específicamente para ser compartido y reutilizado con otros equipos y servicios. Es una formalización de responsabilidades, tecnologías y procesos que permite a los usuarios acceder fácilmente a los datos que necesitan.

El producto de datos de Confluent es una solución integral de tres partes para el streaming de datos -un triple ataque al caos de los datos- que consta de Confluent Data Streaming Platform, que proporciona la funcionalidad básica de streaming, Apache Flink, que permite el procesamiento en tiempo real, e Iceberg, que permite visualizar y compartir los resultados en formatos tabulares. Las arquitecturas para aplicaciones de IA que abarcan tanto el mundo operativo como el analítico requieren procesamiento por lotes, y el streaming es una generalización del procesamiento por lotes, un superconjunto del mismo.

Plataforma de flujo de datos

Confluent Data Streaming Platform es una oferta nativa en la nube y sin servidor que integra Kora, el nuevo motor Kafka para la nube con memoria infinita, que se afirma que es dieciséis veces más rápido que el Apache Kafka original. Apache Kafka es un sistema distribuido, un modelo PubSub, en el que los productores pueden enviar mensajes -datos en tiempo real- a la plataforma de flujo de datos, y cualquier consumidor posterior que desee trabajar con esos datos de uno a muchos puede acceder a ellos y trabajar con ellos directamente. La plataforma Confluent se basa en Apache Kafka y facilita las capacidades de flujo de datos reduciendo la necesidad de que las organizaciones gestionen el sistema original. Proporciona accesibilidad adicional a Apache Kafka al eliminar la sobrecarga, el coste y otros retos de la gestión del software de código abierto.

Integración SAP

La integración con SAP es una parte importante del desarrollo de Confluent. Dado que SAP es una de las principales ofertas de Confluent, la integración está integrada directamente en la consola SAP. Confluent permite a los clientes de SAP acceder a sus datos de SAP y fusionarlos en tiempo real con todas las fuentes de datos diferentes, como datos de IoT, datos de herramientas de marketing, flujos de clics en tiempo real de Internet y otras fuentes, para que puedan reenviarlos en tiempo real como un producto de datos completo a bases de datos, almacenes de datos, lagos de datos y herramientas de IA ML.

Los clientes de SAP podrán acceder a la plataforma de flujo de datos de Confluent y a los flujos de datos totalmente gestionados directamente desde SAP Datasphere. Esto significa que cuando los usuarios trabajan con Datasphere en la BTP (Business Technology Platform), también tienen la opción de configurar una escritura en tiempo real de estos datos en flujos de datos totalmente gestionados en el lado de Confluent. Esto permite a los usuarios liberar datos ERP de SAP y mover estos datos aguas abajo para alimentar aplicaciones y análisis con datos en tiempo real.

Flink

El segundo pilar del ataque en tres partes después de la plataforma de flujo de datos Confluent es Apache Flink. Flink es un servicio de procesamiento de flujos de código abierto que funciona como un sistema de procesamiento por lotes. Confluent afirma que Flink, al igual que el motor de búsqueda Kora, es dieciséis veces más rápido que Apache Kafka, lo que lo convierte en un complemento a tener en cuenta si la velocidad es una prioridad. El producto permite a los usuarios procesar datos sin una sola línea de código, lo que facilita su gestión al personal con menos conocimientos especializados, aunque existen opciones de codificación para los interesados. Flink también permite procesar flujos de datos continuos con baja latencia y alto rendimiento, con capacidades adicionales como semántica de procesamiento especializada y compatibilidad con múltiples API.

Iceberg

El tercer pilar después de Flink es Apache Iceberg. Iceberg es un proyecto de código abierto y uno de los formatos de tabla estándar abiertos para todo el ecosistema de herramientas analíticas, como Snowflake. Permite a los usuarios acceder a tablas a partir de los datos almacenados en la nube y permite compartirlos ampliamente. Además, existe una amplia comunidad que utiliza el formato Iceberg y este ecosistema seguirá creciendo en los próximos años, lo que significa que los usuarios de Iceberg dispondrán de opciones y funcionalidades adicionales, incluso de otros proveedores.

Otras funciones destacadas son las transacciones atómicas, en las que los datos se consignan o se intercambian totalmente para evitar la corrupción o la pérdida de datos; la evolución del esquema, que permite cambiar columnas sin interrumpir los datos o las consultas existentes; y el viaje en el tiempo, que desgraciadamente no implica máquinas del tiempo pero permite a los usuarios consultar los datos tal y como existían en un momento determinado.

Al incorporar Iceberg, la oferta puede proporcionar un sistema unificado que permite flujos de datos en Kafka y tablas compartidas en Iceberg. Exactamente los mismos datos del motor en la nube de Kora se ponen entonces a disposición como tablas de Iceberg. El flujo de datos tiene lugar en tres fases. En la primera fase, los datos almacenados en el motor Kora fluyen hacia Iceberg. En la segunda fase, el flujo de datos es bidireccional, es decir, los datos están disponibles desde ambas ubicaciones. En la tercera fase, todos los datos de Iceberg (tablas, etc.) están disponibles a través de Kafka.

Gobernanza

Cuando se trabaja con datos, el conocimiento de las directrices de gobierno de datos de una organización es, por supuesto, crucial. En la plataforma Confluent, la gobernanza se implementa como un flujo desde el principio. Otros factores que desempeñan un papel en la gobernanza son la calidad del flujo, el catálogo de flujos y el linaje de flujos. La calidad del flujo consiste en la integridad de los datos, las reglas de datos y los contratos; garantiza la existencia de normas para todos los datos que pasan por la plataforma. El catálogo de flujos y el linaje de flujos proporcionan al usuario una representación visual del movimiento de los datos y de los cambios que han sufrido a lo largo de su trayectoria. La suite de gobernanza integrada y completa forma parte del producto de datos y es otra forma de resolver el problema del caos de datos reduciendo la carga de trabajo del equipo de seguridad.

Fin del caos de datos

Para los usuarios de SAP que luchan con el caos de datos de Datasphere en la BTP (Business Technology Platform), la solución integral de flujo de datos en tres partes podría ser justo el rayo de esperanza que están buscando. Los usuarios no sólo podrían racionalizar sus datos, sino también reducir la carga de trabajo asociada a la gestión de flujos de datos complejos. Al utilizar esta trifecta de tecnologías Apache -la plataforma de flujo de datos de Confluent, las capacidades de procesamiento de flujos de Flink y el formato de tablas de Iceberg para la gestión de datos-, los usuarios de SAP tienen la oportunidad de obtener un mayor control sobre sus datos y desbloquear nuevas eficiencias, lo que les permitirá dedicar un tiempo y unos recursos valiosos a mejorar otros aspectos de sus operaciones. Esta es una de las muchas opciones interesantes que tienen a su disposición los usuarios de SAP, y E3 Magazine seguirá con gran interés los futuros desarrollos de Confluent en materia de soluciones de flujo de datos.

confluent.io

Fin del caos de datos

El problema

Responsabilidades, tecnologías y procesos

Plataforma de flujo de datos

Integración SAP

Flink

Iceberg

Gobernanza

Fin del caos de datos

Escriba un comentario (Cancelar respuesta)

Texto de prueba

Los males del joven CIO

La IA debe considerarse una iniciativa de equipo

Lugar de celebración

Fecha del acontecimiento

Entrada anticipada

Entrada normal

Lugar de celebración

Fecha del acontecimiento

Fin del caos de datos

El problema

Responsabilidades, tecnologías y procesos

Plataforma de flujo de datos

Integración SAP

Flink

Iceberg

Gobernanza

Fin del caos de datos

Escriba un comentario (Cancelar respuesta)

Texto de prueba

Los males del joven CIO

La IA debe considerarse una iniciativa de equipo

Lugar de celebración

Fecha del acontecimiento

Entrada anticipada

Entrada normal

Lugar de celebración

Fecha del acontecimiento

Entradas