La plataforma global e independiente para la comunidad SAP.

La tecnología de un lago de datos

En un almacén de datos, los datos se almacenan en una base de datos relacional. Esto es costoso y, en consecuencia, existen productos del mundo del Big Data que parten de aquí. Parquet, Hive, SAP Vora y Exasol son los representantes más conocidos en el entorno SAP.
Werner Dähn, rtdi.io
9. enero 2020
Contenido:
Integración de Smart y Big Data
avatar
Este texto ha sido traducido automáticamente del alemán al español.

En general, yo dividiría las opciones de almacenamiento de datos en tres categorías. Ficheros: los datos se almacenan como simples ficheros y se utilizan como tablas.

Estos archivos deben contener información sobre la estructura y también deben estar indexados. El formato de archivo Parquet es representativo de esta categoría.

Proceso de base de datos: En lugar de trabajar directamente con los archivos, hay un servicio activo en la parte superior que se siente como una base de datos. Se encarga de almacenar en caché los datos de uso frecuente y puede consultarse a través de ODBC/JDBC. Un representante típico de este tipo en el mundo de los macrodatos es Apache Hive.

En memoria: Para obtener el máximo rendimiento, todos los datos se almacenan en memoria, se indexan y se utilizan para construir algo similar a Hana. Exasol y SAP Vora funcionan según este principio.

El mundo del big data vive únicamente del hecho de que muchos servidores pequeños (y por tanto baratos) forman un sistema global. Esto permite un escalado infinito, con costes de hardware que solo aumentan linealmente.

Pero cuantos más nodos forman el sistema global, más cara resulta su sincronización. Un enlace ("join") de tres o incluso más tablas puede suponer que cada nodo tenga que buscar los resultados intermedios apropiados del enlace anterior y que la consulta se prolongue durante horas.

Este problema se denomina "redistribución". Por supuesto, el hecho de que los datos se almacenen en memoria no ayuda a la hora de redistribuir los resultados provisionales a través de la red.

Hana, en cambio, es una auténtica base de datos. Es increíblemente rápida en las búsquedas. El rendimiento de las uniones es estupendo y la consistencia de las transacciones es total al leer y escribir. Todo esto requiere mucha sincronización.

Sin embargo, una base de datos de este tipo no escala infinitamente. Muchos proyectos resuelven el dilema de la "reorganización" almacenando los datos de forma optimizada para determinadas consultas. Esto, a su vez, reduce la flexibilidad y aumenta los costes, es decir, precisamente los puntos que en realidad se pretendían como ventajas de un lago de datos.

El esfuerzo de sincronización de la coherencia de las transacciones es un problema lógico. No puede resolverse sin imponer requisitos más blandos, como la "coherencia eventual".

Este problema se conoce como el teorema CAP. De los tres requisitos Consistencia-Disponibilidad-Partición, nunca se pueden alcanzar todos los puntos, especialmente en caso de error.

Un sistema distribuido y de alta disponibilidad tiene que hacer concesiones en términos de coherencia de los datos, mientras que un sistema de base de datos transaccional tiene que hacer concesiones en términos de disponibilidad o escalabilidad.

Los datos disponibles en Big Data son datos en bruto que se convierten en información mediante transformaciones no SQL, por lo que un almacén de datos basado en Big Data con consultas SQL no tiene sentido.

El lago de datos es el patio de recreo del científico de datos. Esta persona tiene fácil acceso a datos que antes se eliminaban o eran de difícil acceso.

El científico de datos puede enfrentarse a todos los problemas que plantea la tecnología de big data: Semántica de los datos; rendimiento lento; y, qué datos hay. ¿Mezcla de big data y datos empresariales? Ningún problema para él.

Acoplar Hana con Vora no tiene mucho sentido desde este punto de vista. Ambos almacenan los datos en memoria y permiten búsquedas rápidas, con los costes correspondientes. Ambos tienen almacenamiento en caliente en disco (base de datos Sybase), ambos se centran en consultas SQL. Además, Vora ya no figura en la lista de precios de SAP como producto independiente.

En cambio, los archivos parquet y una base de datos se complementan a la perfección. Los archivos parquet de un lago de datos no cuestan prácticamente nada de almacenar, mientras que el espacio de almacenamiento en la base de datos es caro.

Una base de datos como Hana está excelentemente adaptada para las uniones y las consultas SQL complicadas; para un clúster informático, son precisamente estas operaciones las más complejas.

La combinación de ambas permite realizar consultas rápidas de inteligencia empresarial y acceder cómodamente a todos los datos en bruto. Ambos aportan sus puntos fuertes.

Descargar como PDF sólo para miembros. Crear una cuenta Aquí

avatar
Werner Dähn, rtdi.io

Werner Dähn es especialista en integración de datos y director general de rtdi.io.


Escriba un comentario

El trabajo sobre la base de SAP es decisivo para el éxito de la conversión a S/4. Esto confiere al denominado Competence Centre una importancia estratégica para los clientes actuales de SAP. Independientemente del modelo operativo de S/4 Hana, temas como la automatización, la supervisión, la seguridad, la gestión del ciclo de vida de las aplicaciones y la gestión de datos son la base para el funcionamiento operativo de S/4. Por segunda vez, E3 Magazine organiza una cumbre en Salzburgo para que la comunidad SAP obtenga información exhaustiva sobre todos los aspectos del trabajo preliminar de S/4 Hana. Con una exposición, presentaciones especializadas y mucho de lo que hablar, esperamos de nuevo a numerosos clientes, socios y expertos en Salzburgo. E3 Magazine le invita a Salzburgo para aprender e intercambiar ideas los días 5 y 6 de junio de 2024.

Lugar de celebración

Sala de actos, FourSide Hotel Salzburg,
En el recinto ferial 2,
A-5020 Salzburgo

Fecha del acontecimiento

5 y 6 de junio de 2024

Entradas

Entrada anticipada - Disponible hasta el 29.03.2024
440 EUR sin IVA
Billete normal
590 EUR sin IVA

Consiga ya su entrada anticipada

Lugar de celebración

Sala de actos, Hotel Hilton Heidelberg,
Kurfürstenanlage 1,
69115 Heidelberg

Fecha del acontecimiento

28 y 29 de febrero de 2024

Entradas

Billete normal
590 EUR sin IVA
El organizador es la revista E3 de la editorial B4Bmedia.net AG. Las conferencias irán acompañadas de una exposición de socios seleccionados de SAP. El precio de la entrada incluye la asistencia a todas las conferencias de la Cumbre Steampunk y BTP 2024, la visita a la zona de exposición, la participación en el evento nocturno y el catering durante el programa oficial. El programa de conferencias y la lista de expositores y patrocinadores (socios de SAP) se publicarán en este sitio web a su debido tiempo.