La plataforma global e independiente para la comunidad SAP.

¿Qué son los macrodatos?

Muchas empresas acaban de empezar con los macrodatos. Tienen ideas iniciales. Se está explorando el potencial. SAP también tiene diferentes enfoques del tema, dependiendo del departamento con el que hable.
Werner Dähn, rtdi.io
31 de octubre de 2019
Contenido:
Integración de Smart y Big Data
avatar
Este texto ha sido traducido automáticamente del alemán al español.

El mayor obstáculo al principio es el propio término Big Data. Lamentablemente, la traducción directa de datos masivos sólo afecta a un aspecto. Todos los datos normales del sistema ERP y otras bases de datos también son datos masivos.

Por tanto, en términos de volumen, debemos hablar de cantidades demasiado grandes para las bases de datos, demasiado grandes en sentido absoluto o en el sentido de costes y beneficios. Otro aspecto es el grado de estructuración de los datos.

El sistema ERP contiene un 99% de datos bien estructurados. El uno por ciento es texto libre, como un albarán. Con Big Data, es el otro extremo y la información apasionante está en las áreas de datos no estructurados. Cuándo y dónde se tomó una foto es interesante, pero lo que la foto muestra es infinitamente más importante.

Esto también va acompañado del tipo de preparación de los datos. Mientras que con las bases de datos se trata de una consulta del tipo "facturación total al mes", con los ejemplos anteriores hablamos de repente de análisis de imágenes y análisis de texto.

Sin embargo, la definición más importante de Big Data es "todos los datos que no se utilizan hoy para aumentar los beneficios de la empresa". Aquí la creatividad está a la orden del día.

Uno de mis proyectos anteriores ha consistido en la utilización de servidores en el centro de datos, con el objetivo de reducir el número de servidores. Para ilustrarlo, me gustaría poner un ejemplo.

Las ventas deben vincularse con información sobre la intensidad con que los clientes han visto el producto correspondiente en el sitio web. Por ejemplo, un producto se anuncia en los medios de comunicación. ¿Se percibe esta publicidad?

En caso afirmativo, debería observarse un aumento del número de accesos en las páginas de producto asociadas. ¿Los clientes potenciales leen brevemente la página del producto, se convencen de inmediato y compran? ¿O leen detenidamente los datos técnicos y luego no compran?

Una vez que se tiene una idea de qué datos deben analizarse con Big Data, surge la cuestión de una arquitectura prometedora. Especialmente en el área de Big Data, se desarrollan constantemente nuevos productos para sustituir a los antiguos. Hace unos años, Map Reduce en Hadoop era lo último, luego llegó Apache Spark, que tiene mejor rendimiento y mayor potencia.

Durante mucho tiempo Apache Hive fue el camino a seguir, hoy es Parquet Files. En un entorno tan dinámico, no quiero gastar mucho dinero en una solución que potencialmente podría utilizarse a corto plazo, y también quiero tener la apertura para cambiar a algo nuevo en cualquier momento.

Apache Spark responde a este deseo de una solución potente, pero al mismo tiempo abierta, por lo que se utiliza en casi todos los proyectos del mundo.

La instalación es fácil, las transformaciones complejas son posibles con menos líneas de código y el software no cuesta nada. El mayor coste sería crear un sistema de BI.

Así que, en lugar de eso, añado las métricas calculadas con Spark al almacén de datos existente y permito a los usuarios realizar nuevos análisis con las viejas herramientas conocidas; por ejemplo, correlacionando ahora las ventas con el tiempo de lectura y las páginas vistas de un producto.

Conclusión y futuro: Hasta hace poco, almacenar y procesar este tipo de datos secundarios no resultaba atractivo en términos de precio. El volumen de datos era demasiado grande, la densidad de la información demasiado baja y la única forma de procesarlos eficazmente era con herramientas relacionadas con la BD.

Estos argumentos ya no son válidos hoy en día. Con el Apache Hadoop Filesystem (HDFS), se pueden formar grandes sistemas de archivos a partir de componentes baratos de PC en lugar de comprar una costosa matriz de discos.

Apache Spark puede procesar estas grandes cantidades de datos, con los complejos algoritmos asociados que incluyen métodos estadísticos y de aprendizaje automático.

Y la solución: las herramientas del sector de los almacenes de datos, incluidas las de SAP, se han adaptado a esta situación y ofrecen acceso directo a archivos Hadoop o envían tareas de transformación a un clúster Spark conectado. Una de estas joyas desconocidas es SAP Hana Spark Connector.

Descargar como PDF sólo para miembros. Crear una cuenta Aquí

avatar
Werner Dähn, rtdi.io

Werner Dähn es especialista en integración de datos y director general de rtdi.io.


Escriba un comentario

El trabajo sobre la base de SAP es decisivo para el éxito de la conversión a S/4. Esto confiere al denominado Competence Centre una importancia estratégica para los clientes actuales de SAP. Independientemente del modelo operativo de S/4 Hana, temas como la automatización, la supervisión, la seguridad, la gestión del ciclo de vida de las aplicaciones y la gestión de datos son la base para el funcionamiento operativo de S/4. Por segunda vez, E3 Magazine organiza una cumbre en Salzburgo para que la comunidad SAP obtenga información exhaustiva sobre todos los aspectos del trabajo preliminar de S/4 Hana. Con una exposición, presentaciones especializadas y mucho de lo que hablar, esperamos de nuevo a numerosos clientes, socios y expertos en Salzburgo. E3 Magazine le invita a Salzburgo para aprender e intercambiar ideas los días 5 y 6 de junio de 2024.

Lugar de celebración

Sala de actos, FourSide Hotel Salzburg,
En el recinto ferial 2,
A-5020 Salzburgo

Fecha del acontecimiento

5 y 6 de junio de 2024

Entradas

Entrada anticipada - Disponible hasta el 29.03.2024
440 EUR sin IVA
Billete normal
590 EUR sin IVA

Consiga ya su entrada anticipada

Lugar de celebración

Sala de actos, Hotel Hilton Heidelberg,
Kurfürstenanlage 1,
69115 Heidelberg

Fecha del acontecimiento

28 y 29 de febrero de 2024

Entradas

Billete normal
590 EUR sin IVA
El organizador es la revista E3 de la editorial B4Bmedia.net AG. Las conferencias irán acompañadas de una exposición de socios seleccionados de SAP. El precio de la entrada incluye la asistencia a todas las conferencias de la Cumbre Steampunk y BTP 2024, la visita a la zona de exposición, la participación en el evento nocturno y el catering durante el programa oficial. El programa de conferencias y la lista de expositores y patrocinadores (socios de SAP) se publicarán en este sitio web a su debido tiempo.