Vector Engine als KI-Booster
Zu Beginn der TechEd 2023 erklärte SAP-Technikvorstand Jürgen Müller, dass er glücklich sei, eine wesentliche Erweiterung, wenn nicht sogar die bedeutendste, für die Datenbankplattform Hana anzukündigen: die Fähigkeit, Vektoren als Objekte auf der Datenbankplattform zu verwenden – eine Hana-Sensation jenseits von Large Language Models (LLMs), die lediglich Deep-Learning-Algorithmen nutzen, um große Datenmengen zusammenzufassen und zu ordnen.
Jürgen Müller argumentierte auf der Tech-Ed 2023 in Bangalore nicht unrichtig: Large Language Models können meistens nur die Vergangenheit erfassen. Sie werden mittels existierender, meist aus dem Internet extrahierter Daten trainiert. Eine unmittelbare Antwort in Echtzeit basierend auf operativen Daten ist schwierig. Für Ergebnisse in Echtzeit ist seit vielen Jahren die SAP-Datenbank Hana verantwortlich – jetzt mit Vektoren!
LLM, Vektoren und Data Fabric
SAP hat die Ankündigung der TechEd 2023 Anfang dieses Jahres präzisiert und erweitert. Neue Funktionen in der Lösung SAP Datasphere, unter anderem mit generativer KI, sollen es ermöglichen, die Unternehmensplanung durch vereinfachte Datenlandschaften und intuitives Arbeiten mit Daten zu optimieren. „Daten technologisch zu erfassen und damit Entscheidungen zu unterstützen wird immer wichtiger. Gleichzeitig revolutioniert KI, die auf qualitativ hochwertige Daten angewiesen ist, alle Aspekte eines Unternehmens“, sagte Jürgen Müller, Chief Technology Officer und Mitglied des SAP-Vorstands. „Unsere neuesten Innovationen in SAP Datasphere und die erweiterte Partnerschaft mit Collibra sind ein entscheidender Schritt, damit Kunden ihre intelligente Unternehmenstransformation durch Daten vorantreiben können.“
Kern der aktuellen Ankündigungen ist eine Data Fabric für das Management von Geschäftsdaten. Data Fabric, wie es die Analysten von Gartner definieren, ist eine Architektur, die sicherstellt, dass Daten nicht nur als Ressource genutzt werden, sondern auch die entscheidende Grundlage strategischer Initiativen bilden. Mit den Innovationen und der Partnerschaft, die bekannt gegeben wurden, sind Unternehmen in der Lage, Datennutzern aussagekräftige Daten bereitzustellen – wobei Geschäftskontext und Logik erhalten bleiben.
Das langfristige Ziel des SAP-Partners und Data-Migration-International-CEO Thomas Failer lautet: „Wir wollen mithilfe von KI bis 2027 der führende Anbieter von intelligentem Datenmanagement und einer intelligenten unternehmensweiten Data Fabric sein. Auf dem Weg dorthin haben wir Meilensteine definiert!“ Die erweiterten Funktionen im Bereich Retention Management, also das Auffinden von personenbezogenen Daten und das Generieren von Geschäftsobjekten mithilfe von KI, sollen im Frühjahr 2024 mit der Version 11 der DMI-Plattform für Informationsmanagement, JiVS IMP, den Kunden zur Verfügung stehen. Der Data-Fabric-Markt ist aktuell umkämpft: „Wir haben uns entschieden, SAP Datasphere für eine moderne Business-Data-Fabric-Architektur in Verbindung mit unserer S/4-Hana-Landschaft zu nutzen. Damit können wir effektiv eine moderne Datenanalyseplattform einrichten, die eine Business-Self-Service-Fähigkeit auf der Basis von vertrauenswürdigen Daten und Datenmodellen ermöglicht“, sagt Achim Welter, Senior Director ERP, Digital und IT Strategy, Hershey’s.
Euklidische Distanz
Mit Datasphere können SAP-Bestandskunden ihre Datenlandschaften mittels einer durchgängigen Sicht auf ihre Daten vereinfachen. Das erlaubt ihnen, sich schneller an Marktveränderungen anzupassen und bessere Entscheidungen zu treffen. Vom neuen KI-Assistenten und den Funktionen für Vektordatenbanken, die sicherstellen, dass in den Ergebnissen generativer KI der Geschäftskontext bewahrt bleibt, bis zum neuen Knowledge Graph, der es erlaubt, Einblicke in komplexe Daten zu gewinnen und Muster zu erkennen – Innovationen von SAP sorgen dafür, dass Kunden maximal von ihren Daten profitieren können.
Die euklidische Distanz von mehrdimensionalen Vektoren lässt sich hervorragend für das Clustern von Objekten verwenden, wie auch SAP-Technikvorstand Jürgen Müller in seinem Pressestatement aus Bangalore, Indien, feststellte, wo 2023 die SAP Tech-Ed stattfand. Nun beherrscht auch Hana das Berechnen der euklidischen Distanz und kann damit in großen Datenmengen Ähnlichkeiten finden.
Der neue Knowledge Graph in SAP Datasphere und in Ergänzung zu Hana bietet Unternehmen die Möglichkeit, verborgene Erkenntnisse und Muster in ihren Anwendungen und Systemen zu entdecken. Dadurch können sowohl technische als auch fachliche Anwender die Zusammenhänge zwischen Daten, Metadaten und Geschäftsprozessen besser verstehen, die Effektivität von maschinellem Lernen und großen Sprachmodellen lässt sich verbessern. Das Clustern, also das Finden von Ähnlichkeiten, kann für große Datenmengen oft sehr erhellende Momente schaffen. Der Trick beruht auf der Berechnung der euklidischen Distanz und kann auch ohne Hana nur als simple Kopfrechnung erfolgen. Die vermeintliche Hana- und Datasphere-Sensation ist nun nach SAP-Technikvorstand Jürgen Müller die Fähigkeit, Vektoren als Objekte auf der Datenbankplattform zu verwenden. In der traditionellen euklidischen Mathematik sind nun Vektoren wahrlich keine Sensation. Mit den existierenden IT-Werkzeugen der Hana-Datenbankplattform kann jeder Informatikstudent aus dem ersten Semester ein paar einfache Vektorfunktionen implementieren.
Was ist ein Vektor? In einem Koordinatensystem mit einer x- und y-Achse können zwei beliebige Punkte gewählt werden – werden diese Punkte durch die kürzestmögliche Gerade verbunden und am Ende noch ein Pfeil hinzugefügt, dann liegt vor einem am Papier ein gerichteter Graph oder Vektor im zweidimensionalen Raum. Einfach vorstellbar ist auch ein Vektor im dreidimensionalen Raum (x-, y- und z-Achse), z. B. ein Bleistift, der auf einem Tisch liegt. Bleistiftende und Spitze lassen sich als Punkte im Raum genau bestimmen. Der Bleistift wäre demnach der Vektor. Nun geht es in höhere Dimensionen, die nur noch schwer visuell vorstellbar sind (ein vierdimensionaler Würfel hätte beispielsweise einen dreidimensionalen Schatten), aber mit höheren Dimensionen lässt sich dennoch leicht rechnen. Joule, der SAP-Assistent, der auf generativer künstlicher Intelligenz basiert, ist nun in der Lösung SAP Analytics Cloud verfügbar, um Berichte, Dashboards, Pläne etc. automatisiert zu erstellen und zu entwickeln. Die Funktionen der SAP Hana Cloud Vector Engine kombinieren hierzu die Leistungsfähigkeit großer Sprachmodelle mit den relevanten Daten von Unternehmen und gewährleisten, dass in den Ergebnissen generativer KI der Geschäftskontext erhalten bleibt.
Hana Cloud Vector Engine
Was SAP-Technikvorstand Jürgen Müller in Bangalore auf der TechEd 2023 vorgestellt hat, ist von sehr hoher praktischer Bedeutung. Viele Hana-Bestandskunden werden die Spracherweiterung in höhere Dimensionen sehr schätzen. Dennoch ist das Präsentierte sehr traditionelle und sehr bekannte Mathematik. Die euklidische Distanz als Meilenstein der Hana-Entwicklung darzustellen ist merkwürdig, jedoch sind für SAP-Bestandskunden die Funktionen der SAP Hana Cloud Vector Engine ein wichtiger Schritt zu einer betriebswirtschaftlichen generativen KI.
Diese euklidischen Abstände von Graphen der Vector Engine können als Ähnlichkeitsmaße zum Clustern verwendet werden. Es lassen sich damit ganz hervorragend Landkarten anfertigen, deren Gebiete (Cluster) unmittelbar Auskunft über Präferenzen, Ähnlichkeiten und Trends geben. Vor etwa zehn Jahren hat der E3-Verlag gemeinsam mit Professor Alfred Taudes von der Wirtschaftsuniversität Wien eine solche Hana-Landkarte auf Basis einer Umfrage in der SAP-Community erstellt.