Wolf im Husky-Fell? KI und Cybersecurity
Blickt man kritisch hinter die Kulissen der Werbebotschaften, stellt man zunächst fest, dass der Begriff „Artificial Intelligence“ in den Marketingabteilungen sehr liberal verwendet wird. „AI-powered“-Produkte setzen in der Regel nur einen Teil-Aspekt von AI ein, nämlich Machine Learning.
Machine Learning ist im Bereich Cybersecurity aber weder besonders neu, noch innovativ.
Bereits seit über 10 Jahren setzen Anti-Malware Hersteller Machine Learning ein, um Unmengen an neuen Malware-Varianten Samples zu analysieren und – mittlerweile vollständig automatisiert – Erkennungs-Signaturen zu generieren.
Im Bereich der SPAM- und Phishing-Erkennung kommen seit nunmehr 20 Jahren Machine Learning-Algorithmen zum Einsatz – wenngleich nicht ausschließlich.
Wichtig ist es, zu verstehen, dass es bei all diesen Anwendungsfeldern in der Regel nicht um „Deep Learning“ geht – also um die Verwendung mehrschichtiger künstlicher neuronaler Netze. Diese sind für den Einsatz auf Server- oder Client-Systemen, deren Haupt-Einsatzgebiet nicht das neuronale Netz sind, noch viel zu Speicher- und CPU-hungrig.
Den Machine Learning Algorithmus für Cybersecurity gibt es nicht: Machine Learning ist sehr gut geeignet, um in einem eng umrissenen Aufgabenfeld zu agieren.
Cybersecurity, und selbst ein kleiner Ausschnitt wie Endpoint Security, deckt eine Vielzahl möglicher Angriffsvektoren und -methoden ab. Es gibt hier keine „One-Size-Fits-All-Lösung“ aus der AI Trickkiste.
Machine-Learning Algorithmen werden mit der Zeit „von alleine“ immer besser? Richtig ist, dass Machine-Learning mit großen Mengen an qualifizierten Daten immer besser wird – eben „lernt“.
Mit qualifizierten Daten ist gemeint, dass der Algorithmus neben den eigentlichen Daten auch die Information benötigt, ob beispielsweise diese Dateien infiziert oder harmlos sind bzw. ob es sich bei einem E-Mail um Ham oder Spam handelt.
Damit scheidet in der Regel ein allein kundenseitiges Training der Algorithmen aus, denn die wenigsten „Normal-User“ sind beispielsweise in der Lage eine Malware-Infizierte Datei von einer sauberen Datei zu unterscheiden – zumindest solange die Malware (z.B. Ransomware) nicht aktiv geworden ist.
Können KI-Lösungen können bereits heute klassische Security-Lösungen ablösen? Auf dieses Pferd sollten nur die sehr, sehr mutigen – oder sehr leichtsinnigen setzen.
Deterministische Verfahren wie klassische IP-Filter und/oder Pattern-Matching Verfahren sind für die weit überwiegende Zahl der Anwendungsfelder sowohl in Performance als auch in Genauigkeit KI-Lösungen noch immer weit überlegen. Abhängig vom Einsatzgebiet ist es zudem möglich und sinnvoll den Einsatz deterministischer Verfahren im Blacklist- oder Whitelist-Verfahren abzuwägen.
Werden mit Machine Learning und Big (Training-) Data die Ergebnisse zwangsläufig besser? Die Qualität der Ergebnisse eines Machine Learning basierten Classifiers, insbesondere im Bereich Deep Learning, hängt nicht nur vom Algorithmus ab, sondern auch – oder sogar viel entscheidender – von den Daten, mit denen dieser trainiert wurde.
Leider können wir User und Endkunden dem Cyber-Security Machine-Learning Algorithmus nicht bei der Entscheidungsfindung zuschauen. Könnten wir dies tun, so wie Wissenschaftler der University of Washington, würden wir möglicherweise Fälle wie den des Huskys entdecken, der fälschlicherweise als Wolf erkannt wurde.
Grund dafür war, dass die meisten Bilder von Wölfen, mit denen das System trainiert wurde, Wölfe im Schnee zeigte. Die Visualisierung der Entscheidungsgrundlagen des Algorithmus zeigte folglich auf, dass das Tier auf dem nur eine untergeordnete Rolle bei der Entscheidung spielte. Das Vorhandensein von Schnee war ausschlaggebend.