Dokumentenerkennung und KI – unspektakulär oder eindrucksvoll?
Informationen und Daten von Dokumenten auszulesen und zu nutzen, stellt uns als Mensch vor keine große Herausforderung. Wir sind mühelos in der Lage, einen Stapel unterschiedlichster Dokumente anhand ihres Layouts zu sortieren, zu trennen und alle nötigen Informationen zu erfassen.
Für Softwarelösungen ist diese Verarbeitung alles andere als banal. Die effiziente Extraktion von Informationen aus eingehenden Geschäftsdokumenten, wie zum Beispiel Bestellungen, ist für Unternehmen, die täglich mit unzähligen Dokumenten konfrontiert sind, von entscheidender Bedeutung.
Gerade auch deshalb, weil Scannen und Dokumenterfassung Welten auseinander liegen. Wenn ein Dokument gescannt wird, wird es digital auf dem Computer gespeichert. Dort stoppt der Prozess.
Die Datei ist digitalisiert, aber Nutzer können nicht viel mit den im Dokument enthaltenen Informationen anfangen. Diese Informationen sind aber sehr wertvoll, und die Unternehmen benötigen sie für die Nutzung und Weiterverarbeitung in ihrem SAP-System.
Deshalb ist es unerlässlich, eine Software oder einen Prozess für die inhaltliche Dokumenterfassung zu etablieren. Doch damit ist die Aufgabe noch lange nicht gemeistert.
Trotz immer besser gewordener Technologien ist die umfassende semantische Korrektheit der Datenextraktion nach wie vor eine Herausforderung, insbesondere bei der Analyse von Tabelleninhalten zur Erkennung von bestellten oder fakturierten Positionen, da die Dokumente oft komplexe und mehrdeutige Strukturen aufweisen.
Man kann auf Erkennungsverfahren ähnlich der Gesichtserkennung setzen. In Verbindung mit einer großen Anzahl an Layout-Vorlagen und kontinuierlichem Machine Learning können hohe Automatisierungsraten bei der Erkennung und Erfassung von Dokumenten wie Bestellungen oder Rechnungen generiert werden.
Ergänzen kann man diese Methode mit einer intelligenten Extraktion von Tabelleninhalten, die über das reine Erkennen physikalischer Strukturen hinausgeht.
Damit wird ein Ansatz verfolgt, der auf Deep Learning basiert und die Erkennung von Positionen in verschiedenen Layouts ermöglicht, die bei der reinen Strukturerkennung nicht unbedingt berücksichtigt werden oder dem Algorithmus im Vorfeld nicht angelernt werden.
Der neue, auf Deep Learning beruhende Ansatz trainiert den eingesetzten Algorithmus mit einer großen Menge von aufbereiteten Echtdaten, die aus Datenschutzgründen anonymisiert werden und einem neuronalen Netzwerk zur Verfügung gestellt werden.
Dieser Algorithmus ist nun in der Lage, aufgrund der „Erfahrung“ und des entsprechend großen Netzwerks auch bei der Ersterfassung von Bestellungen oder Rechnungen hohe Erfassungsraten zu erzeugen.
Es ist möglich, neben Text und Zahlen auch komplexe Tabelleninhalte bei Erstbestellungen zu erkennen. Deep Learning als Teilmenge der künstlichen Intelligenz trägt dazu bei, die Produktivität und die betriebliche Effizienz deutlich zu steigern.
Der neuartige Erkennungsansatz ist von besonderem Interesse, da seine Analyselogik im Grundsatz generisch ist und so leicht an andere Dokumenttypen angepasst werden kann. Er basiert nur zu einem kleinen Teil auf spezifischer layoutbasierter Textverarbeitung.
Diese Technologien zeigen, wie außergewöhnlich effizient künstliche Intelligenz sein kann. Derzeit wird an der nächsten Generation von KI-Diensten gearbeitet, die bald in der Lage sein werden, auf Anhieb genaue und zuverlässige Daten aus Bestellungen, Rechnungen und anderen Geschäftsdokumenten zu extrahieren.
Besonders spannend ist, dass die besten KI-Ansätze für die Verarbeitung natürlicher Sprache im Bereich der Geschäftsdokumente außerordentlich gut geeignet sind und ein enormes Innovationspotenzial für die Zukunft darstellen.
So unspektakulär das Erfassen von Dokumenten für uns als Menschen auch scheint, die Prozesse, die hinter einer automatisierten Verarbeitung stecken, zeigen nicht nur eindrucksvoll die Hürden, sondern auch die rasante technische Entwicklung und faszinierende Lösungsansätze – eine eindrucksvolle Herausforderung, die es zu meistern gilt.