Erklärbare KI
Sehen, verstehen und bewerten von AI-Vision
AI-Vision, also Bildverarbeitung mit künstlicher Intelligenz, ist ein Thema, über das viel diskutiert wird. Doch in vielen Bereichen, wie zum Beispiel bei industriellen Anwendungen, ist die neue Technologie noch nicht vollständig angekommen, sodass langfristige Erfahrungswerte fehlen. Es gibt zwar einige Embedded-Vision-Systeme auf dem Markt, mit denen KI auch unter Industriebedingungen einsetzbar ist, doch viele Anlagenbetreiber zögern noch, eine diese Plattformen zu kaufen und ihre Anwendungen aufzurüsten. Obwohl die KI doch bereits wegweisende, neue Möglichkeiten aufgezeigt hat, wo regelbasierter Bildverarbeitung die Regeln ausgehen und bisher ohne Lösung geblieben ist. Was also hindert die neue Technologie daran, sich schneller zu verbreiten?
Denn Tatsache ist, dass heute schon jeder in der Lage ist, eigene KI-basierte Bildverarbeitungsanwendungen zu entwerfen, auch ohne spezielle Kenntnisse in künstlicher Intelligenz und der ebenfalls notwendigen Anwendungsprogrammierung. Und während künstliche Intelligenz viele Arbeitsprozesse beschleunigen und Fehlerquellen minimieren kann, ermöglicht Edge Computing gleichzeitig den Verzicht auf teure Industrie-Computer und die komplexe Infrastruktur, die für eine Hochgeschwindigkeits-Bilddatenübertragung erforderlich wäre.
Neu und anders
Allerdings funktioniert KI bzw. maschinelles Lernen (ML) ganz anders als die klassische, regelbasierte Bildverarbeitung. Damit ändert sich auch die Herangehensweise und Bearbeitung von Bildverarbeitungsaufgaben. Die Qualität der Ergebnisse ist nicht mehr das Produkt eines manuell entwickelten Programmcodes durch einen Bildverarbeitungsexperten, so wie das bisher der Fall war, sondern wird durch den Lernprozess der eingesetzten neuronalen Netze mit geeigneten Bilddaten bestimmt. Mit anderen Worten, die zur Prüfung relevanten Objektmerkmale werden nicht mehr durch vorab definierte Regeln vorgegeben, sondern der KI muss in einem Trainingsprozess beigebracht beigebracht werden, diese selbst zu erkennen. Und je variantenreicher die Trainingsdaten, desto eher erkennen die ML-Algorithmen später im Betrieb die wirklich relevanten Merkmale. Doch was sich überall so einfach anhört, führt auch nur mit ausreichend Fachwissen und Erfahrung zum gewünschten Ziel. Ohne ein geschultes Auge für die richtigen Bilddaten werden auch hier Fehler auftreten. Das bedeutet, dass die Schlüsselkompetenzen für die Arbeit mit Machine-Learning-Methoden nicht mehr dieselben sind, wie die für die regelbasierte Bildverarbeitung. Aber nicht jeder hat die Zeit oder die Manpower, sich ins Thema von Grund auf einzulesen, um neue Schlüsselkompetenzen für die Arbeit mit Machine-Learning-Methoden aufzubauen. Das ist leider das Problem mit neuen Dingen – sie können nicht direkt produktiv genutzt werden. Und wenn sie tatsächlich ohne viel Aufwand gute Ergebnisse liefern, die sich aber leider nicht eindeutig nachvollziehen lassen, kann man es kaum glauben und traut der Sache nicht.
Komplex und unverstanden
Als rational denkender Mensch möchte man wissen, wie diese AI-Vision funktioniert. Doch ohne erkennbare, nachvollziehbare Erklärungen, sind Ergebnisse schwierig zu bewerten. Das Vertrauen in eine neue Technologie basiert auf dem Kompetenzen und Erfahrungen, die manchmal über Jahre aufgebaut werden müssen, bevor man weiß, was eine Technologie kann, wie sie funktioniert, wie man sie einsetzt und auch wie man sie kontrolliert. Erschwerend kommt hinzu, dass die AI-Vision einem etablierten System gegenüber steht, wofür in den vergangenen Jahren mit Wissen, Dokumentation, Trainings, Hardware, Software und Entwicklungsumgebungen passende Umgebungsbedingungen geschaffen wurden. KI kommt dagegen noch sehr roh und puristisch daher und trotz der bekannten Vorteile und der hohen erreichbaren Genauigkeit sehender KI, gestaltet sich eine Diagnose im Fehlerfall oftmals schwierig. Die fehlende Einsicht in die Arbeitsweise bzw. unerklärliche Ergebnisse sind die Kehrseite der Medaille, wodurch die Verbreitung der Algorithmen gehemmt wird.
(K)eine Blackbox
Die Arbeitsweise von neuronalen Netzen wird deshalb fälschlicherweise oft als Blackbox wahrgenommen, deren Entscheidungen nicht nachvollziehbar sind. „Obwohl DL-Modelle zweifellos komplex sind, sind sie keine Blackboxen. Tatsächlich wäre es zutreffender, sie als Glaskästen zu bezeichnen, denn wir können buchstäblich hineinschauen und sehen, was jede Komponente tut.“ [Zitat aus "The black box metaphor in machine learning"]. Inferenz-Entscheidungen neuronaler Netze basieren zwar nicht auf klassischen nachvollziehbaren Regeln, und die komplexen Wechselwirkungen ihrer künstlichen Neuronen sind für den Menschen vielleicht nicht einfach erfassbar, dennoch sind sie Ergebnisse eines mathematischen Systems und damit reproduzierbar und analysierbar. Es fehlen nur (noch) die richtigen Werkzeuge, die uns unterstützen. In diesem Bereich der KI ist noch viel Luft nach oben. Hier zeigt sich, wie gut die verschiedenen KI-Systeme am Markt den Anwender bei seinem Vorhaben unterstützen können.
Durch Software wird KI erklärbar
Aus diesem Grund forscht und arbeitet die IDS Imaging Development GmbH auf diesem Gebiet zusammen mit Instituten und Universitäten, um genau diese Werkzeuge zu entwickeln. Das IDS NXT Experience Kit Inferenzkamerasystem beinhaltet bereits die Ergebnisse dieser Zusammenarbeit. Durch statistische Analysen mit Hilfe einer sogenannten Confusion Matrix ist es möglich, die Qualität eines trainierten neuronalen Netz zu bestimmen und verstehen zu können. Nach dem Trainingsprozess kann das Netz mit einer vorher festgelegten Bilderserie mit bereits bekannten Ergebnissen validiert werden. Dabei werden sowohl die erwarteten als auch die tatsächlich durch die Inferenz bestimmten Ergebnisse in einer Tabelle gegenübergestellt. Dadurch wird klar, wie oft die Testobjekte für jede trainierte Objektklasse richtig oder falsch erkannt wurden. Aus diesen Trefferraten kann dann eine Gesamtgüte des trainierten CNN angegeben werden. Darüber hinaus zeigt die Matrix deutlich, wo die Erkennungsgenauigkeit noch zu gering für den produktiven Einsatz sein könnte. Jedoch zeigt sie nicht, woran das liegen könnte.
Diese Confusion Matrix eines CNN, das Schrauben klassifiziert, zeigt wo die Erkennungsqualität durch nachtrainieren mit weiteren Bildern verbessert werden kann.
Hier kommen die Attention Map ins Spiel, die eine Art Wärmebild zeigt, das die Bereiche bzw. Bildinhalte hervorhebt, die vom neuronalen Netz die meiste Aufmerksamkeit bekommen und damit die Entscheidungen beeinflussen. Beim Trainingsprozess in IDS lighthouse wird die Erstellung dieser Visualisierungsform basierend auf den im Training erzeugten Entscheidungspfaden aktiviert, wodurch das Netz von jedem Bild bei der Analyse eine solche Heat Map erzeugen kann. Dadurch können kritische oder unerklärbare Entscheidungen der KI leichter nachvollzogen werden, um letztendlich die Akzeptanz neuronaler Netze im industriellen Umfeld zu erhöhen.
Ebenso lassen sich damit Datenverzerrungen, sogenannte Bias, erkennen und vermeiden (siehe Abbildung „Attention Maps“), durch die ein neuronales Netz bei der Inferenz voreingenommene Entscheidungen treffen würde. Denn ein neuronales Netz wird nicht von selbst schlau. Mangelnde Qualität des Inputs führt zu mangelhaftem Output. Ein KI-System ist, um Muster zu erkennen und Vorhersagen zu treffen, auf Daten angewiesen, von denen es „richtiges Verhalten“ lernen kann. Wenn eine KI in unter Laborbedingungen mit Daten aufgebaut wird, die nicht repräsentativ für die späteren Anwendungen sind, oder noch schlimmer, wenn die Muster in den Daten Vorurteile widerspiegeln, wird das System diese Vorurteile adaptieren.
Diese Heat Map zeigt einen klassischen Daten-Bias. Die Heatmap visualisiert eine hohe Aufmerksamkeit bei dem Chiquita Label der Banane und damit ein gutes Beispiel eines Daten-Bias. Durch falsche oder zu wenig repräsentative Trainingsbilder von Bananen hat das verwendete CNN offensichtlich gelernt, dass dieses Chiquita Label immer auf eine Banane schließen lässt.
Mit Hilfe solcher Software-Werkzeuge können Anwender das Verhalten und die Ergebnisse der AI-Vision direkter auf Schwächen innerhalb des Trainingsdatensatzes zurückführen und diese gezielt ausbessern. So wird die KI für jeden erklär- und nachvollziehbarer. Denn im Grunde handelt es sich nur um Mathematik und Statistik. Der Mathematik zu folgen und sie zu verstehen ist zwar oft nicht einfach, aber mit Confusion Matrix und Heatmaps gibt es Werkzeuge, um Entscheidungen und Gründe für Entscheidungen sichtbar und damit verständlich zu machen.
Wir stehen erst am Anfang
AI-Vision richtig eingesetzt, hat das Potential viele Bildverarbeitungsprozesse zu verbessern. Doch die Bereitstellung von Hardware alleine reicht nicht aus, die Industrie flächendeckend mit der KI zu infizieren. Die Hersteller sind gefordert, Anwender zu unterstützen, indem sie ihre Kompetenzen in Form von benutzerfreundlicher Software und integrierten Prozessen weitergeben. Verglichen mit den bewährten Verfahren, die über Jahre gereift sind und sich mit viel Dokumentation, Wissenstransfer und vielen Software-Werkzeugen einen treuen Kundestamm aufgebaut hat, gibt es für die KI noch viel Nachholbedarf, ist aber schon im Aufbau. Auch an Standards und Zertifizierungen wird aktuell gearbeitet, um die Akzeptanz und Erklärbarkeit weiter zu steigern und die KI an den großen Tisch zu holen. IDS hilft dabei. Mit IDS NXT Experience Kit ist bereits ein Embedded KI-System verfügbar, das mit einer umfangreichen und nutzerfreundlichen Software-Umgebung von jeder Anwendergruppe schnell und einfach als Industriewerkzeug eingesetzt werden kann – auch ohne tiefgehende Kenntnisse in Machine Learning, Bildverarbeitung oder Anwendungsprogrammierung.
Weiterführende Infos
- Auf der Produktwebseite erfahren Sie mehr über die Embedded Vision KI Plattform IDS NXT.
- Im Fachbeitrag "KI für alle" erfahren Sie mehr über den einfachen Einstieg in Deep Learning-Technologie mit der All-in-One-Inferenzkamera-Lösung IDS NXT Experience Kit.
- Der Fachbeitrag "Nachhaltige Edge Intelligenz" erklärt die Vorteile des deep ocean core als FPGA-Lösung auf einer Kameraplattform.