Gesehen, gespeichert, gelernt

Das Greifen von chaotisch liegenden Gegenständen ist gerade in der industriellen Automation eine zentrale Aufgabe. Aktuelle Bin Picking Lösungen sind jedoch häufig unflexibel und stark an das zu greifende Werkstück angepasst. Die Forschungsprojekte der Robot Learning Group versprechen Abhilfe, z.B. mit Robotern, die selbständig lernen, zuvor unbekannte Objekte aus einem Behälter zu greifen. Um eine solche Aufgabe zu lernen, beginnt der Roboter zunächst mit zufälligen Greif-Versuchen, wie es auch ein Mensch machen würde. Ein neuronales Netz setzt die dabei aufgenommenen 3D-Bilder mit den erfolgreichen bzw. missglückten Greifversuchen in Zusammenhang. Dafür wird zu jedem Bild das Greifergebnis gespeichert, das über einen Kraftsensor im Greifer ermittelt wurde. Die KI (künstliche Intelligenz) erkennt anhand der gespeicherten Daten sinnvolle Greifpunkte für die Objekte und "trainiert" sich damit selbst. Wie bei modernen Methoden des Reinforcement Learning* üblich, sind dazu große Datenmengen und viele Greifversuche unerlässlich. Die Forscher des KITs konnten die Anzahl letzterer jedoch deutlich reduzieren und damit auch die zum Lernen benötigte Zeit verkürzen.

Der richtige Griff reduziert die Trainingszeit

Wie gegriffen so gelernt

Unterschied zu analytischen (oder auch modellbasierten) Greifmethoden müssen dem ROLE-Roboter die zur Erkennung notwendigen Merkmale vorab nicht beschrieben werden. Eine wesentliche Rolle spielt aber, wie häufig das System ein Objekt bei "ähnlichen" Bildern bereits erfolgreich fassen konnte. Der Griff, den der Roboter ausprobiert, ist dabei entscheidend für einen schnelleren Lernerfolg. Mit Hilfe eines neuronalen Netzes können Greifergebnisse durch das bereits vorhandene Wissen vorhergesagt werden.

“Für ein gut funktionierendes System benötigen wir derzeit etwa 20.000 Greifversuche, was in etwa 80 Stunden Trainingszeit am Roboter entspricht" erklärt Lars Berscheid, Wissenschaftlicher Mitarbeiter des KIT und Teil der Robot Learning Group. Die genannten Zahlen sind Richtwerte und hängen von vielen Faktoren ab, wie z.B. der Greifrate bei zufälligen Griffen, die wiederum u.a. von der Bauteil-geometrie beeinflusst wird. Wie bei lernenden Systemen üblich ist die Anzahl an verfügbaren Daten der limitierende Faktor für die Fähigkeiten des Systems.

"Daher ist eine wesentliche Aufgabe unserer Forschung, die Zahl der notwendigen Greifversuche zu reduzieren. Die wissenschaftlich zentrale Frage hierzu lautet also: Welche Griffe müssen ausprobiert werden, um möglichst schnell viele Informationen zu gewinnen und so die Trainingszeit zu verkürzen?", ergänzt Berscheid. An dieser Stelle kommt auch das sogenannte "Transfer Learning" zum Einsatz. Dabei kann das Wissen eines bereits fertig trainierten neuronalen Netzes für die Erkennung von bis dahin unbekannten Objekten angewandt werden. Je größer die Anzahl und Bandbreite der Trainingsobjekte des Systems, umso besser kann es auf unbekannte Gegenstände generalisieren. Damit könnte dauerhaft das gezielte Training von Objekten für Anwendungen entfallen. Das langfristige Ziel ist eine Steuerung, die selbständig und flexibel beliebige und unbekannte Dinge mit industrieller Zuverlässigkeit greifen kann.

Lernen ohne vorgegebenes Modell

Genau das ist der entscheidende Unterschied zu heutigen Bin Picking Lösungen. Das Forschungssystem der ROLE-Gruppe funktioniert ohne ein im Vorfeld "geteachtes" Modell des zu greifenden Werkstücks und damit auch für unbekannte Objekte. Einschränkungen bezüglich deren Form und Beschaffenheit gibt es prinzipiell keine. Auch Kenntnisse über Material- und Oberflächeneigenschaften sind nicht notwendig und werden implizit gelernt. Ein großer Vorteil des modellfreien Ansatzes, für den weder die 3D-Form eines Objekts noch die mathematische Modellierung des Greifprozess notwendig sind.

So könnte es in der Industrie flexibel und mit weniger Programmier-aufwand eingesetzt werden. Die Automatisierung vieler neuer Applikationen würde möglich - von der Intralogistik bis hin zur Servicerobotik. Gleichzeitig können, neben dem Greifen selbst, weitere Arten der Objekt-manipulation, wie z.B. das Verschieben, realisiert werden. Der Roboter lernt dabei selbständig Objekte so zu verschieben, dass sie im nächsten Schritt besser gegriffen werden können - ganz im Sinne des beliebten Geschicklichkeitsspiels "Jenga" von Hasbro. Dies ermöglicht das vollständige Entleeren einer Kiste ohne weitere Geräte (wie z.B. Schüttelplatten).

Das Training des Roboters funktioniert dabei komplett ohne menschliche Eingriffe. In der Praxis ist genau dieses Automatisieren des Lernvorgangs eine der größten Herausforderungen. Erst wenn das System allen Ansprüchen, wie z.B. einer vorgegebenen Taktzeit, genügt, kann es in der Fertigung produktiv eingesetzt werden und dabei natürlich auch weiter dazulernen. Auch hier ergeben sich Zeitvorteile gegenüber dem üblichen Vorgehen bei Bin Picking Anwendungen. Zum einen ist das ROLE-System bei der Berechnung des nächsten Griffs mit nur 20 Millisekunden sehr schnell. Zum anderen reduziert sich die manuelle Programmierung bei Inbetrieb-nahme des Systems. Bin Picking könnte damit deutlich an Flexibilität gewinnen.

Die Forscher der ROLE-Gruppe nutzen das Ensenso SDK, um Tiefenbilder aufzunehmen und mit OpenCV und TensorFlow weiter zu verarbeiten

3D-Bilddaten als Basis

Die visuelle Grundlage für den Griff des Roboters liefert eine Ensenso 3D-Kamera. Sie blickt von oben auf den Behälter, zufällig gefüllt mit Objekten einer oder verschiedener Art. Das Bild-verarbeitungssystem projiziert eine kontrastreiche Textur auf den Kisteninhalt und erzeugt eine 3D-Punktewolke der von oben sichtbaren Oberflächen, als Basis für die Berechnung des Tiefenbildes in Graustufen. Dieser Schritt ist direkt im Ensenso SDK implementiert. Das Tiefenbild wird anschließend auf eine Auflösung von nur 12.000 Pixel skaliert und als Eingabe für die KI-Algorithmen verwendet. Das neuronale Netz kümmert sich daraufhin um die Bildanalyse und die folgerichtigen Schritte für den nächsten Griff in die Kiste.

Die Kamera ist direkt am "Kopf" des Roboters montiert, um so flexibel unterschiedliche Experimente realisieren zu können. "Wir haben uns für eine Ensenso N10 Kamera entschieden, weil das Modell einen geringen Mindestabstand von nur ca. 30 cm zum Objekt ermöglicht und insgesamt über einen großen Distanzbereich verfügt. Als aktive Stereokamera im Infrarotbereich, die auch für bewegte Szenen geeignet ist, erfüllt sie alle unsere Voraussetzungen.”, erklärt Berscheid die Wahl des Kameramodells.

Das robuste, kompakte Aluminiumgehäuse der Ensenso N10 Kamera, mit verschraubbaren GPIO-Steckverbindern für Trigger und Flash und USB 2.0 Anschluss, ist mit zwei monochromen CMOS-Sensoren (Global-Shutter, 752 x 480 Pixel) sowie einem Projektor (Infrarot im nicht sichtbaren Bereich, 850 nm) ausgestattet. Vorkalibriert und inklusive MVTec HALCON-Schnittstelle sowie objektorientierter API (C++, C#/ .NET) ausgeliefert, ist die 3D-Kamera mit Brennweiten von 3.6 bis 16 mm für Arbeitsabstände bis 2.000 mm und sogar für die 3D-Erfassung bewegter Objekte geeignet. Die Forscher der ROLE-Gruppe nutzen die NxLib des Ensenso SDKs um Tiefenbilder aufzunehmen und mit OpenCV und TensorFlow weiter zu verarbeiten.

Ausblick

Die am KIT entwickelten Verfahren sind zukunftsweisend, die Forscher sind jedoch noch nicht am Ziel. "Während das Bin Picking mit einfachen Objekten wie Schrauben bereits zuverlässig funktioniert, ist insbesondere für das Greifen komplexerer, unbekannter Objekte noch einige Forschung bis zur Produktreife notwendig. Die Methoden, die wir dabei entwickeln, sind jedoch grundlegend und flexibel für verschiedene Aufgaben einsetzbar", so Lars Berscheid. Innerhalb der Robotik-Forschung bleiben selbstlernende Systeme ein zentrales Thema. Aus anwendungsnahen Projekten spüren auch die Wissenschaftler den Wunsch zu mehr Flexibilität in der Produktion, was in der Robotik häufig zum Einsatz von mehr Sensorik und damit auch mehr Bildverarbeitung führt.

Am KIT wird sich die Forschung auch weiterhin auf zwei zentrale Themen konzentrieren: Zum einen, wie grundlegende Methoden des Lernens verbessert und beschleunigt werden können. Techniken, wie das Training mit Hilfe eines digitalen Zwillings, durch Simulation am Computer und der anschließenden Übertragung auf einen realen Roboter, aber auch der Transfer von Wissen zwischen verschiedenen Aufgaben sind dabei vielversprechend. Zum anderen erforschen die Wissensschaftler, welche neuen Anwendungen besser oder sogar erstmalig mit lernenden Robotersystemen automatisiert werden könnten. Spannende Möglichkeiten gibt es hier z.B. in der Handhabung von Textilien (Greifen und Falten von Handtüchern und Kleidung), das Auseinanderbauen industrieller Teile wie Elektromotoren für das Recycling, die Lackierung unbekannter Objekte basierend auf Kameradaten, oder die Handhabung von Flüssigkeiten oder granularen Medien. Diese Arbeiten werden in der Simulation gelernt und dann auf den realen Roboter übertragen.

Herausforderungen sind dabei z.B. wie eine weitere Steigerung der Greifraten und der Robustheit des Systems erreicht werden kann. „Prinzipiell können wir mit dem ROLE-System Greifraten von über 95% erzielen.“, erläutert Berscheid. Das heißt von 100 Greifversuchen sind maximal 5 erfolglos. Die Frage, die sich dabei nun stellt: Können die restlichen Fehlversuche durch längeres Lernen überhaupt noch weiter reduziert werden?

Eine weitere nicht triviale Problemstellung ist, wie das System mit fehlenden 3D-Daten im Tiefenbild umgeht. Derzeit beschränkt sich das ROLE-Team darauf, Objekte lediglich vertikal von oben zu greifen. Doch wie kann das System alle sechs Freiheitsgrade nutzen? Auch für andere typische Herausforderungen des modellfreien Bin Pickings, insbesondere für nachfolgende Prozessschritte wie der Ablage oder der Weiterverarbeitung der gegriffenen Objekte, werden neue Lösungsansätze gesucht.

Vor den KIT-Wissenschaftlern liegt zwar noch einiges an Forschungsarbeit, doch die Ansätze und bisherigen Ergebnisse zeigen das immense Potential des maschinellen Lernens für den industriellen Einsatz. Die 3D-Bildverarbeitung ist damit unweigerlich verbunden und liefert wichtige Basisdaten zur Steuerung der „Roboterhände“ hin zum perfekten Griff. Gesehen, gespeichert, gelernt - das ist Zukunft.

* Bestärkendes Lernen im maschinellen Bereich, bei dem unterstützt durch Belohnungen selbständig eine Strategie erlernt wird

Ensenso N10 - 3D-Vision, schnell und präzise

  • Mit USB 2.0 Schnittstelle – universell und flexibel einsetzbar

  • Kompaktes, robustes Aluminiumgehäuse

  • Global-Shutter CMOS-Sensoren und Musterprojektor integriert

  • Bis zu 30 Bilder pro Sekunde bei voller Auflösung und 64 Disparitätsstufen

  • Konzipiert für Arbeitsabstände bis 2.000 mm (N10) und variable Bildfelder

  • Ausgabe einer einzigen 3D-Punktewolke aller im Mehrkamerabetrieb eingesetzten Kameras

  • Live-Komposition der 3D-Punktwolken aus mehreren Blickrichtungen

  • Projected Texture Stereo Vision“-Verfahren für Aufnahmen texturloser Oberflächen

  • Erfassung sowohl stehender als auch bewegter Objekte

  • Mitgeliefertes Softwarepaket mit Treiber und API für Windows und Linux

  • Ein Softwarepaket unterstützt sowohl USB als auch GigE Modelle

  • Beispielprogramme mit Quellcode für HALCON, C, C++, C#

  • Vorkalibriert und somit einfach einzurichten

  • Integrierte Funktion für die Roboter-Hand-Auge-Kalibrierung mittels Kalibrierplatte

  • Softwareseitige Einbindung von uEye Industriekameras, bspw. um zusätzliche Farbinformationen oder Barcodes zu erfassen

  • Subsampling und Binning für flexible Daten- und Frameraten