Ein sich schnell bewegender Roboterarm mit Ensenso Kameras sortiert Schrauben

3D Automatisierung Ensenso Ensenso N F&E (Forschung & Entwicklung) Künstliche Intelligenz Robotik

Selbstständig lernende Roboter lösen Aufgaben mithilfe einer Ensenso 3D-Kamera

25.08.2019

Gesehen, gespeichert, gelernt

Das Ausprobieren verschiedener Verhaltensweisen gehört zu den klassischen Lernmethoden. Erfolg oder Misserfolg entscheiden darüber, welches Gebaren übernommen und somit gelernt wird. Dieses Prinzip lässt sich auf die Welt der Roboter übertragen. Am Institut für Intelligente Prozessautomation und Robotik des Karlsruher Instituts für Technologie (KIT) befasst sich die Robot Learning Group (ROLE) mit verschiedenen Schwerpunkten in den Bereichen des maschinellen Lernens. Dabei erforschen die Wissenschaftler, wie Roboter durch selbstständiges Ausprobieren lernen Aufgaben zu lösen. Diese Methoden werden insbesondere für das Lernen von Objektmanipulation eingesetzt, beispielsweise für das Greifen von Objekten in einem typischen Bin Picking Szenario. Eine Ensenso N10 3D-Kamera direkt am „Kopf“ des Roboters liefert die benötigten Bilddaten.

Das Greifen von chaotisch liegenden Gegenständen ist gerade in der industriellen Automation eine zentrale Aufgabe. Aktuelle Bin Picking Lösungen sind jedoch häufig unflexibel und stark an das zu greifende Werkstück angepasst. Die Forschungsprojekte der Robot Learning Group versprechen Abhilfe, z. B. mit Robotern, die selbstständig lernen, zuvor unbekannte Objekte aus einem Behälter zu greifen. Um eine solche Aufgabe zu lernen, beginnt der Roboter zunächst mit zufälligen Greifversuchen, wie es auch ein Mensch machen würde. Ein neuronales Netz setzt die dabei aufgenommenen 3D-Bilder mit den erfolgreichen bzw. missglückten Greifversuchen in Zusammenhang. Dafür wird zu jedem Bild das Greifergebnis gespeichert, das über einen Kraftsensor im Greifer ermittelt wurde. Die KI (künstliche Intelligenz) erkennt anhand der gespeicherten Daten sinnvolle Greifpunkte für die Objekte und „trainiert“ sich damit selbst. Wie bei modernen Methoden des Reinforcement Learning* üblich, sind dazu große Datenmengen und viele Greifversuche unerlässlich. Die Forscher des KITs konnten die Anzahl letzterer jedoch deutlich reduzieren und damit auch die zum Lernen benötigte Zeit verkürzen.

Ein Roboterarm mit Ensenso Kameras greift eine Schrauben aus blauen Behältnis. — So gegriffen wie gelernt

Der richtige Griff reduziert die Trainingszeit

Unterschied zu analytischen (oder auch modellbasierten) Greifmethoden müssen dem ROLE-Roboter die zur Erkennung notwendigen Merkmale vorab nicht beschrieben werden. Eine wesentliche Rolle spielt aber, wie häufig das System ein Objekt bei „ähnlichen“ Bildern bereits erfolgreich fassen konnte. Der Griff, den der Roboter ausprobiert, ist dabei entscheidend für einen schnelleren Lernerfolg. Mithilfe eines neuronalen Netzes können Greifergebnisse durch das bereits vorhandene Wissen vorhergesagt werden.

„Für ein gut funktionierendes System benötigen wir derzeit etwa 20.000 Greifversuche, was in etwa 80 Stunden Trainingszeit am Roboter entspricht“, erklärt Lars Berscheid, wissenschaftlicher Mitarbeiter des KIT und Teil der Robot Learning Group. Die genannten Zahlen sind Richtwerte und hängen von vielen Faktoren ab, wie z. B. der Greifrate bei zufälligen Griffen, die wiederum unter anderem von der Bauteilgeometrie beeinflusst wird. Wie bei lernenden Systemen üblich ist die Anzahl an verfügbaren Daten der limitierende Faktor für die Fähigkeiten des Systems.

„Daher ist eine wesentliche Aufgabe unserer Forschung, die Zahl der notwendigen Greifversuche zu reduzieren. Die wissenschaftlich zentrale Frage hierzu lautet also: Welche Griffe müssen ausprobiert werden, um möglichst schnell viele Informationen zu gewinnen und so die Trainingszeit zu verkürzen?“, ergänzt Berscheid. An dieser Stelle kommt auch das sogenannte „Transfer Learning“ zum Einsatz. Dabei kann das Wissen eines bereits fertig trainierten neuronalen Netzes für die Erkennung von bis dahin unbekannten Objekten angewandt werden. Je größer die Anzahl und Bandbreite der Trainingsobjekte des Systems, umso besser kann es auf unbekannte Gegenstände generalisieren. Damit könnte dauerhaft das gezielte Training von Objekten für Anwendungen entfallen. Das langfristige Ziel ist eine Steuerung, die selbstständig und flexibel beliebige und unbekannte Dinge mit industrieller Zuverlässigkeit greifen kann.

Lernen ohne vorgegebenes Modell

Genau das ist der entscheidende Unterschied zu heutigen Bin Picking Lösungen. Das Forschungssystem der ROLE-Gruppe funktioniert ohne ein im Vorfeld „geteachtes“ Modell des zu greifenden Werkstücks und damit auch für unbekannte Objekte. Einschränkungen bezüglich deren Form und Beschaffenheit gibt es prinzipiell keine. Auch Kenntnisse über Material- und Oberflächeneigenschaften sind nicht notwendig und werden implizit gelernt. Ein großer Vorteil des modellfreien Ansatzes, für den weder die 3D-Form eines Objekts noch die mathematische Modellierung des Greifprozesses notwendig sind.

Vor Roboter, der Schrauben aus blauen Behältnis sortiert, befinden sich 2 Bildschirme. — Das ROLE-System funktioniert auch für unbekannte Objekte.

So könnte es in der Industrie flexibel und mit weniger Programmieraufwand eingesetzt werden. Die Automatisierung vieler neuer Applikationen würde möglich – von der Intralogistik bis hin zur Servicerobotik. Gleichzeitig können, neben dem Greifen selbst, weitere Arten der Objektmanipulation, wie z. B. das Verschieben, realisiert werden. Der Roboter lernt dabei selbstständig Objekte so zu verschieben, dass sie im nächsten Schritt besser gegriffen werden können – ganz im Sinne des beliebten Geschicklichkeitsspiels „Jenga“ von Hasbro. Dies ermöglicht das vollständige Entleeren einer Kiste ohne weitere Geräte (wie z. B. Schüttelplatten).

Das Training des Roboters funktioniert dabei komplett ohne menschliche Eingriffe. In der Praxis ist genau dieses Automatisieren des Lernvorgangs eine der größten Herausforderungen. Erst wenn das System allen Ansprüchen, wie z. B. einer vorgegebenen Taktzeit, genügt, kann es in der Fertigung produktiv eingesetzt werden und dabei natürlich auch weiter dazulernen. Auch hier ergeben sich Zeitvorteile gegenüber dem üblichen Vorgehen bei Bin Picking Anwendungen. Zum einen ist das ROLE-System bei der Berechnung des nächsten Griffs mit nur 20 Millisekunden sehr schnell. Zum anderen reduziert sich die manuelle Programmierung bei Inbetriebnahme des Systems. Bin Picking könnte damit deutlich an Flexibilität gewinnen.

3D-Bilddaten als Basis

Die visuelle Grundlage für den Griff des Roboters liefert eine Ensenso 3D-Kamera. Sie blickt von oben auf den Behälter, zufällig gefüllt mit Objekten einer oder verschiedener Art. Das Bildverarbeitungssystem projiziert eine kontrastreiche Textur auf den Kisteninhalt und erzeugt eine 3D-Punktewolke der von oben sichtbaren Oberflächen, als Basis für die Berechnung des Tiefenbildes in Graustufen. Dieser Schritt ist direkt im Ensenso SDK implementiert. Das Tiefenbild wird anschließend auf eine Auflösung von nur 12.000 Pixel skaliert und als Eingabe für die KI-Algorithmen verwendet. Das neuronale Netz kümmert sich daraufhin um die Bildanalyse und die folgerichtigen Schritte für den nächsten Griff in die Kiste.

Die Kamera ist direkt am „Kopf“ des Roboters montiert, um so flexibel unterschiedliche Experimente realisieren zu können. „Wir haben uns für eine Ensenso N10 Kamera entschieden, weil das Modell einen geringen Mindestabstand von nur ca. 30 cm zum Objekt ermöglicht und insgesamt über einen großen Distanzbereich verfügt. Als aktive Stereokamera im Infrarotbereich, die auch für bewegte Szenen geeignet ist, erfüllt sie alle unsere Voraussetzungen“, erklärt Berscheid die Wahl des Kameramodells.

Ein Mann steht rechts neben einem Roboterarm und greift nach der befestigten Ensenso Kamera — Die Forscher der ROLE-Gruppe nutzen das Ensenso SDK, um Tiefenbilder aufzunehmen und mit OpenCV und TensorFlow weiter zu verarbeiten

Das robuste, kompakte Aluminiumgehäuse der Ensenso N10 Kamera, mit verschraubbaren GPIO-Steckverbindern für Trigger und Flash und USB 2.0 Anschluss, ist mit zwei monochromen CMOS-Sensoren (Global-Shutter, 752 x 480 Pixel) sowie einem Projektor (Infrarot im nicht sichtbaren Bereich, 850 nm) ausgestattet. Vorkalibriert und inklusive MVTec HALCON-Schnittstelle sowie objektorientierter API (C++, C#/ .NET) ausgeliefert, ist die 3D-Kamera mit Brennweiten von 3.6 bis 16 mm für Arbeitsabstände bis 2.000 mm und sogar für die 3D-Erfassung bewegter Objekte geeignet. Die Forscher der ROLE-Gruppe nutzen die NxLib des Ensenso SDKs, um Tiefenbilder aufzunehmen und mit OpenCV und TensorFlow weiterzuverarbeiten.

Ausblick

Die am KIT entwickelten Verfahren sind zukunftsweisend, die Forscher sind jedoch noch nicht am Ziel. „Während das Bin Picking mit einfachen Objekten wie Schrauben bereits zuverlässig funktioniert, ist insbesondere für das Greifen komplexerer, unbekannter Objekte noch einige Forschungen bis zur Produktreife notwendig. Die Methoden, die wir dabei entwickeln, sind jedoch grundlegend und flexibel für verschiedene Aufgaben einsetzbar“, so Lars Berscheid. Innerhalb der Robotik-Forschung bleiben selbstlernende Systeme ein zentrales Thema. Aus anwendungsnahen Projekten spüren auch die Wissenschaftler den Wunsch zu mehr Flexibilität in der Produktion, was in der Robotik häufig zum Einsatz von mehr Sensorik und damit auch mehr Bildverarbeitung führt.

Am KIT wird sich die Forschung auch weiterhin auf zwei zentrale Themen konzentrieren: Zum einen, wie grundlegende Methoden des Lernens verbessert und beschleunigt werden können. Techniken, wie das Training mithilfe eines digitalen Zwillings, durch Simulation am Computer und der anschließenden Übertragung auf einen realen Roboter, aber auch der Transfer von Wissen zwischen verschiedenen Aufgaben sind dabei vielversprechend. Zum anderen erforschen die Wissenschaftler, welche neuen Anwendungen besser oder sogar erstmalig mit lernenden Robotersystemen automatisiert werden könnten. Spannende Möglichkeiten gibt es hier z. B. in der Handhabung von Textilien (Greifen und Falten von Handtüchern und Kleidung), das Auseinanderbauen industrieller Teile wie Elektromotoren für das Recycling, die Lackierung unbekannter Objekte basierend auf Kameradaten, oder die Handhabung von Flüssigkeiten oder granularen Medien. Diese Arbeiten werden in der Simulation gelernt und dann auf den realen Roboter übertragen.

Herausforderungen sind dabei z. B. wie eine weitere Steigerung der Greifraten und der Robustheit des Systems erreicht werden kann. „Prinzipiell können wir mit dem ROLE-System Greifraten von über 95 % erzielen“, erläutert Berscheid. Das heißt, von 100 Greifversuchen sind maximal 5 erfolglos. Die Frage, die sich dabei nun stellt: Können die restlichen Fehlversuche durch längeres Lernen überhaupt noch weiter reduziert werden?

Eine weitere nicht triviale Problemstellung ist, wie das System mit fehlenden 3D-Daten im Tiefenbild umgeht. Derzeit beschränkt sich das ROLE-Team darauf, Objekte lediglich vertikal von oben zu greifen. Doch wie kann das System alle sechs Freiheitsgrade nutzen? Auch für andere typische Herausforderungen des modellfreien Bin Pickings, insbesondere für nachfolgende Prozessschritte wie der Ablage oder der Weiterverarbeitung der gegriffenen Objekte, werden neue Lösungsansätze gesucht.

Vor den KIT-Wissenschaftlern liegt zwar noch einiges an Forschungsarbeit, doch die Ansätze und bisherigen Ergebnisse zeigen das immense Potenzial des maschinellen Lernens für den industriellen Einsatz. Die 3D-Bildverarbeitung ist damit unweigerlich verbunden und liefert wichtige Basisdaten zur Steuerung der „Roboterhände“ hin zum perfekten Griff. Gesehen, gespeichert, gelernt – das ist Zukunft.

* Bestärkendes Lernen im maschinellen Bereich, bei dem unterstützt durch Belohnungen selbstständig eine Strategie erlernt wird

Karlsruher Instituts für Technologie

Die Forschungsgruppe „ROLE – Robot Learning Group“ des Instituts für Intelligente Prozessautomation und Robotik des Karlsruher Instituts für Technologie (KIT) befasst sich mit verschiedenen Schwerpunkten in den Bereichen des maschinellen Lernens für Roboter. Dies beinhaltet das Reinforcement Learning

von Strategien für Bewegungstrajektorien (Kröger)
zwecks Objektmanipulation durch Roboter und Werkzeugmaschinen (Kröger)
von komplexen Aufgaben, die sequentiell oder nebenläufig aus Bewegungstrajektorien zusammengesetzt sind

Über alle zuvor genannten Applikationen hinweg interessiert sich die Gruppe besonders für Sim-To-Real Transfer.

Zur Kunden-Webseite

Ensenso 3D-Kamera

Verwendetes Modell: Ensenso N10

Zur Kamerafamilie

Sabine Terrasi

Communications Specialist – Corporate & Product

Seit über zehn Jahren gestaltet sie Unternehmensprofile, Broschüren und Case Studies und begleitet Corporate-Themen ebenso wie technische Produktkommunikation. Mit ihrem Hintergrund in strategischer B2B-Kommunikation sorgt sie für klare Botschaften und fundierte Inhalte.

Ihr Projekt
Wie können wir Sie in Ihrem Projekt unterstützen? Gemeinsam finden wir die passende Lösung für Sie!

Jetzt Kontakt aufnehmen

Vision Channel
Videos und Live Sessions rund um Machine Vision.

Zum Vision Channel

Newsletter
Bleiben Sie auf dem neuesten Stand und abonnieren Sie unseren Newsletter.

Newsletter abonnieren

Anwendungen
Entdecken Sie, wie Industriekameras die Zukunft gestalten.

Zu den Anwendungen