"Kann nur zwei Dinge": Roboter räumt ohne Training auf

Ein auf Open Source basierendes Objekterkennungs-System hilft Robotern, sich in bisher fremden Zimmern zurecht zu finden. Das hat Vor- und Nachteile.

In Pocket speichern vorlesen Druckansicht 11 Kommentare lesen

OK-Robot bei seiner Aufgabe, eine Getränkedose auf einem Karton zu platzieren.

(Bild: Nur Muhammad Shafiullah / Video-Screenshot)

Lesezeit: 5 Min.
Von
  • Rhiannon Williams

Roboter sind gut in bestimmten Aufgaben. Sie sind zum Beispiel großartig im Aufheben und Bewegen von Gegenständen, und sie werden sogar immer besser im Kochen. Aber während Roboter solche Aufgaben in einem Labor leicht erledigen können, ist es eine echte Herausforderung, sie in einer unbekannten Umgebung zu trainieren, in der nur wenige Daten zur Verfügung stehen.

Mit einem neuen System namens OK-Robot könnten Roboter nun lernen, auf für sie bisher unbekanntem Terrain Objekte aufzunehmen und zu bewegen. Dieser Ansatz könnte die Lücke zwischen den sich rasch verbessernden KI-Modellen und den tatsächlichen Fähigkeiten der Roboter schließen. Denn auf ein zusätzliches kostspieliges, komplexes Training kann er damit verzichten.

Um das System zu entwickeln, testeten Forscher der New York University und von Meta einen handelsüblichen Roboter namens Stretch, der von der Firma Hello Robot stammt. Er hat einen schlichten Aufbau aus einem Rad, einer hohen Stange und einem einziehbaren Arm. Zum Einsatz kam er in insgesamt zehn Räumen in fünf Wohnungen, wie die Forscher in ihrer noch nicht von Experten geprüften Veröffentlichung beschreiben.

Um den jeweiligen Raum kennenzulernen, begab sich zunächst ein Forscher zusammen mit dem Roboter hinein. Der Forscher musste dann die Umgebung mit Record3D, einer iPhone-App, die das Lidar-System des Telefons nutzt, erfassen, um ein 3D-Video aufzunehmen. Diese konnte er an den Roboter übermitteln.

Das OK-Robot-System ließ dann ein Open-Source-KI-Objekterkennungsmodell über die Einzelbilder des Videos laufen. In Kombination mit anderen Open-Source-Modellen half dies dem Roboter, Objekte in dem Raum zu erkennen, zum Beispiel einen Spielzeugdrachen, eine Zahnpastatube und ein Spielkartenpaket. Aber auch Gegenstände im Raum, die als "Zielort" dienten, konnten auf diese Weise erkannt werden: etwa ein Stuhl, ein Tisch und ein Mülleimer.

Der Auftrag lief dann wie folgt: Das Team wies den Roboter an, einen bestimmten Gegenstand aufzunehmen und ihn an einen neuen Ort zu bringen. Der Zangenarm des Roboters tat dies in 58,5 Prozenz der Fälle erfolgreich. Die Erfolgsquote stieg auf 82 Prozent in Räumen, die weniger unordentlich waren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Der jüngste Boom der künstlichen Intelligenz hat zu enormen Sprüngen bei den Sprach- und Bildverarbeitungsfähigkeiten geführt, so dass Robotikforscher Zugang zu quelloffenen KI-Modellen und -Werkzeugen haben, die es vor drei Jahren noch nicht gab, sagt Matthias Minderer, ein leitender Wissenschaftler für Bildverarbeitung bei Google DeepMind, der nicht an dem Projekt beteiligt war.

"Ich würde sagen, dass es ziemlich ungewöhnlich ist, sich vollständig auf Standardmodelle zu verlassen, und dass es ziemlich beeindruckend ist, sie zum Laufen zu bringen", sagt er. "Wir haben eine Revolution im Bereich des maschinellen Lernens erlebt, die es ermöglicht hat, Modelle zu erstellen, die nicht nur im Labor, sondern auch in der freien Natur funktionieren", fügt Minderer hinzu. "Zu sehen, dass dies tatsächlich in einer realen Umgebung funktioniert, ist eine sehr nützliche Information".

Da die Forscher Modelle verwendeten, die nicht auf dieses spezielle Projekt abgestimmt waren, ergab sich allerdings eine Sackgasse. Fand der Roboter ein gesuchtes Objekt nicht, blieb er einfach stehen, anstatt nach einer Lösung zu suchen. Diese erhebliche Einschränkung ist ein Grund dafür, dass der Roboter in aufgeräumteren Umgebungen eher erfolgreich war – weniger Objekte bedeuteten weniger Verwechslungsmöglichkeiten und einen übersichtlicheren Raum für die Navigation.

Die Verwendung fertiger Open-Source-Modelle war sowohl ein Segen als auch ein Fluch, sagt Lerrel Pinto, Assistenzprofessor für Informatik an der New York University, der das Projekt mitleitete.

"Positiv ist, dass man dem Roboter keine zusätzlichen Trainingsdaten in der Umgebung geben muss, er funktioniert einfach", sagt er. "Die Kehrseite der Medaille ist, dass er nur einen Gegenstand aufnehmen und ihn an einem anderen Ort ablegen kann. Man kann ihn nicht bitten, eine Schublade zu öffnen. Denn er beherrscht nur diese beiden Dinge."

Die Kombination von OK-Robot mit Spracherkennungsmodellen könnte es den Forschern ermöglichen, Anweisungen zu geben, indem sie einfach mit dem Roboter sprechen. Das würde es ihnen erleichtern, mit leicht verfügbaren Datensätzen zu experimentieren, sagt Mahi Shafiullah, Doktorand an der New York University, der die Forschung mit geleitet hat.

"In der [Robotik-]Gemeinschaft herrscht das Gefühl vor, dass Häuser schwierig sind, Roboter schwierig sind und die Kombination von Häusern und Robotern einfach völlig unmöglich ist", sagt er. "Ich denke, wenn die Leute erst einmal glauben, dass Haushaltsroboter möglich sind, wird es in diesem Bereich viel mehr Studien geben."

(jle)