Autor: A.R. Bilder: Wikipedia/Tianmu peter Lizenz: CC BY-SA 3.0
Die KI-Labore von Google haben eine wegweisende Studie veröffentlicht, in der die Entwicklung eines Vision-Sprach-Aktions (VLA) Modells erklärt wird. Roboter sollen durch das Durchforsten des Internets, menschliche Befehle in einfacher Sprache verstehen und gleichzeitig in Umgebungen navigieren können – ähnlich wie der Roboter aus dem Disney-Film Wall-E oder der Roboter aus dem Film Bicentennial Man aus den späten 1990er Jahren.
„Über Jahrzehnte hinweg haben Menschen in ihrer Vision von der fernen Zukunft nahezu immer eine Hauptrolle für Roboter gesehen“, schrieb Vincent Vanhoucke, der Leiter der Robotik bei Google DeepMind, in einem aktuellen Blog-Beitrag.
Vanhoucke fuhr fort: „Roboter wurden als verlässlich, hilfreich und sogar charmant dargestellt. Dennoch ist die Technologie über diese gleichen Jahrzehnte hinweg schwer fassbar geblieben und steckt immer noch im Bereich der Vorstellung aus Science-Fiction.“
Bis jetzt. DeepMind hat den Robotics Transformer 2 (RT-2) eingeführt, der ein VLA-Modell nutzt, das aus dem Web und aus Robotikdaten lernt und dieses Wissen in das Verständnis der Umgebung und menschlicher Befehle übersetzt.
Bisher war es möglich, Roboter für einfache Aufgaben wie das Entsorgen von Müll oder das Zubereiten von Pommes Frites zu trainieren. Doch ein völlig neues Upgrade der Intelligenz ist angekommen, indem Roboter nun in der Lage sind, Komplexere Aufgaben auszuführen:
„Anders als Chatbots benötigen Roboter eine praktische Anbindung an die reale Welt und ihre Fähigkeiten. Das Training beschränkt sich nicht nur darauf, alles über einen Apfel zu erfahren: wie er wächst, seine physischen Eigenschaften oder sogar die Anekdote, dass er angeblich auf den Kopf von Sir Isaac Newton fiel. Ein Roboter muss in der Lage sein, einen Apfel im Kontext zu erkennen, ihn von einem roten Ball zu unterscheiden, verstehen, wie er aussieht und vor allem wissen, wie man ihn aufnimmt“, betonte Vanhoucke.
Die entscheidende Erkenntnis ist, dass Roboter bald weitaus intelligenter sein könnten als je zuvor, gerade ausreichend, um Menschen in wenig anspruchsvollen Aufgaben zu ersetzen. Im März informierte Goldman seine Kunden darüber, dass die Automatisierung des Dienstleistungssektors in den kommenden Jahren zu Millionen von Arbeitsplatzverlusten führen könnte.