Keynote

Wenn Robotik menschliches Lernverhalten erklären kann

Prof. Dr. Jan PetersKarlsruhe, April 2024 - 2024 gilt als das Jahr der generativen Künstlichen Intelligenz (KI), insbesondere da Chat GPT und seine Wettbewerber längst fest im Alltag vieler Menschen verwurzelt sind. 2025 hat Jensen Huang, CEO des Grafikprozessorenherstellers Nvidia und einer der zentralen Treiber der KI-Entwicklung, zum Jahr der humanoiden Roboter gemacht. Doch damit sich diese wirklich durchsetzen können, müssen Roboter in der Lage sein, selbst Daten zu sammeln, um sich stetig zu verbessern. Maschinelles Lernen bedient sich dabei mit dem sogenannten "Reinforecement Learning", dem bestärkenden Lernen, dem Vorbild der Natur. Doch genau das ist auch vice versa möglich: menschliches Lernen mithilfe von Erkenntnissen aus der Robotik besser zu verstehen. 

Darüber spricht der Informatiker und Robotik-Forscher Prof. Dr. Jan Peters in seiner Eröffnungs-Keynote am 6. Mai 2025 in Karlsruhe beim LEARNTEC-Kongress. Sein Thema: "Von der Natur lernen. Biomimetische Ansätze für das maschinelle Lernen".

Maschinelles Lernen durch Versuch und Irrtum: Der Roboter als Kleinkind, der aus seinen Fehlern lernt und für Erfolge belohnt wird. Kann man Reinforcement Learning so simpel beschreiben?

Prof. Dr. Jan Peters: Ja, man kann diese Parallele durchaus ziehen. Wir lernen auf der einen Seite durch Imitation, auf der anderen Seite durch unsere Erfahrungen, durch Fehler und Irrtum. Beide Methoden sind essenziell, denn rein durch das Suchen nach Fehlern und deren Verbesserung würden wir nicht bestehen. Direkt nach der Geburt sind Kinder bereits in der Lage zu imitieren, was sehr eindrucksvoll ist!
In der Robotik haben wir beides ausprobiert, um Roboter zu einer Lösung zu bringen. Vieles davon war grandios, aber wir sind genauso grandios gescheitert – beispielsweise darin, einen Haushaltroboter zu liefern, der alles kann. Und das liegt nicht an der Hardware. Bis vor kurzer Zeit war unser Argument immer, dass das maschinelle Hören und Sehen noch nicht gut genug funktioniert, die Sprachverarbeitung schlecht sei oder dass die fehlenden Körper schuld seien, aber das trifft alles nicht mehr zu. Das vergangene Jahr war für die Robotik in etwa das, was Chat GTP für die Allgemeinheit war. Auf einmal kamen aus dem Nichts 180 verschiedene humanoide Roboter von verschiedenen chinesischen, amerikanischen und auch einzelnen europäischen Firmen auf.

Wenn also inzwischen die Hardware nicht mehr das Problem und die Sinneswahrnehmung ausreichend: Wieso sind hochentwickelte Roboter dann noch nicht Teil unseres Alltags?

Prof. Dr. Jan Peters: Wir sind jetzt an dem Punkt gekommen, an dem man humanoide Roboter für den Preis eines Kleinwagens bekommt – natürlich viel zu viel. Der Chef von iRobots hatte mir einmal erzählt, dass er Preis für seinen Staubsaugerroboter damals so gesetzt hat, dass ein Mann oder eine Frau bereit war, diesen Betrag ohne vorherige Zustimmung des Partners auszugeben. Die Umfrage damals hatte 500 Dollar ergeben. So wurde also der Preis für den Staubsaugerroboter festgesetzt – und dieser hat den Markt erobert und andere, teurere Modelle verdrängt. Davon sind wir bei humanoiden Robotern natürlich meilenweit entfernt – die Roboter leisten noch zu wenig für ihren Preis. Und genau hier ist das Lernen eine essenzielle Komponente, um Roboter kostengünstig zu instruieren.

Wie kann ich mir Lernen in der Robotik vorstellen? Funktioniert maschinelles Lernen unabhängig oder braucht es immer auch Feedback durch den Menschen?

Prof. Dr. Jan Peters: Wir befinden uns in einer Zeit der generativen KI und der großen Netze. Wir haben jetzt schon vortrainierte neuronale Netze, die einfache Tätigkeiten selbstständig ausführen können, beispielsweise eine Tasse anzuheben. Diese Tätigkeit muss niemand mehr manuell programmieren. Über viele Generationen von Robotik hinweg haben wir sehr große Datensätze generiert und aus diesen schon eine Menge an Verhalten herausimitiert. Dazu kommt nun noch die Selbstverbesserung am realen System – und das das geht hauptsächlich über das Reinforcment Learning, also das Lernen aus Versuch und Fehlern.

Bei Kindern spielt das Thema Belohnung auch eine Rolle, um gewünschtes Verhalten zu fördern. Wie belohnt sich ein Roboter, wenn er menschenunabhängig lernt?

Prof. Dr. Jan Peters: Die einfachste Form ist ein binärer Reward, also guter Roboter, böser Roboter. Wenn Der Roboter fast immer eine 1 erhält, hat er die Lösung geschafft, wenn er fast immer eine 0 erhält, muss er weiter ausprobieren. Dieses Ausprobieren ist bei uns Menschen elementar. Als Kinder versuchen wir dieselben Bewegungen viele Male zu machen, da wir eine Variabilität, wie es die Neurowissenschaftler nennen, in der Bewegung haben.
Diese Variabilität sorgt dafür, dass wir immer weiter lernen und ausprobieren, weil sich unser Körper Tag für Tag stark verändert und wir uns immer wieder auf die aktuelle Situation anpassen müssen. Aber wenn man lang genug eine Bewegung übt, wird man langsam immer besser, bis man bei der Genauigkeit angekommen ist, die die menschliche neuronale Verarbeitung realisieren kann. Und genau so ist es auch bei Robotern: Wir erhalten aus großen Datensätzen gelernte Modelle – erst bewegt sich der Roboter damit noch ungelenk, dann wird er mit der Zeit immer besser.

Ab welchem Punkt sind Aufgaben so komplex, dass sie eine massive Herausforderung für die Robotik bedeuten? Kann man hier irgendwo eine Grenze ziehen?

Prof. Dr. Jan Peters: Die Herausforderung ist, dass wir für das Lösen von Aufgaben, egal ob in der Industrie oder im Haushalt, jeweils eigene Datensätze brauchen. Aber wir können nicht für alle Aufgaben der Welt riesige Datensätze sammeln. Dementsprechend wird es langfristig darauf hinauslaufen, dass die Roboter selbst das Sammeln der Daten übernehmen müssen.
Nehmen Sie das Beispiel Chat GPT und seine Mitbewerber: Da wurde einmal das komplette Internet abgesaugt, fast alle Bücher, die verfügbar waren, und damit konnten Chat GPT und die vielen Competitors trainiert werden. Aber wir sind an einem Punkt angekommen, an dem 80 Prozent aller jemals vom Menschen generierten Daten fast vollständig verwendet worden. Das heißt also mehr oder weniger, uns gehen die Daten aus. Ich habe immer gedacht, uns gehen irgendwann Erdöl oder Uran aus, aber niemand ist auf die Idee gekommen, dass uns ausgerechnet das menschlich aufgeschriebene Wissen und die menschlich generierten Fotos ausgehen würden!

Dementsprechend werden wir in der Robotik langfristig das Problem haben, dass Roboter die Daten selbst generieren müssen, was für Roboter alles andere als trivial ist. Menschen haben die Daten aus den unterschiedlichsten Gründen erhoben. Dass man einen Roboter nun in die Welt schickt, ihn Aufgaben ausprobieren und Erfolgsbeispiele sammeln lässt und es am Ende funktioniert, ist relativ unwahrscheinlich. Denn aktuell versucht der Roboter immer zu vertiefen, was er schon kann. Wenn er so also nur sein aktuelles Modell stärkt, dann fällt das Modell innerhalb kurzer Zeit in sich zusammen – der modell collapse.

Das bedeutet, dass ein Roboter sich, wenn er losgelassen wird, wenn er sich selbst weiterentwickelt, nicht unbedingt in die richtige Richtung entwickeln würde?

Prof. Dr. Jan Peters: Im Endeffekt ist es, als würden Sie immer nur eine einzige Tätigkeit ausüben. Am Ende kann es einem Menschen durchaus passieren, dass er Dinge verlernt, weil er eine einzelne Sache übertrainiert.
Ein Beispiel aus den Frühzeiten des autonomen Fahrens: Bei einer frühen Version in den USA hat das autonome Fahren überhaupt nicht funktioniert, obwohl das Fahrzeug mit allen wichtigen Daten versorgt wird – aus dem einfachen Grund, dass das Fahrzeug immer das Normalverhalten des Fahrens betrachtet hat. Alle gefährlichen Situationen hat der Lernalgorithmus schlicht "weggeschmissen", weil das ja nur seltene Ausnahmefälle waren. Und damit waren keine Recovery Strategies mehr vorhanden, keine Korrekturmanöver, wenn man beispielsweise von der Straße abgekommen war oder als Reaktion auf gefährliche Situationen.

In Ihrem Vortrag werden Sie erläutern, dass Reinforcement Learning nicht nur vom Menschen in Richtung Roboter betrachtet werden sollte, sondern umkehrt das maschinelle Lernen auch Rückschlüsse auf biologische Lernprozesse ermöglicht. Haben Sie ein Beispiel?

Prof. Dr. Jan Peters: Es gibt ganze Schulen von Psychologen und Neurowissenschaftlern, die sich mit dem Fangen von Bällen beschäftigen. Diese haben sehr unterschiedliche Theorien. Die einen sagen, "Menschen sind schlau, die haben ein Vorwärtsmodell", d.h. das Gehirn sagt voraus, an welchem Ort der Ball ankommen wird und wann und wohin ich meine Hand lenken muss. Beim Baseball kann man das anhand des Baseball Batters klar sehen: Bereits auf halber Strecke des Balls wird das letzte augenbasierte Signal versendet, also sind wir scheinbar sehr schlau und verfolgen eine prädiktive Strategie.
Im Gegensatz dazu haben wir den Baseball Outfielder, derjenige, der den Ball fangen soll, den der Batter mit dem Schläger weggeschlagen hat. Der Outfielder macht meistens was ganz Verrücktes: Er schaut den Ball an, zentriert ihn auf der Retina und läuft die ganze Zeit rückwärts. Daraus haben eine ganze Menge Psychologen, Sportwissenschaftler und Pädagogen dann geschlossen, dass Menschen eigentlich gar nicht so schlau sind und nach dem Motto handeln "Konzentrier dich auf den Ball und lauf rückwärts, dann wird schon alles gut gehen". Wäre der Mensch "optimal", würde er angeblich den Ball nur einmal anschauen, sich dann zum Ziel drehen und vorwärtslaufen.
Was wir aus Sicht der Robotik in einem aufwändigen Feldversuch – auf einem Baseballfeld und mit Drohnen zum Tracken der Sportleraugen – zeigen konnten, ist, dass sich beide Verhalten – von Batter und Outfielder – mit dem gleichen Robotikmodell erklären lassen. Die Unterschiede entstehen durch die Reaktionszeit und die Auswirkung des Rauschens. Beim Vorwärtslaufen summiert sich das Rauschen so schnell auf, dass es sich für den Outfielder nicht lohnt, vorwärtszulaufen – er müsste sich ständig umdrehen, um seine Position relativ zum Ball zu bestimmen. Deswegen ist das Rückwärtslaufen das optimale Verhalten für den Outfielder – laut unserem Robotikmodell.
Mit unserem Modell konnten wir sogar komplett unbekannte Strategien vorhersagen! Indem wir die zwei wichtigsten Aspekte des Bällefangens – "wieviel Zeit hat man für die Reaktion" und "wieviel Rauschen hat man im System" – bewusst variieren, hat unser Modell zusätzliche Verhalten generiert, wo der Fänger sowohl vorwärtslaufen als auch sich umdrehen muss, um den Ball zu fangen. Die Existenz dieser bislang unbekannten Verhalten konnten wir empirisch zeigen. Fazit: Die Menschen sind durchaus optimal – und sehr schlau darin, wie sie die Unsicherheit in Odometrie/Fortbewegung und Wahrnehmung berücksichtigen.

Wann wird wohl der nächste Entwicklungssprung passieren, so dass Roboter Teil unseres Alltags werden?

Prof. Dr. Jan Peters: Sehr schwierig zu sagen! Ich habe nicht damit gerechnet, wie schnell Chat GPT da sein würde. Ich habe nicht damit gerechnet, dass das letzte Jahr so viele humanoide Roboter auf den Markt bringen würde. Autonomes Fahren hingegen dauert viel länger als wir alle erwartet haben.
Wir haben in Deutschland eine überalternde Bevölkerung, wir werden mehr und mehr Robotik brauchen, weil uns einfach die Arbeitskräfte ausgehen. In der Industrie hat sich bei der Verwendung von Robotik wahnsinnig viel getan, leider ist es zu einem gewissen Prozentsatz an der deutschen Industrie vorbeigegangen.
Im Servicebereich liegt ein unglaubliches Potenzial: Ob Küche oder Bewirtung oder alle leicht repetitiven Aufgaben, lassen sich diese sehr gut automatisieren.
Denken Sie auch an den Rehabilitationsbereich: Da bekommen sie als Schlaganfallpatient mal hier und da ein Stündchen Therapie, weil es zu wenige Physiotherapeuten gibt. Jetzt überlegen Sie sich mal, welchen Unterschied ein Roboter, welcher sich auf einen Menschen anpasst und ihm Schritt für Schritt Fähigkeiten zurückgeben kann, macht! Dazu gibt es auch erfolgreiche Pilotstudien und zertifizierte Roboter, die man hierbei zum Einsatz bringen könnte, z.B. von der Firma Hokoma.
Schauen sie sich mal Krankenhäuser an: Wir haben dort hochqualifizierte Fachkräfte, denen die Bezeichnung Krankenschwester nicht gerecht wird. Von deren Arbeitszeit geht ein hoher Prozentsatz für Hol-und-bring-Aufgaben verloren, also Tätigkeiten, die man mit der Robotik problemlos lösen könnte beim aktuellen Stand der KI.
Stellen Sie sich vor, es gibt Operationen die nur zwei bis drei Personen weltweit ausführen können und Experten, die einen einzelnen Schnitt besser können als alle anderen Chirurgen auf dieser Welt. Was wäre, wenn für diesen einen besonderen Schnitt Beispiele vorliegen und wir diesen mithilfe von KI vollautomatisieren und für alle zugänglich und demokratisieren würden!