Clear Sky Science · de

Menschlich-ähnliche kognitive Generalisierung für große Modelle durch mental representationsgesteuerte Supervision

2026-04-01 · Zurück zur Übersicht

Warum es wichtig ist, der KI beizubringen, wie wir zu denken

Moderne künstliche Intelligenz kann Gesichter erkennen, Fotos beschriften und flüssigen Text schreiben, dennoch fällt es ihr schwer, die flexible Art des Verstehens zu leisten, die Menschen täglich nutzen. Wir können ein einzelnes Beispiel eines Vogels sehen und dann viele Vogelarten wiedererkennen oder erkennen, dass sowohl eine Hängematte als auch ein Kinderwagen das Liegen zum Ausruhen beinhalten. Dieser Artikel untersucht einen neuen Weg, Computermodelle näher an diese menschenähnliche Denkweise zu bringen, indem als Lehrsignal direkt Gehirnaktivität verwendet wird.

Woran heutige intelligente Maschinen scheitern

Standard-Deep‑Learning‑Systeme werden vor allem leistungsfähiger, indem sie größer gemacht und mit mehr Daten trainiert werden. Dieses Rezept funktioniert gut für konkrete Aufgaben wie das Erkennen von Socken, Schwänen oder Autos in Bildern. Die Autoren zeigen jedoch, dass das bloße Hinzufügen von Modellparametern nur wenig Verbesserung beim Erfassen abstrakter Begriffe wie Kleidung, Vögel oder der grundsätzlichen Trennung zwischen Lebendigem und Nicht‑Lebendigem bringt. In One‑Shot‑Lernaufgaben verbesserten sich die Modelle mit zunehmender Größe stark bei spezifischen Objekten, verbesserten sich jedoch kaum — teils sogar verschlechterten sich — bei höherstufigen Kategorien. Analysen der internen Trennung von Konzepten zeigten, dass sie sich, anders als das menschliche Gehirn, nicht von selbst so gruppierten, dass etwa Lebewesen klar von Werkzeugen und anderen Objekten getrennt würden.

Figure 1. Wie Gehirnmuster der KI beibringen können, Objekte mehr wie Menschen zu gruppieren und zu verstehen.

Das Gehirn das System leiten lassen

Um diese Lücke zu schließen, entwarfen die Forschenden eine Methode, die sie „mental representation–gesteuerte Supervision“ nennen. Freiwillige lagen in einem Gehirnscanner und betrachteten zahlreiche natürliche Bilder. Aus diesen Aufzeichnungen extrahierte das Team Aktivitätsmuster in Bereichen der Sehkortexe, die dafür bekannt sind, reichhaltige, hochstufige Informationen darüber zu kodieren, was wir sehen. Gleichzeitig verarbeitete ein künstliches Netzwerk dieselben Bilder. Die zentrale Idee war, die interne Struktur von Ähnlichkeiten und Unterschieden zwischen Objekten im Netzwerk mit der Struktur, die im Gehirn gefunden wurde, in Einklang zu bringen. Die Autoren behandelten sowohl Gehirn als auch Modell als Graphen miteinander verbundener Konzepte und nutzten ein iteratives Graph‑Matching‑Verfahren, um sie näher zusammenzuführen.

Wie sich gehirnagerechte Modelle verhalten

Nach diesem speziellen Training lernten die Modelle nicht einfach nur die beaufsichtigten Bilder auswendig. Stattdessen entwickelten sie eine menschlicher wirkende Konzeptkarte, die auf viele neue Objekte generalisierte, die nie mit Gehirndaten gepaart worden waren. Die verbesserten Modelle wurden deutlich besser im One‑Shot‑Lernen für abstrakte Kategorien und zeigten engere Cluster für Konzepte wie Tier, Fahrzeug oder Musikinstrument. Ihre internen Hierarchien begannen WordNet zu ähneln — einer von Menschen aufgebauten Datenbank über Wortbeziehungen im Englischen — obwohl die Modelle nie explizit auf diese Struktur trainiert wurden. Auf die Frage, welches von drei Bildern „nicht dazu passt“, wählten die gehirngeleiteten Modelle Antworten, die stärker mit umfangreichen menschlichen Urteilen übereinstimmten. Sie erwiesen sich außerdem als schwerer zu täuschen durch kleine, gezielt gestaltete Bildverzerrungen, was auf ein tieferes und robusteres Verständnis von Objekten hindeutet.

Ein Einblick in einen menschenähnlicheren Konzeptraum

Die Autoren gingen weiter und untersuchten das „konzeptuelle Mannigfaltigkeitsfeld“ — die niedrigdimensionale Karte, die den gehirngeleiteten Modellen zugrunde liegt. Indem sie sich auf dieser Karte bewegten und Punkte in natürliche Sprachbeschreibungen dekodierten, zeigten sie, dass benachbarte Positionen semantisch verwandte Ideen repräsentierten, wie verschiedene Arten von Kleidung oder Fahrzeugen. Interpolationen zwischen Regionen erzeugten sanfte Übergänge, etwa wenn man von elektronischen Geräten zu Tieren gleitet und beim Überschreiten zwischen Fahrzeugen und Huftieren bei Pferden landet. Das System konnte auch mehrere verwandte Bilder zu einem einzigen sinnvollen Satz zusammenfassen und einfache „Konzeptarithmetik“ durchführen, Bildunterschriften durch Hinzufügen oder Subtrahieren von Elementen wie Pferd oder Motorrad so anpassen, dass dies mit menschlicher Intuition übereinstimmt.

Figure 2. Wie die Angleichung von KI an Gehirnaktivität ihr Innenleben umgestaltet, sodass sie abstrakte Kategorien und neue Situationen besser bewältigt.

Was das für die zukünftige KI bedeutet

Alltäglich gesprochen legt diese Arbeit nahe, dass ein Schubs durch das menschliche Gehirn KI‑Systeme dabei unterstützen kann, über bloßes Musterabgleich hinauszugehen hin zu etwas, das näher an unserer eigenen Art der Wissensorganisation liegt. Anstatt Modelle nur größer zu machen, zeigt die Studie, dass die Formung ihres internen Konzeptraums nach dem Vorbild der Gehirnstruktur ihre Fähigkeit verbessern kann, neue, abstrakte und ungewöhnliche Situationen zu bewältigen. Obwohl der Ansatz weiterhin von detaillierten Gehirnscans einzelner Personen abhängt, könnte die Ausweitung solcher gehirninformierten Trainings zu künstlichen Systemen führen, die anpassungsfähiger, besser interpretierbar und stärker darauf ausgerichtet sind, wie Menschen die Welt wahrnehmen und über sie schließen.

Zitation: Chen, J., Qi, Y., Wang, Y. et al. Human-like cognitive generalization for large models via mental representation-guided supervision. Nat Commun 17, 4709 (2026). https://doi.org/10.1038/s41467-026-71267-5

Schlüsselwörter: durch Gehirn geleitetes Lernen, abstrakte Konzepte, tiefe neuronale Netze, Konzepthierarchie, kognitive Generalisierung