Clear Sky Science · de

Mehr menschlich gehirnähnliche Sehverarbeitung durch Repräsentationsabgleich mit menschlichem EEG

· Zurück zur Übersicht

Warum diese Forschung wichtig ist

Moderne künstliche Intelligenz kann Objekte auf Fotos mit nahezu menschlicher Genauigkeit erkennen, doch sie „sieht“ die Welt noch nicht so wie unser Gehirn. Diese Studie stellt eine neue Methode vor, um Computersehsysteme mithilfe von Gehirnsignalen zu justieren, die bei Testpersonen aufgezeichnet wurden, und bringt KI damit einen Schritt näher an ein menschlicheres visuelles Verständnis. Indem ein Visionsmodell direkt an menschliche Gehirnaktivität angepasst wird, deutet die Arbeit auf künftige KI hin, die nicht nur leistungsfähig ist, sondern innerlich auch strukturierter ist wie unser eigenes Denken.

Figure 1
Figure 1.

Maschinen mithilfe von Gehirnwellen lehren

Die Autoren konzentrieren sich auf eine einfache, aber gewagte Idee: Anstatt Visionsmodelle nur mit Bildern und Labels zu trainieren, warum zeigt man ihnen nicht auch, wie das menschliche Gehirn auf diese Bilder reagiert? Sie verwenden Elektroenzephalographie (EEG), die winzige Spannungsänderungen auf der Kopfhaut misst, während Menschen Bilder betrachten. EEG ist nichtinvasiv, relativ kostengünstig und lässt sich über viele Durchgänge schnell erfassen. Aus zehn Versuchspersonen nutzte das Team einen großen offenen Datensatz, in dem jede Person Zehntausende natürlicher Objektbilder betrachtete, während ihre EEG-Signale in den ersten zwei Zehntelsekunden nach dem Erscheinen jedes Bildes aufgezeichnet wurden.

Aufbau eines gehirn-abgestimmten Visionsnetzwerks

Ausgehend von einem bestehenden tiefen Visionsmodell namens CORnet-S fügten die Forschenden ein zusätzliches „Bild-zu-Gehirn“-Modul hinzu. Wenn ein Bild in das Netzwerk gelangt, erfüllt das Modell nun zwei Aufgaben gleichzeitig: Es schätzt, welches Objekt vorhanden ist, und es versucht, das EEG-Muster vorherzusagen, das ein echter Mensch für dasselbe Bild zeigte. Dazu werden Signale aus mehreren internen Schichten des Netzwerks in das EEG-Modul geleitet, das lernt, eine kurze Zeitreihe zu erzeugen, die den menschlichen Daten entspricht. Während des Trainings wird das Modell sowohl für korrekte Objekterkennung als auch für die Erzeugung EEG-ähnlicher Aktivität belohnt, wodurch seine internen Merkmale in Richtung der menschlichen visuellen Verarbeitung gelenkt werden.

Näher an Gehirnaktivität über Methoden hinweg

Nachdem sie zehn solcher „ReAlnets“ (je einer pro Versuchsperson) trainiert hatten, fragten die Forschenden, ob diese Modelle tatsächlich gehirnähnlicher geworden waren. Sie verglichen die Muster der Beziehungen zwischen Bildern innerhalb des Modells mit dem Muster im menschlichen EEG, mittels einer Technik namens Representational Similarity Analysis. Über alle wichtigen Schichten und Zeitpunkte zwischen 50 und 200 Millisekunden waren die ReAlnets durchweg dem menschlichen EEG ähnlicher als das ursprüngliche CORnet-S und andere Standardmodelle, mit Spitzengewinnen von bis zu etwa 6 % und relativen Verbesserungen bis zu 40 %. Wichtig ist, dass der Zugewinn auch für neue Objektkategorien galt, die nie im Training verwendet wurden, was zeigt, dass die Angleichung über den Trainingssatz hinaus generalisiert.

Figure 2
Figure 2.

Eindringen in Hirnscans und Verhalten

Eine zentrale Frage ist, ob die Modelle nur EEG-Idiosynkrasien lernten oder etwas Allgemeineres über die menschliche Sicht erfassten. Um dies zu prüfen, nutzten die Autoren einen separaten Bildgebungsdatensatz, in dem andere Versuchspersonen natürliche Bilder, abstrakte Formen und Buchstaben in einem MRT-Scanner betrachteten. Obwohl die ReAlnets diese Daten nie gesehen hatten, stimmten ihre internen Muster enger mit Signalen aus mehreren visuellen Hirnregionen überein als beim Ursprungsmodell. Außerdem war der Grad der Verbesserung für EEG und für MRT über Modelle hinweg stark korreliert, was darauf hindeutet, dass eine gemeinsame Kernrepräsentation gestärkt wurde. Die Forschenden bewerteten zudem, wie oft Modelle und Menschen in anspruchsvollen Objekterkennungsaufgaben ähnliche Fehler machten. Auch hier stimmten ReAlnets besser mit dem menschlichen Verhalten überein als die Basismodelle.

Personalisierte und allgemeine gehirnähnliche Sehverarbeitung

Da jedes ReAlnet an das EEG einer Person angepasst wurde, konnten die Autoren individuelle Unterschiede untersuchen. Sie fanden, dass sich personalisierte Modelle in tieferen Schichten stärker voneinander unterschieden, was widerspiegelt, wie Unterschiede zwischen Personen von frühen zu höheren visuellen Hirnarealen zunehmen. Dennoch generalisierte das Modell einer Person besser auf die EEG-Daten anderer Personen als das nicht angeglichene Basismodell, was zeigt, dass sowohl gemeinsame als auch personenspezifische Strukturen erfasst wurden. Das Team übertrug das Framework außerdem auf eine andere Architektur, ResNet18, und beobachtete erneut verbesserte Übereinstimmung mit EEG, MRT und (in geringerem Maße) Verhalten, was darauf hinweist, dass der Ansatz flexibel ist und nicht an ein einzelnes Modelldesign gebunden ist.

Was das für das Alltagsverständnis bedeutet

Für Nichtfachleute lautet die Kernbotschaft, dass es nun möglich ist, Sehalgorithmen direkt mit nichtinvasiven Aufzeichnungen aus dem menschlichen Gehirn abzustimmen. Die resultierenden ReAlnets erkennen nicht nur Objekte; sie organisieren Informationen auch auf eine Weise, die unseren visuellen Bahnen näherkommt — über elektrische Hirnsignale, MRT-Scans und sogar Ähnlichkeiten in Fehlerprofilen bei Erkennungsaufgaben. Zwar sind die Verbesserungen moderat und viele technische Herausforderungen bleiben bestehen, doch bietet diese Arbeit einen konkreten Schritt hin zu KI-Systemen, deren inneres Funktionieren durch das menschliche Gehirn mitgestaltet ist, was potenziell zu robusteren, besser interpretierbaren und personalisierten Technologien führen kann.

Zitation: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w

Schlüsselwörter: hirn-abgestimmte KI, EEG-Sehen, Objekterkennung, computationale Neurowissenschaft, menschliche Wahrnehmung