Clear Sky Science · de

Kollektive und augmentierte Intelligenz übertreffen künstliche Intelligenz bei Tests zur Emotionserkennung

· Zurück zur Übersicht

Warum das im Alltag wichtig ist

Wer ist besser darin, Emotionen aus einem Blick auf die Augen zu lesen: Menschen oder Maschinen? Während sich Systeme der künstlichen Intelligenz in Schulen, Kliniken und am Arbeitsplatz verbreiten, werben viele Werkzeuge damit, Stimmungen und mentale Zustände aus Gesichtern zu beurteilen. Diese Studie zeigt, dass ein leistungsstarkes KI‑Modell zwar die meisten einzelnen Personen in Labor‑ähnlichen Emotionstests schlagen kann, Gruppen von Menschen, die unabhängig voneinander arbeiten, aber dennoch vorausliegen – und die besten Ergebnisse insgesamt erzielt werden, wenn menschliche und maschinelle Urteile kombiniert werden.

Figure 1. Menschen plus KI gemeinsam beurteilen Emotionen aus den Augen genauer als jede der beiden Seiten für sich.
Figure 1. Menschen plus KI gemeinsam beurteilen Emotionen aus den Augen genauer als jede der beiden Seiten für sich.

Wie die Tests zum Emotionserkennen funktionieren

Die Forschenden konzentrierten sich auf zwei weit verbreitete Laborspiele, bei denen Menschen nur aus Fotografien der Augenregion Gefühle und Gedanken erschließen sollen. In jedem Test sehen Betrachter ein Bild und müssen aus vier kurzen Wörtern dasjenige wählen, das am besten zum mentalen Zustand der Person passt. Ein Test verwendet überwiegend schwarz‑weiß‑Fotos einer einzelnen ethnischen Gruppe, während die neuere Version Farbbilder von Menschen aus vielfältigeren Hintergründen enthält und einfachere Vokabeln nutzt. Jahrzehntelange Forschung verknüpft die Ergebnisse in diesen Tests mit sozialen Fähigkeiten und klinischen Ergebnissen, auch wenn sie kein perfektes Abbild des emotionalen Lebens außerhalb des Labors sind.

Wie sich eine führende KI gegenüber einzelnen Menschen schlägt

Das Team bewertete ein starkes multimodales Sprachmodell namens GPT‑5 mini, das Bilder und Text analysieren kann. Sie führten das Modell pro Testitem 100‑mal aus, ohne Übungsbeispiele zu geben, um die Basisleistung zu erfassen. Im Vergleich zu Daten von mehr als 27.000 menschlichen Teilnehmenden beantwortete GPT‑5 mini beide Tests in etwa 83 Prozent der Fälle korrekt, deutlich über den menschlichen Durchschnitten von 71 bzw. 63 Prozent. Detaillierte Analysen über die gesamte Bandbreite menschlicher Fähigkeiten zeigten, dass die KI nahezu alle Personen mit niedrigen und mittleren Punkten übertraf. Beim älteren Test konnten die besten menschlichen Teilnehmenden das Modell jedoch leicht erreichen oder übertreffen, während die KI beim neueren multikulturellen Test ihren Vorsprung selbst an der Spitze hielt.

Warum Menschenmengen Maschinenmengen schlagen

Als Nächstes fragten die Forschenden, was passiert, wenn viele einzelne Antworten zusammengelegt werden. Sie simulierten Gruppen, indem sie wiederholt Stichproben von Menschen oder von KI‑Läufen zogen und die häufigste Antwort gewinnen ließen – eine einfache Regel namens Pluralitätsabstimmung. Menschliche Gruppen verbesserten sich stark mit zunehmender Größe; wurden die Antworten von 100 Personen kombiniert, näherte sich die Genauigkeit in einem Test der Perfektion. Im Gegensatz dazu profitierten KI‑Gruppen kaum vom Hinzufügen weiterer Läufe. Unterschiedliche Aufrufe desselben Modells neigten dazu, dieselben Fehler zu wiederholen, sodass die Gruppe ihre eigenen Fehler nicht korrigieren konnte. Effektiv war das wie das mehrfache Befragen desselben Experten statt der Nutzung verschiedenartiger Lebenserfahrungen.

Menschen und KI zusammen sind am besten

Der abschließende Schritt war die Mischung von menschlichen und KI‑Stimmen. Die Forschenden bauten hybride Gruppen, in denen die Mehrheit aus Menschen bestand und ein kleinerer Anteil aus KI‑Läufen, wobei jede Seite unabhängig Antworten beisteuerte, bevor sie kombiniert wurden. Diese augmentierten Gruppen übertrafen konsistent sowohl reine Menschen‑ als auch reine KI‑Gruppen. Beim neueren, inklusiveren Test konnten weder Menschen noch KI allein über etwa 95 Prozent Genauigkeit hinauskommen, doch die gemischten Gruppen erreichten etwa 98 Prozent – und das mit kleineren Gruppengrößen. Dieses Muster deutet darauf hin, dass Menschen und Maschinen tendenziell unterschiedliche Fehlerarten machen und ihre Stärken sich daher natürlich ergänzen.

Figure 2. Fehler von Menschen und KI unterscheiden sich, weshalb die Kombination ihrer Emotionsschätzungen zu einer genaueren Endentscheidung führt.
Figure 2. Fehler von Menschen und KI unterscheiden sich, weshalb die Kombination ihrer Emotionsschätzungen zu einer genaueren Endentscheidung führt.

Was das für den Einsatz von Emotion‑KI bedeutet

Die Studie kommt zu dem Schluss, dass der Vergleich von KI mit einem „durchschnittlichen Menschen“ irreführend sein kann, weil er die Kraft kollektiver menschlicher Urteilsbildung außer Acht lässt. Ein starkes Modell wie GPT‑5 mini mag die meisten Individuen in engen Labortests übertreffen, bleibt aber hinter dem zurück, was vielfältige Gruppen von Menschen gemeinsam erreichen können – insbesondere wenn Maschinen lediglich dieselben Fehler wiederholen. Der verlässlichste Ansatz für Aufgaben wie das Lesen von Emotionen aus Gesichtern besteht nicht darin, Menschen durch KI zu ersetzen, sondern menschliche Einsicht mit maschineller Konsistenz in sorgfältig gestalteten Systemen zu paaren, die Menschen in der Schleife behalten.

Zitation: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

Schlüsselwörter: Emotionserkennung, kollektive Intelligenz, Mensch‑KI‑Zusammenarbeit, multimodale KI, soziale Kognition