Clear Sky Science · nl
Voorspelling, syntaxis en semantische verankering in de hersenen en grote taalmodellen
Hoe je hersenen het volgende woord raden
Als je naar een verhaal luistert, lijkt het vaak moeiteloos om te volgen—maar onder de oppervlakte is je hersenen constant bezig met raden wat er hierna komt. Tegelijkertijd voorspellen moderne AI-systemen zoals grote taalmodellen (LLM's) ook komende woorden om vloeiende tekst te genereren. Deze studie brengt die twee werelden samen en onderzoekt hoe het menselijk brein woorden in real time anticipeert en hoe die processen zich verhouden tot de manier waarop een geavanceerd AI-model werkt.

Een verhaal beluisteren in het laboratorium
Om natuurlijke taalbegrip te bestuderen gingen de onderzoekers verder dan kunstmatige woordlijsten of korte, geïsoleerde zinnen. In plaats daarvan luisterden 29 jonge volwassen vrijwilligers ongeveer 50 minuten naar een Duitstalig sciencefiction-hoorboek terwijl hun hersenactiviteit werd geregistreerd. Twee complementaire technieken werden gelijktijdig gebruikt: elektro-encefalografie (EEG), die kleine spanningsveranderingen op de schedel meet, en magneto-encefalografie (MEG), die de door hersenactiviteit opgewekte magnetische velden detecteert. Samen kunnen deze methoden de reacties van het brein op elk woord met millisecondeprecisie volgen terwijl mensen een doorlopende verhaallijn volgen.
Verschillende woordsoorten volgen
Het hoorspel werd automatisch opgesplitst in individuele woorden en gelabeld naar grammaticale categorie: zelfstandige naamwoorden (zoals “planeet”), werkwoorden (zoals “rennen”), bijvoeglijke naamwoorden (zoals “donker”) en eigen namen. Voor elk woord in het verhaal haalden de wetenschappers een kort tijdvenster uit de EEG- en MEG-signalen voor en na het uitgesproken woord en gemiddelden ze deze stukjes binnen elke woordklasse. Dit toonde betrouwbare elektrische en magnetische “handtekeningen” voor de verschillende woordtypen, inclusief bekende componenten die gekoppeld zijn aan betekenis en zinsstructuur. Belangrijk is dat het team vond dat activiteit voor zelfstandige naamwoorden zich al begon op te bouwen voordat het woord daadwerkelijk begon, wat suggereert dat het brein in context bijzonder voorbereid was op dit soort woord.
Waar betekenis beweging ontmoet
Om te zien waar in de hersenen deze signalen vandaan kwamen, gebruikten de onderzoekers computermodellen om de waarschijnlijke bronnen van de MEG- en EEG-patronen binnen het hoofd te schatten. Zelfstandige naamwoorden activeerden niet alleen klassieke taalregio's in de temporale kwabben; ze betrokken ook gebieden die overeenkomen met delen van het sensorimotorische systeem, nabij regio's die betrokken zijn bij beweging en lichaamsgevoel. Werkwoorden vertoonden daarentegen een ander en meer beperkt patroon. Dit ondersteunt het idee van “belichaamde” taal, waarbij het begrijpen van een woord—vooral een concreet zelfstandig naamwoord—gedeeltelijk netwerken heractiveert die verbonden zijn met waarneming en actie, zodat betekenis wordt verankerd in eerdere zintuiglijke ervaringen in plaats van alleen in abstracte regels.
Hersenen vergelijken met grote taalmodellen
Het team wendde zich vervolgens tot Meta’s Llama 3.2 taalmodel als computationeel referentiepunt. Eerst testten ze “semantische voorspelling” door het model de voorafgaande context uit het hoorspel te geven en te vragen hoe waarschijnlijk het model het echte volgende woord achtte. Zelfstandige naamwoorden bleken het gemakkelijkst voor het model om te voorspellen, wat overeenkomt met hun centrale rol in het opbouwen van het verhaal. Daarna onderzochten de onderzoekers “syntactische voorspelling” door de interne activaties, of embeddings, binnen Llama te analyseren. Zelfs zonder extra training groeperen verborgen lagen van het model woorden op natuurlijke wijze volgens de grammaticale categorie van het volgende woord, en een eenvoudige probe-netwerk kon vaak aangeven welke woordklasse er zou volgen. Door de lagen heen werd de interne structuur voor eigen namen en zelfstandige naamwoorden duidelijker onderscheiden, wat echoot van de groeiende scheiding van rollen die in de activiteitspatronen van het brein te zien is.

Twee vormen van paraatheid voor woorden
Gezamenlijk suggereren de bevindingen dat het brein zich op minstens twee niveaus voorbereidt op aankomende taal. In temporele gebieden lijkt activiteit vóór het begin van een woord een soort grammaticale of “syntactische” paraatheid te weerspiegelen—kennis over waar bepaalde woordtypes geneigd zijn voor te komen in een zin. In meer frontale en sensorimotorische gebieden lijken paraatheidspatronen rijkere “semantische” verwachtingen te dragen die verbonden zijn met betekenis en ervaring, vooral voor zelfstandige naamwoorden en namen. Grote taalmodellen, die alleen getraind zijn om het volgende woord te voorspellen, ontwikkelen hun eigen gelaagde interne structuren die deze onderscheidingen deels spiegelen, maar ze missen directe verankering in de fysieke wereld. Door hogesnelheids-hersenopnames te combineren met analyses van state-of-the-art AI helpt dit werk te verduidelijken hoe mensen woorden anticiperen tijdens alledaags luisteren en hoe ver de huidige machines zijn gekomen in het benaderen van dat kernaspect van menselijk taalbegrip.
Bronvermelding: Kölbl, N., Rampp, S., Kaltenhäuser, M. et al. Prediction, syntax and semantic grounding in the brain and large language models. Sci Rep 16, 8728 (2026). https://doi.org/10.1038/s41598-026-41532-0
Trefwoorden: taalvoorspelling, hersenen en AI, grote taalmodellen, semantische verankering, EEG MEG taal