Clear Sky Science · nl
Onderzoek naar de prestaties van AI bij vertaling van literaire autobiografieën: hoe nauwkeurig benaderen AI‑modellen menselijke vertalingen
Waarom dit van belang is voor alledaagse lezers
De meeste mensen vertrouwen tegenwoordig op online vertaalttools, en sommigen gebruiken AI om romans of memoires in vreemde talen te lezen. Maar kunnen deze systemen echt de emotie, het ritme en de culturele diepte van een levensverhaal vatten? Deze studie onderzoekt hoe drie populaire AI‑systemen en professionele menselijke vertalers omgaan met een bejubelde Chinese literaire autobiografie, en laat zien waar machines uitblinken, waar ze struikelen en wat dat betekent voor lezers die wereldliteratuur via een scherm benaderen. 
Verhalen die talen oversteken
De onderzoekers richten zich op The Great Flowing River, een veelgeprezen Chinese autobiografie die persoonlijke herinnering mengt met de woelige geschiedenis van het oorlogs‑China en het naoorlogse Taiwan. De Engelse versie is door jaren heen vervaardigd door een team van deskundige vertalers dat nauw met de auteur samenwerkte om zowel feitelijke nauwkeurigheid als een terughoudende, emotioneel geremde stijl te bewaren. Deze zorgvuldige menselijke vertaling fungeert als referentiepunt. Daaraan contrasteren de auteurs drie AI‑uitvoer: het neurale systeem van Google Translate, een algemeen groot taalmodel (ChatGPT‑4o) en een nieuwer, op redeneren gericht model (OpenAI‑o1). Allen kregen dezelfde hoofdstukken van Chinees naar Engels vertaald onder alledaagse, standaardinstellingen, zoals een typische gebruiker dat zou doen.
Onder de motorkap van taal kijken
Om verder te komen dan intuïties over “goede” of “slechte” vertalingen, gebruikt de studie een instrument genaamd Coh‑Metrix, dat meer dan honderd kenmerken van Engelse teksten meet. Die variëren van eenvoudige tellingen — zoals het aantal werkwoorden of bijvoeglijke naamwoorden — tot subtielere eigenschappen zoals hoe strak zinnen met elkaar verbonden zijn, hoe concreet de woordkeuze is en hoe makkelijk een passage te volgen is. De auteurs bundelen deze metingen in zes brede gebieden: woordkeus, zinsstructuur, expliciete verbindingen tussen ideeën, diepere conceptuele verbanden, oppervlakkige kenmerken zoals zinslengte en algemene leesbaarheid. Door scores over deze dimensies te vergelijken, kunnen ze kwantitatief aantonen hoe nauw de stijl en structuur van elke AI overeenkomen met die van de menselijke vertaling. 
Hoe de verschillende AI’s zich gedragen
De drie AI‑systemen blijken elk een eigen “persoonlijkheid” te hebben. Google Translate neigt naar meer algemeen vocabulaire en relatief eenvoudige zinnen, waardoor de uitvoer makkelijk leesbaar is maar minder rijk en minder verbonden met de persoonlijke stem van de verteller. Het gebruikt minder eerste‑persoon meervoudspronomina zoals “we” en minder krachtige werkwoorden dan menselijke vertalers, wat het gevoel van gedeelde ervaring dat centraal staat in autobiografie verzwakt. De twee grote taalmodellen daarentegen geven de voorkeur aan meer bijvoeglijke naamwoorden en bijwoorden en aan een breder vocabulaire. Hun formuleringen kunnen geraffineerder en dynamischer overkomen en soms beschrijvende aanvullingen bevatten die door de menselijke vertalers niet werden benadrukt. Dat kan de helderheid op sommige plekken vergroten, maar ook het sobere register van het origineel verstoren, vooral in passages waarvan de kracht voortkomt uit terughoudendheid in plaats van opsmuk.
Diepgang, samenhang en emotionele onderstromen
Wat betreft hoe ideeën zich over zinnen en alinea’s verbinden, benadert geen enkel AI‑systeem de menselijke vertalers volledig. De menselijke versie maakt consequent gebruik van herhaalde zelfstandige naamwoorden, zorgvuldig gekozen verbindingswoorden en duidelijke oorzakelijke aanwijzingen om lezers door complexe gebeurtenissen en emotionele verschuivingen te loodsen. De AI’s vertrouwen vaak minder op zulke expliciete richtlijnen. Tegelijkertijd benadrukken ze soms actie en causaliteit te veel, met veel causale en intentionele werkwoorden die situaties overzichtelijker maar ook letterlijker maken dan het origineel. Het op redeneren gerichte model, OpenAI‑o1, is bijzonder geneigd om extra details in te vullen — bijvoorbeeld door de volledige naam van een politieke leider te noemen of een “verandering in omstandigheden” tot een “crisis” te maken. Zulke aannames kunnen het verhaal directer doen aanvoelen, maar ook afdwalen van wat de auteur daadwerkelijk schreef.
Welke AI voelt het meest menselijk aan
Over de vele metingen heen komt ChatGPT‑4o het dichtst bij het profiel van de menselijke vertalers. Het biedt over het algemeen rijkere woordenschat en contextgevoeliger formuleringen dan Google Translate, terwijl het sommige van de gewaagdere interpretatieve sprongen van OpenAI‑o1 vermijdt. Google Translate blijft, hoewel minder genuanceerd, vaak trouwer aan de oppervlakkige woordkeus en levert zeer leesbare tekst, vooral voor niet‑specialistische lezers. OpenAI‑o1, ondanks het ontwerp om “dieper te denken”, komt in dit specifieke geval het minst overeen met de menselijke vertaling. De sterke kanten in redeneren leiden ertoe dat het bepaalde uitdrukkingen herformuleert of uitbreidt op manieren die stilistisch misstaan of cultureel onnauwkeurig kunnen zijn voor dit soort literaire teksten.
Wat dit betekent voor lezers en vertalers
Voor de gewone lezer is de kernboodschap dat de huidige AI al vertalingen van literaire autobiografieën kan produceren die vloeiend en soms opvallend effectief zijn — maar dat ze nog tekortschieten ten opzichte van menselijke experts in het bewaren van stem, subtiele emotie en culturele nuance. Van de geteste systemen biedt ChatGPT‑4o momenteel de meest nabije benadering van professioneel werk, met Google Translate niet ver daarachter qua praktische leesbaarheid. Het op redeneren gerichte model blijft bij deze taak achter. Menselijke vertalers blijven echter cruciaal: hun vermogen om geschiedenis, cultuur en stijl tegen elkaar af te wegen stelt hen in staat coherente, emotioneel gelaagde verhalen te construeren die machines slechts gedeeltelijk imiteren. Naarmate AI‑hulpmiddelen verbeteren, suggereert deze studie dat ze beter gezien worden als krachtige hulpmiddelen dan als vervangers voor literaire vertalers — ze hebben nog steeds menselijk oordeel nodig om levensverhalen volledig over talen heen tot leven te brengen.
Bronvermelding: Huang, Y., Cheung, A.K.F. Exploring AI’s performance in literary autobiography translation: how closely do AI models match human translation. Humanit Soc Sci Commun 13, 518 (2026). https://doi.org/10.1057/s41599-026-06630-4
Trefwoorden: literaire vertaling, machinale vertaling, grote taalmodellen, Chinese autobiografie, AI versus menselijke vertalers