Clear Sky Science · nl

Evaluatie van de kwaliteit van door AI gegenereerde ondertiteling vanuit een receptiegericht perspectief: een vergelijkende studie van ChatGPT-, menselijke en neurale machinale vertalingen in sitcoms

· Terug naar het overzicht

Waarom ondertitels voor komedie ertoe doen

Streaming heeft buitenlandse tv-series tot alledaags vermaak gemaakt, maar grappen kunnen hun effect verliezen als ondertitels tekortschieten. Deze studie onderzoekt hoe goed verschillende typen Chinees–Engelse ondertitels werken voor de klassieke Amerikaanse sitcom Friends, en stelt een eenvoudige vraag die voor elke kijker relevant is: maken AI-hulpmiddelen zoals ChatGPT het gemakkelijker of moeilijker om van de show te genieten?

Verschillende manieren om ondertitels te maken

De onderzoekers vergeleken drie soorten ondertitels voor korte fragmenten uit de eerste aflevering van Friends. De eerste set kwam van een professionele fan-groep die de dialogen zorgvuldig vertaalde. De tweede set gebruikte een bekend online vertaalprogramma. De derde gebruikte ChatGPT, met de opdracht de Engelse regels alleen in natuurlijk Chinees te vertalen. Alle ondertitels waren tweetalig, met Chinees boven Engels, en bevatten lastige momenten met woordspelingen, sarcasme of emotionele verschuivingen, die in komedie bijzonder belangrijk zijn.

Om te begrijpen hoe kijkers reageerden, stuurde het team een online pakket naar honderden Chinese deelnemers. Elke persoon keek naar negen fragmenten: drie scènes, telkens herhaald met een andere ondertitelversie in willekeurige volgorde zodat ze niet wisten welke welke was. Na elk trio kozen ze welke ondertitels hen hielpen het plot te volgen en beoordeelden ze hun tevredenheid op een eenvoudige vijfpuntsschaal. Een laatste vraag vroeg wat ze het meest waarderen in ondertitels, zoals nauwkeurigheid, gebruiksgemak of vloeiende timing met de video.

Figure 1. Hoe verschillende makers van ondertitels de kijkervaring van een sitcomaflevering vormen.
Figure 1. Hoe verschillende makers van ondertitels de kijkervaring van een sitcomaflevering vormen.

Ondertitelkwaliteit meten vanuit twee invalshoeken

De studie bleef niet steken bij persoonlijke meningen. De auteurs lieten de drie ondertitelversies ook door een gespecialiseerd beoordelingssysteem lopen dat meet hoe goed ondertitels de oorspronkelijke betekenis weergeven, vlot lezen en comfortabel op het scherm passen. Dit systeem houdt verschillende foutsoorten bij, van onhandige bewoordingen tot ernstige betekeningsveranderingen, en zet ze om in een algemene kwaliteitscore. Door deze scores te vergelijken met de kijkerratings konden de onderzoekers zien of deskundige beoordelingen overeenkwamen met de alledaagse ervaring van het publiek.

Over alle drie de scènes scoorden ChatGPT-ondertitels duidelijk beter dan die van het traditionele machinale vertaalsysteem, zowel in de deskundigescores als in de kijkerstevredenheid. In sommige gevallen, vooral in één fragment, scoorde de ChatGPT-versie zelfs hoger dan de professionele ondertitels in de technische beoordeling. Kijkers vonden de regels vaak natuurlijk en gemakkelijk te volgen, en velen konden ze niet betrouwbaar onderscheiden van menselijke vertalingen. Gemiddeld kwamen de door mensen gemaakte ondertitels echter nog steeds iets beter uit de bus in publieksbeoordelingen, vooral wat betreft het vastleggen van humor of cultureel rijke uitdrukkingen.

Figure 2. Hoe menselijke, traditionele machinale en AI-vertalers grapjes aanpakken en de kijkvreugde beïnvloeden.
Figure 2. Hoe menselijke, traditionele machinale en AI-vertalers grapjes aanpakken en de kijkvreugde beïnvloeden.

Wie de kijkers zijn verandert wat ze zien

De studie vond dat de achtergrond van mensen bepaalt hoe scherp ze de ondertitels beoordelen. Middelbare scholieren beoordeelden alle drie versies vaak vergelijkbaar en vonden de ChatGPT-ondertitels soms even goed of zelfs beter dan de oorspronkelijke fan-ondertitels. Universiteitsstudenten en mensen met een hogere opleiding waren kritischer en beter in het opmerken van verschillen tussen versies. Kijkers die Friends eerder hadden gezien waren ook gevoeliger voor nuances en gaven de voorkeur aan de originele ondertitels, terwijl nieuwkomers moeite hadden de versies uit elkaar te houden. Of iemand talen had gestudeerd bleek minder van invloed dan het algemene opleidingsniveau en hoe vertrouwd men was met de serie.

Waarom AI nog steeds een menselijke toets nodig heeft

Concrete voorbeelden in het artikel tonen zowel de belofte als de beperkingen van AI-ondertitels. Bij sommige grappen leverde ChatGPT vloeiender en levendiger Chinees dan de professionele versie, waardoor de humor directer overkwam. In andere gevallen vertaalde het woordelijk en miste het verborgen betekenissen of culturele hintjes, wat kijkers kon verwarren. De enquête bevestigde dat publiek vooral om het begrijpen van het plot geeft, met nauwkeurigheid en vloeiende timing ook hoog in het vaandel. De auteurs concluderen dat AI-hulpmiddelen zoals ChatGPT al betere sitcom-ondertitels bieden dan oudere machinale vertaalmachines en soms kunnen wedijveren met menselijk werk, maar dat ze nog steeds zorgvuldige nabewerking en correctie nodig hebben. Vooralsnog levert de combinatie van AI-snelheid en menselijk oordeel de beste resultaten, waardoor meer kijkers van buitenlandse shows kunnen genieten zonder de kern van de humor te verliezen.

Bronvermelding: Chen, S., Hu, X. Evaluating the quality of AI-generated subtitle translations from a reception-oriented perspective: a comparative study of ChatGPT, human, and neural machine translations in sitcoms. Humanit Soc Sci Commun 13, 748 (2026). https://doi.org/10.1057/s41599-026-07414-6

Trefwoorden: ondertitels, audiovisuele vertaling, ChatGPT, sitcoms, kijkersreceptie