Clear Sky Science · nl

AI-modellen evalueren voor classificatie van voedsel- en alcoholreclame tegenover menselijke maatstaven

· Terug naar het overzicht

Waarom het volgen van online advertenties ertoe doet

Elke dag scrollen mensen langs talloze advertenties voor voedsel en alcohol op sociale media, vaak zonder te beseffen hoe sterk deze boodschappen kunnen beïnvloeden wat we eten en drinken. Gezondheidsinstanties en onderzoekers willen bijhouden hoe intensief ongezonde producten worden gepromoot, vooral richting kinderen en tieners, maar het handmatig controleren van duizenden advertenties is traag en kostbaar. Deze studie stelt een actuele vraag: kunnen moderne systemen voor kunstmatige intelligentie dit monitoringswerk even betrouwbaar doen als mensen, en zo ja, bij welke soorten advertentiekenmerken kunnen we ze al vertrouwen?

Hoe de studie naar advertenties uit de praktijk keek

De onderzoekers verzamelden 1000 Facebook-advertenties van 77 grote Belgische merken voor voedsel, drinken en alcohol, inclusief zowel de afbeeldingen als hun bijschriften. Ongeveer 600 leden van het algemene publiek, drie getrainde diëtisten en vier geavanceerde AI-systemen bekeken alle dezelfde advertenties. Voor elke advertentie beantwoordden ze vragen zoals of er alcohol aanwezig was, op wie de advertentie leek gericht te zijn (kinderen, adolescenten of volwassenen), wat voor soort adverteerder het was en welke verkooptactieken of voedselcategorieën voorkwamen. Sommige vragen hadden slechts één mogelijk antwoord, zoals een ja–nee-beslissing over alcohol. Andere stonden meerdere antwoorden toe, bijvoorbeeld verschillende marketingtrucs of meerdere voedseltypes in dezelfde advertentie. Dit ontwerp stelde het team in staat AI, crowdworkers en experts rechtstreeks te vergelijken.

Figure 1
Figuur 1.

Waar AI overeenkomt met menselijke oordelen

Bij eenvoudige vragen met één antwoord presteerden de AI-systemen — vooral GPT-4o en Qwen — opmerkelijk goed. Bij de beslissing of een advertentie alcohol bevatte, lag de overeenstemming tussen deze modellen en de diëtisten boven de 90 procent en was bijna niet te onderscheiden van de overeenstemming tussen de diëtisten onderling. Voor het classificeren van de belangrijkste doelgroep van de advertentie en het type adverteerder bereikten de AI’s opnieuw overeenstemmingsniveaus die binnen de natuurlijke variatie tussen menselijke coderingsresultaten vielen. Met andere woorden: voor duidelijke kenmerken zoals "alcohol of niet" en eenvoudige doelgroep- of merktypes werken de beste AI-systemen al grofweg op menselijk niveau.

Waar het rommelig en oneens wordt

De prestaties daalden bij complexere vragen met meerdere antwoorden. Wanneer coders verschillende mogelijke aanbiedingen moesten identificeren (kortingen, wedstrijden, loyaliteitsprogramma’s), marketingstrategieën (evenementen, personages, endorsement) of gedetailleerde voedselcategorieën (zoals snacks, kant-en-klaarmaaltijden of zuivel), was de overeenstemming voor iedereen duidelijk lager — zowel bij mensen als bij AI. Zelfs de diëtisten, die voedingsspecialisten zijn, waren het vaak niet met elkaar eens, vooral bij abstracte marketingtactieken. Voor sommige labels van marketingstrategieën kon de pairwise-overeenstemming tussen diëtisten extreem laag zijn, wat laat zien dat de taak zelf moeilijk en enigszins subjectief is. In deze context liep AI niet duidelijk achter op mensen; het gedroeg zich eerder als een extra, enigszins lawaaierige menselijke beoordelaar.

Figure 2
Figuur 2.

Verborgen vooroordelen in hoe AI advertenties ziet

Kijkend voorbij de totaalscores onderzochten de auteurs hoe de modellen consequent specifieke labels over- of onderdetecteerden. Over de vragen heen waren alle AI’s terughoudend om opties te kiezen die "geen" of "niet van toepassing" betekenden, en neigden ze in plaats daarvan minstens één concreet kenmerk toe te kennen. Dit creëert een risico dat wordt overschat hoe vaak speciale aanbiedingen of overtuigingstactieken aanwezig zijn. Sommige modellen, zoals Gemma en Qwen, vertoonden sterkere vooroordelen dan andere: ze markeerden bijvoorbeeld vaak evenementen en kant-en-klaarmaaltijden, ook wanneer menselijke coders dat niet deden. GPT-4o vertoonde over het algemeen mildere, meer conservatieve patronen, maar had nog steeds blinde vlekken — bijvoorbeeld bij kortingsaanbiedingen en beroemdheids- of goede doelen-endorsements. Deze systematische eigenaardigheden betekenen dat het vertrouwen op één enkel AI-systeem schattingen van blootstelling aan bepaalde marketingtactieken of voedseltypen kan vertekenen.

Richtlijnen voor het gebruik van AI in de praktijk

Om hun resultaten naar de praktijk te vertalen, stellen de auteurs een strategie met drie niveaus voor. In het eerste niveau zijn relatief eenvoudige taken met één antwoord — zoals het detecteren van alcohol, het basistype advertentie of de belangrijkste doelgroep — klaar voor grootschalige automatisering, waarbij AI na een kleine lokale validatie veel van het handmatige werk kan overnemen. Het tweede niveau bestrijkt complexere, multi-antwoordvragen over aanbiedingen, strategieën en gedetailleerde voedselcategorieën. Hier kan AI een nuttige assistent zijn om advertenties voor te screenen, labels voor te stellen of menselijke beoordelaars te ondersteunen, maar menselijk toezicht en betere labeldefinities blijven cruciaal. Een derde niveau omvat nog complexere of ongeteste gebieden, zoals andere schadelijke stoffen of fijnmazige voedingsdetails, waar AI-uitkomsten momenteel als verkennend moeten worden beschouwd in plaats van betrouwbaar.

Wat dit betekent voor consumenten en beleid

Samengevat laat de studie zien dat de huidige AI al publieke gezondheidsinstanties en onderzoekers kan helpen om eenvoudige aspecten van voedsel- en alcoholreclame op de schaal van moderne sociale media in de gaten te houden. Wanneer het echter gaat om subtiele verkoopsnagels en complexe voedselcategorieën, hebben zowel mensen als machines nog steeds moeite om overeenstemming te bereiken, en dragen AI-modellen herkenbare vertekeningen. De auteurs concluderen dat het zorgvuldige combineren van AI met menselijke expertise — AI gebruiken waar het het sterkst is en mensen inzetten waar nuance en interpretatie het belangrijkst zijn — de meest veelbelovende weg biedt naar een eerlijk en effectief toezicht op de promotie van ongezonde producten online.

Bronvermelding: Gitu, PA., Cerina, R., Grigoriev, A. et al. Evaluating AI models for food and alcohol advertisement classification against human benchmarks. Sci Rep 16, 13058 (2026). https://doi.org/10.1038/s41598-026-42426-x

Trefwoorden: voedselreclame, alcoholmarketing, kunstmatige intelligentie, sociale media, volksgezondheidsbeleid