Clear Sky Science · it

Valutare i modelli di IA per la classificazione di pubblicità di cibo e alcol rispetto ai benchmark umani

2026-03-11 · Torna all'indice

Perché è importante monitorare le pubblicità online

Ogni giorno le persone scorrono innumerevoli annunci di cibo e alcol sui social media, spesso senza notare quanto questi messaggi possano influenzare fortemente ciò che mangiamo e beviamo. Le agenzie sanitarie e i ricercatori vogliono tenere sotto controllo quanto vengono promossi prodotti poco salutari, soprattutto verso bambini e adolescenti, ma controllare manualmente migliaia di annunci è lento e costoso. Questo studio pone una domanda attuale: i moderni sistemi di intelligenza artificiale possono svolgere questo lavoro di monitoraggio con la stessa affidabilità degli esseri umani e, in tal caso, per quali tipi di caratteristiche degli annunci possiamo già fidarci di loro?

Come lo studio ha analizzato annunci del mondo reale

I ricercatori hanno raccolto 1000 annunci Facebook di 77 importanti marchi belgi di cibo, bevande e alcol, includendo sia le immagini che le didascalie. Circa 600 membri del pubblico generale, tre dietiste formate e quattro avanzati sistemi di IA hanno esaminato gli stessi annunci. Per ogni annuncio hanno risposto a domande come se fosse presente alcol, a chi sembrava rivolto l'annuncio (bambini, adolescenti o adulti), che tipo di inserzionista fosse e quali tattiche promozionali o categorie alimentari apparivano. Alcune domande prevedevano una sola risposta possibile, come una decisione sì/no sull'alcol. Altre consentivano risposte multiple, ad esempio diverse offerte promozionali o più tipi di alimenti nello stesso annuncio. Questo disegno ha permesso al team di confrontare IA, lavoratori crowd e esperti testa a testa.

Dove l'IA eguaglia il giudizio umano

Per domande semplici a risposta singola i sistemi di IA—soprattutto GPT-4o e Qwen—hanno ottenuto performance notevoli. Nel decidere se un annuncio contenesse alcol, l'accordo tra questi modelli e le dietiste è stato superiore al 90 percento e quasi indistinguibile dall'accordo tra le dietiste stesse. Nel classificare a chi l'annuncio era principalmente rivolto e di che tipo di inserzionista si trattasse, le IA hanno raggiunto livelli di accordo che rientrano nella variazione naturale osservata tra diversi codificatori umani. In altre parole, per caratteristiche nette come “alcol o non alcol” e per target o tipi di marchio chiari, i migliori sistemi di IA già operano a un livello grosso modo paragonabile a quello umano.

Dove le cose si complicano e nascono disaccordi

Le prestazioni sono calate per le domande più complesse con risposte multiple. Quando i codificatori dovevano identificare varie offerte promozionali (sconti, concorsi, programmi fedeltà), strategie di marketing (eventi, personaggi, endorsement) o categorie alimentari dettagliate (come snack, piatti pronti o latticini), l'accordo è risultato significativamente più basso per tutti—umani e IA allo stesso modo. Anche le dietiste, specialiste in nutrizione, spesso non erano d'accordo tra loro, soprattutto sulle tattiche di marketing più astratte. Per alcune etichette di strategia di marketing, l'accordo a coppie tra dietiste poteva essere estremamente basso, a indicare che il compito è intrinsecamente difficile e in parte soggettivo. In questo contesto, l'IA non è rimasta chiaramente indietro rispetto agli umani; si è comportata piuttosto come un ulteriore valutatore umano, con un certo grado di rumore.

Bias nascosti nel modo in cui l'IA interpreta gli annunci

Oltre ai punteggi complessivi, gli autori hanno esaminato come i modelli tendessero sistematicamente a sovra- o sotto-detectare specifiche etichette. In tutte le domande, le IA erano restie a scegliere opzioni che significassero “nessuno” o “non applicabile”, tendendo invece ad assegnare almeno una caratteristica concreta. Questo crea il rischio di sovrastimare la frequenza di offerte speciali o tattiche persuasive. Alcuni modelli, come Gemma e Qwen, hanno mostrato bias più marcati di altri: per esempio, segnalavano frequentemente eventi e piatti pronti anche quando i codificatori umani non lo facevano. GPT-4o ha mostrato in generale schemi più miti e conservativi, ma presentava comunque punti ciechi—per esempio sulle offerte sconto e sugli endorsement di celebrità o enti di beneficenza. Queste idiosincrasie sistematiche implicano che affidarsi a un singolo sistema di IA potrebbe distorcere le stime di quanto le persone siano esposte a particolari tattiche di marketing o categorie alimentari.

Linee guida per l'uso dell'IA nella pratica

Per tradurre i risultati in pratiche operative, gli autori propongono una strategia a tre livelli. Nel primo livello, compiti relativamente semplici a risposta singola—come rilevare l'alcol, il tipo di annuncio di base o il gruppo target principale—sono pronti per l'automazione su larga scala, con l'IA che prende in carico gran parte del lavoro manuale dopo un piccolo controllo di validazione locale. Il secondo livello riguarda domande più complesse e a risposte multiple su offerte, strategie e categorie alimentari dettagliate. Qui l'IA può essere un assistente utile per preselezionare annunci, suggerire etichette o guidare i revisori umani, ma la supervisione umana e definizioni di etichette più precise restano cruciali. Un terzo livello include aree ancora più intricate o non testate, come altre sostanze dannose o dettagli nutrizionali di precisione, dove i risultati dell'IA dovrebbero al momento essere trattati come esplorativi piuttosto che affidabili.

Cosa significa questo per i consumatori e le politiche

In termini pratici, lo studio mostra che l'IA odierna può già aiutare le agenzie di sanità pubblica e i ricercatori a monitorare aspetti semplici della pubblicità di cibo e alcol su scala dei moderni social media. Tuttavia, quando si tratta di trucchi di vendita sottili e categorie alimentari complesse, sia gli umani che le macchine fanno ancora fatica a trovare accordo, e i modelli di IA presentano bias riconoscibili. Gli autori concludono che combinare con attenzione IA ed esperienza umana—usando l'IA dove è più forte e gli esseri umani dove contano sfumature e interpretazione—offre la strada più promettente per un monitoraggio equo ed efficace di come i prodotti poco salutari sono promossi online.

Citazione: Gitu, PA., Cerina, R., Grigoriev, A. et al. Evaluating AI models for food and alcohol advertisement classification against human benchmarks. Sci Rep 16, 13058 (2026). https://doi.org/10.1038/s41598-026-42426-x

Parole chiave: pubblicità alimentare, marketing dell'alcol, intelligenza artificiale, social media, politica sanitaria pubblica