Clear Sky Science · de
Bewertung von KI-Modellen zur Klassifizierung von Lebensmittel- und Alkoholwerbung gegenüber menschlichen Referenzen
Warum das Aufspüren von Online-Werbung wichtig ist
Jeden Tag scrollen Menschen an unzähligen Anzeigen für Lebensmittel und Alkohol in sozialen Medien vorbei, oft ohne zu bemerken, wie stark diese Botschaften unser Ess- und Trinkverhalten beeinflussen können. Gesundheitsbehörden und Forschende möchten überwachen, wie intensiv ungesunde Produkte beworben werden, insbesondere gegenüber Kindern und Jugendlichen, doch das manuelle Prüfen Tausender Anzeigen ist langsam und teuer. Diese Studie stellt eine aktuelle Frage: Können moderne Systeme der künstlichen Intelligenz diese Überwachungsaufgabe ebenso zuverlässig wie Menschen übernehmen, und wenn ja, bei welchen Arten von Anzeigenmerkmalen kann man ihnen bereits vertrauen?
Wie die Studie reale Anzeigen untersuchte
Die Forschenden sammelten 1000 Facebook-Anzeigen von 77 großen belgischen Lebensmittel-, Getränke- und Alkoholmarken, einschließlich der Bilder und ihrer Bildunterschriften. Etwa 600 Mitglieder der Allgemeinbevölkerung, drei ausgebildete Diätassistentinnen, und vier fortgeschrittene KI-Systeme betrachteten dieselben Anzeigen. Für jede Anzeige beantworteten sie Fragen wie, ob Alkohol vorhanden war, an wen sich die Anzeige zu richten schien (Kinder, Jugendliche oder Erwachsene), welche Art von Werbetreibendem dahinterstand, und welche Verkaufstaktiken oder Lebensmittelkategorien auftauchten. Manche Fragen hatten nur eine mögliche Antwort, etwa eine Ja–Nein-Entscheidung zu Alkohol. Andere ließen mehrere Antworten zu, beispielsweise verschiedene Marketingtricks oder mehrere Lebensmitteltypen in derselben Anzeige. Dieses Design erlaubte es dem Team, KI, Crowdworker und Expertinnen direkt miteinander zu vergleichen.

Wobei KI mit menschlichem Urteil übereinstimmt
Bei einfachen, Einzelantwortfragen schnitten die KI-Systeme—insbesondere GPT-4o und Qwen—bemerkenswert gut ab. Bei der Entscheidung, ob eine Anzeige Alkohol enthielt, lag die Übereinstimmung zwischen diesen Modellen und den Diätassistentinnen über 90 Prozent und war kaum von der Übereinstimmung zwischen den Diätassistentinnen selbst zu unterscheiden. Auch bei der Klassifikation, auf welches Publikum sich die Anzeige hauptsächlich richtete und welche Art von Werbetreibendem dahinterstand, erreichten die KIs erneut Übereinstimmungswerte, die innerhalb der natürlichen Variation zwischen verschiedenen menschlichen Codern lagen. Mit anderen Worten: Für eindeutige Merkmale wie „Alkohol ja oder nein“ und klare Zielgruppe- oder Markentypen arbeiten die besten KI-Systeme bereits ungefähr auf menschlichem Niveau.
Wobei es unübersichtlich und uneinheitlich wird
Die Leistung nahm bei komplexeren, Mehrfachantwortfragen ab. Wenn Codierende mehrere mögliche Sonderangebote (Rabatte, Gewinnspiele, Treueprogramme), Marketingstrategien (Events, Figuren, Testimonials) oder detaillierte Lebensmittelkategorien (wie Snacks, Fertiggerichte oder Milchprodukte) identifizieren sollten, war die Übereinstimmung für alle Beteiligten deutlich geringer—sowohl bei Menschen als auch bei KIs. Sogar die Diätassistentinnen, die Ernährungsspezialistinnen sind, waren sich oft uneinig, besonders bei abstrakten Marketingtaktiken. Bei einigen Marketingstrategielabels konnte die paarweise Übereinstimmung zwischen Diätassistentinnen sehr niedrig sein, was zeigt, dass die Aufgabe an sich schwierig und subjektiv ist. In diesem Kontext hinkte die KI den Menschen nicht klar hinterher; vielmehr verhielt sie sich wie ein zusätzlicher, etwas lauterer menschlicher Bewerter.

Versteckte Verzerrungen in der Wahrnehmung von Anzeigen durch KI
Über die Gesamtwerte hinaus untersuchten die Autorinnen und Autoren, welche Labels die Modelle systematisch über- oder untererkannten. Über alle Fragen hinweg zögerten alle KIs, Optionen zu wählen, die „keine“ oder „nicht anwendbar“ bedeuteten, und neigten stattdessen dazu, mindestens ein konkretes Merkmal zuzuweisen. Das birgt das Risiko, die Häufigkeit von Sonderangeboten oder Überredungstaktiken zu überschätzen. Einige Modelle, etwa Gemma und Qwen, zeigten stärkere Verzerrungen als andere: So markierten sie beispielsweise häufiger Events und Fertiggerichte, auch wenn menschliche Codierende dies nicht taten. GPT-4o zeigte im Allgemeinen mildere, konservativere Muster, hatte aber ebenfalls blinde Flecken—etwa bei Rabattangeboten und Promi- oder Wohltätigkeits-Testimonials. Diese systematischen Besonderheiten bedeuten, dass die alleinige Nutzung eines einzelnen KI-Systems Schätzungen darüber verzerren könnte, wie sehr Menschen bestimmten Marketingtaktiken oder Lebensmitteltypen ausgesetzt sind.
Leitlinien für den Einsatz von KI in der Praxis
Um ihre Ergebnisse in die Praxis zu übertragen, schlagen die Autorinnen und Autoren eine dreistufige Strategie vor. In der ersten Stufe sind relativ einfache Einzelantwortaufgaben—wie das Erkennen von Alkohol, grundlegender Anzeigentyp oder Hauptzielgruppe—bereit für groß angelegte Automatisierung, wobei die KI nach einer kleinen lokalen Validierung einen Großteil der manuellen Arbeit übernehmen kann. Die zweite Stufe umfasst komplexere Mehrfachantwortfragen zu Angeboten, Strategien und detaillierten Lebensmittelkategorien. Hier kann die KI als nützliche Assistenz dienen, Anzeigen vorzusortieren, Labels vorzuschlagen oder menschliche Prüferinnen zu leiten, doch menschliche Aufsicht und bessere Labeldefinitionen bleiben entscheidend. Eine dritte Stufe umfasst noch komplexere oder wenig getestete Bereiche, wie andere schädliche Substanzen oder fein granulare Ernährungsdetails, bei denen KI-Ausgaben derzeit eher explorativ als zuverlässig zu behandeln sind.
Was das für Verbraucherinnen, Verbraucher und Politik bedeutet
Einfach gesagt zeigt die Studie, dass heutige KI bereits Gesundheitsbehörden und Forschenden dabei helfen kann, klare Aspekte von Lebensmittel- und Alkoholwerbung im Maßstab moderner sozialer Medien zu überwachen. Bei subtilen Verkaufstricks und komplexen Lebensmittelkategorien jedoch haben sowohl Menschen als auch Maschinen weiterhin Schwierigkeiten, sich zu einigen, und KI-Modelle weisen erkennbare Verzerrungen auf. Die Autorinnen und Autoren kommen zu dem Schluss, dass eine sorgfältige Kombination von KI und menschlicher Expertise—KI dort einsetzen, wo sie am stärksten ist, und Menschen dort, wo Nuancen und Interpretation zählen—den vielversprechendsten Weg darstellt, um eine faire und effektive Überwachung der Bewerbung ungesunder Produkte online zu erreichen.
Zitation: Gitu, PA., Cerina, R., Grigoriev, A. et al. Evaluating AI models for food and alcohol advertisement classification against human benchmarks. Sci Rep 16, 13058 (2026). https://doi.org/10.1038/s41598-026-42426-x
Schlüsselwörter: Lebensmittelwerbung, Alkoholmarketing, künstliche Intelligenz, soziale Medien, gesundheitspolitik