Clear Sky Science · zh

将用于食品与酒精广告分类的人工智能模型与人类基准进行评估

2026-03-11 · 返回目录

为什么追踪网络广告很重要

每天，人们在社交媒体上滑过无数食品与酒精类广告，往往没有注意到这些信息会多大程度地影响我们的饮食与饮酒选择。卫生机构和研究者希望监测不健康产品的宣传强度，尤其是面向儿童和青少年的推广，但人工逐一检查成千上万条广告既缓慢又昂贵。本研究提出了一个及时的问题：现代人工智能系统能否像人类一样可靠地完成这项监测工作？如果可以，在哪些广告特征上我们已经可以信任它们？

研究如何检视真实世界的广告

研究人员收集了来自比利时77个主要食品、饮料和酒类品牌的1000条Facebook广告，包括图片及其说明文本。约600名普通公众成员、三名受过训练的营养师和四个先进的人工智能系统都观看了相同的广告。对于每条广告，他们回答了诸如是否出现酒精、广告似乎针对的群体（儿童、青少年或成年人）、广告主类型以及出现了哪些促销手段或食品类别等问题。有些问题只有一个可能答案，例如酒精的有无判断；另一些则允许多选，例如多种促销手段或同一广告中出现的几类食品。这种设计让团队能够将人工智能、众包编码员与专家进行直接比较。

人工智能与人类判断相当的领域

对于简单的单项选择问题，人工智能系统——尤其是GPT-4o和Qwen——表现出色。在判断广告中是否含有酒精时，这些模型与营养师之间的一致率超过90%，几乎与营养师彼此之间的一致率无异。对于判定广告主要受众和广告主类型等分类，人工智能的达成一致水平同样处在不同人类编码员间自然变动的范围内。换句话说，对于“是否含酒精”等明确特征以及直观的受众或品牌类型判断，最好的人工智能系统已大致能够达到人类水平。

出现分歧与问题的地方

对于更复杂的、多选问题，表现有所下降。当编码员需要识别多种可能的促销优惠（折扣、抽奖、会员计划）、营销策略（活动、角色、代言）或详细的食品类别（如零食、即食餐或乳制品）时，所有参与者——无论是人类还是人工智能——的一致率都显著降低。即使是营养师这类营养领域的专家在一些抽象的营销手法上也常常意见不一。对于某些营销策略标签，营养师之间的两两一致率可能极低，显示该任务本身具有相当难度和主观性。在这种情形下，人工智能并未明显落后于人类；相反，它更像是另一个带有噪声的人类评审者。

人工智能在看待广告时的潜在偏差

超越整体得分，作者还检查了模型在特定标签上持续性地过度或不足检测的倾向。总体看来，所有人工智能都有不太愿意选择“无”或“不适用”选项的倾向，更倾向于赋予至少一个具体特征。这会造成夸大促销或说服手段出现频率的风险。部分模型（如Gemma和Qwen）比其他模型表现出更强的偏向：例如，它们在人工编码员未标注时仍频繁标记活动和即食餐。GPT-4o通常表现出较温和、较保守的模式，但仍存在盲点，例如折扣优惠与名人或慈善代言。这些系统性特点意味着依赖单一人工智能系统可能会使有关人们接触特定营销手段或食品类型的估计产生偏差。

将人工智能应用于实际工作的指导原则

为将研究结果转化为实践，作者提出了三层策略。在第一层，相对简单的单项选择任务——例如检测酒精、基本广告类型或主要目标群体——已准备好进行大规模自动化，在经过小规模本地验证后，人工智能可以接手大部分手工工作。第二层涵盖有关优惠、策略和详细食品类别等更复杂的多选问题。在这里，人工智能可以作为有用的辅助工具，用于预筛选广告、建议标签或引导人工审核，但仍需人工监管和更清晰的标签定义。第三层包括更复杂或未经充分测试的领域，例如其他有害物质或细粒度的营养细节，目前应将人工智能输出视为探索性而非可靠结论。

对消费者和政策制定者的意义

简而言之，研究表明，现今的人工智能已经可以帮助公共卫生机构和研究者在现代社交媒体规模上监测食品与酒精广告的某些直接方面。然而，对于微妙的促销手法和复杂的食品分类，人类与机器仍难以达成一致，且人工智能模型具有可识别的偏差。作者得出结论：将人工智能与人类专业知识谨慎结合——在人工智能最擅长之处使用它，在需要细致判断与解读之处保留人工审核——是实现公平且有效监测网络上不健康产品推广的最有希望路径。

引用: Gitu, PA., Cerina, R., Grigoriev, A. et al. Evaluating AI models for food and alcohol advertisement classification against human benchmarks. Sci Rep 16, 13058 (2026). https://doi.org/10.1038/s41598-026-42426-x

关键词: 食品广告, 酒精营销, 人工智能, 社交媒体, 公共卫生政策