Clear Sky Science · zh
基于大语言模型的农业问答系统的开发与评估
为粮食生产提供智能解答
农民和农业专家每天都要就种什么、如何灌溉以及如何保护作物做出决策。快速获得可靠建议往往决定了丰收还是亏损。本文探讨了现代人工智能工具——大型语言模型——如何驱动农业问答系统,将自然语言问题转化为田间可用的实用指导。

农场为何需要更好的数字化帮助
农业正变得越来越依赖数据,从卫星影像到土壤传感器。然而许多专家和技术人员在需要时仍难以访问可靠、易懂的信息。传统的 AI 系统通常需要大量标注数据、强大的计算资源和专业程序员。相比之下,大型语言模型在大量文本上训练,能够在更少的任务特定数据下回答问题、摘要信息并进行推理。这使它们对需要快速、低成本支持的农民、顾问和推广服务机构具有吸引力。
构建农业答疑机
为检验这些模型在实践中的表现,作者创建了名为 AgriQAs 的农业问答系统。他们从可靠的农业来源收集了 90 道选择题,涵盖三大领域:通用农业、园艺和作物生产。每个主题包含简单、中等和困难题目,题型从基本定义到需要多步骤推理的问题。测试了两种领先的语言模型:OpenAI 的一款(GPT‑4o)和谷歌的一款(Gemini‑2.0‑flash)。对每道题,两种模型都必须像考试中的人一样,从四个选项中选择正确答案。
教 AI 逐步解决农业问题
直接向模型提问并不总能产生最佳答案。问题的表述——“提示(prompt)”——会强烈影响输出结果。研究人员比较了四种提示风格。在最简单的 Zero‑Shot 中,模型仅被给出问题并要求选择一个选项。Chain‑of‑Thought 要求模型展示逐步推理过程。Self‑Consistency 让模型生成多条推理路径,然后选择最一致的答案。Tree‑of‑Thought 鼓励它在决定之前探索多条不同的解法路径。团队还使用了自动提示工程工具来优化指令措辞,强化模型作为农业专家的“角色”并明确其应如何进行推理。

这些 AI 顾问表现如何?
在所有题目上,两种模型的表现都令人惊讶地不错,但性能在很大程度上取决于提示方式。GPT‑4o 的准确率约在 85% 到 95% 之间,而 Gemini‑2.0‑flash 大约在 75% 到 88% 之间。两者最弱的结果均来自简洁的 Zero‑Shot 风格,该风格几乎不提供推理指导。表现最好的方法依赖于更结构化的思维:Self‑Consistency 为 GPT‑4o 带来了最高分,而 Tree‑of‑Thought 对 Gemini‑2.0‑flash 最为有效。错误主要出现在最难的问题以及作物生产类别,这些问题通常需要详细的多步骤决策。作者超越了简单均值,使用正式的统计检验确认提示方法和模型之间的差异是真实存在的,而非偶然。
这对未来农业意味着什么
对非专业人士而言,关键信息是“如何提问”在使用 AI 时几乎和“问谁”一样重要。通过精心设计的提示,大型语言模型可以作为农业工程师和技术人员的强大助理,提供快速且相对准确的建议,而无需对每个新问题进行定制训练。然而,作者强调,这些系统必须负责任地使用:有偏或错误的答案可能误导农民并造成经济损失。随着未来工作加入区域性数据、传感器信息以及来自人类专家的更清晰指导,像 AgriQAs 这样的工具有望成为可持续高科技农业中的日常帮手——帮助种植者在节约资源的同时做出更好的决策。
引用: Eldem, A., Eldem, H. The development and evaluation of agricultural question-answering systems based on large language models. Sci Rep 16, 5357 (2026). https://doi.org/10.1038/s41598-026-35003-9
关键词: 农业人工智能, 问答系统, 大型语言模型, 提示工程, 数字化农业