Clear Sky Science · zh

基于大语言模型的农业问答系统的开发与评估

2026-02-09 · 返回目录

为粮食生产提供智能解答

农民和农业专家每天都要就种什么、如何灌溉以及如何保护作物做出决策。快速获得可靠建议往往决定了丰收还是亏损。本文探讨了现代人工智能工具——大型语言模型——如何驱动农业问答系统，将自然语言问题转化为田间可用的实用指导。

农场为何需要更好的数字化帮助

农业正变得越来越依赖数据，从卫星影像到土壤传感器。然而许多专家和技术人员在需要时仍难以访问可靠、易懂的信息。传统的 AI 系统通常需要大量标注数据、强大的计算资源和专业程序员。相比之下，大型语言模型在大量文本上训练，能够在更少的任务特定数据下回答问题、摘要信息并进行推理。这使它们对需要快速、低成本支持的农民、顾问和推广服务机构具有吸引力。

构建农业答疑机

为检验这些模型在实践中的表现，作者创建了名为 AgriQAs 的农业问答系统。他们从可靠的农业来源收集了 90 道选择题，涵盖三大领域：通用农业、园艺和作物生产。每个主题包含简单、中等和困难题目，题型从基本定义到需要多步骤推理的问题。测试了两种领先的语言模型：OpenAI 的一款（GPT‑4o）和谷歌的一款（Gemini‑2.0‑flash）。对每道题，两种模型都必须像考试中的人一样，从四个选项中选择正确答案。

教 AI 逐步解决农业问题

直接向模型提问并不总能产生最佳答案。问题的表述——“提示（prompt）”——会强烈影响输出结果。研究人员比较了四种提示风格。在最简单的 Zero‑Shot 中，模型仅被给出问题并要求选择一个选项。Chain‑of‑Thought 要求模型展示逐步推理过程。Self‑Consistency 让模型生成多条推理路径，然后选择最一致的答案。Tree‑of‑Thought 鼓励它在决定之前探索多条不同的解法路径。团队还使用了自动提示工程工具来优化指令措辞，强化模型作为农业专家的“角色”并明确其应如何进行推理。

这些 AI 顾问表现如何？

在所有题目上，两种模型的表现都令人惊讶地不错，但性能在很大程度上取决于提示方式。GPT‑4o 的准确率约在 85% 到 95% 之间，而 Gemini‑2.0‑flash 大约在 75% 到 88% 之间。两者最弱的结果均来自简洁的 Zero‑Shot 风格，该风格几乎不提供推理指导。表现最好的方法依赖于更结构化的思维：Self‑Consistency 为 GPT‑4o 带来了最高分，而 Tree‑of‑Thought 对 Gemini‑2.0‑flash 最为有效。错误主要出现在最难的问题以及作物生产类别，这些问题通常需要详细的多步骤决策。作者超越了简单均值，使用正式的统计检验确认提示方法和模型之间的差异是真实存在的，而非偶然。

这对未来农业意味着什么

对非专业人士而言，关键信息是“如何提问”在使用 AI 时几乎和“问谁”一样重要。通过精心设计的提示，大型语言模型可以作为农业工程师和技术人员的强大助理，提供快速且相对准确的建议，而无需对每个新问题进行定制训练。然而，作者强调，这些系统必须负责任地使用：有偏或错误的答案可能误导农民并造成经济损失。随着未来工作加入区域性数据、传感器信息以及来自人类专家的更清晰指导，像 AgriQAs 这样的工具有望成为可持续高科技农业中的日常帮手——帮助种植者在节约资源的同时做出更好的决策。

引用: Eldem, A., Eldem, H. The development and evaluation of agricultural question-answering systems based on large language models. Sci Rep 16, 5357 (2026). https://doi.org/10.1038/s41598-026-35003-9

关键词: 农业人工智能, 问答系统, 大型语言模型, 提示工程, 数字化农业