Clear Sky Science · zh

用于问题解决过程生成的中文小学科学问题数据集

· 返回目录

用更聪明的人工智能帮助孩子学科学

家长和教师越来越将人工智能视为潜在的学习伙伴,但现有的聊天机器人往往给出过于肤浅或对儿童来说太过深奥的解释。本文介绍了一个新的中文小学科学问题(CSQ)数据集,旨在教会大型语言模型像优秀的小学教师那样解释科学:按步骤、难度适中,并紧密贴合孩子在课堂上实际学习的内容。

Figure 1
Figure 1.

为小学生打造的新题库

CSQ 数据集收录了来自中国小学课程、学校试卷和可信在线资源的 12,000 道精心设计的科学题目。题目涵盖四大领域——生命科学、物理科学、地球与太空、以及技术与工程,覆盖小学一至六年级。不同于许多只列出题目和正确答案的现有题库,CSQ 的每一项还包括年级信息、主题、被考查的科学技能,以及一份完整且适龄的解题说明。

捕捉儿童真实的思维方式

CSQ 的一项重要创新是关注每个答案背后的“问题解决思路”。对于每道题,专家以适合目标年级的语言与细节阐明推理过程。对低年级儿童,解释保持具体和观察性——例如描述可以看到或感受到的现象;对高年级学生,则逐步引入更抽象的概念,如系统、因果关系或简单模型。每个条目还标注了所涉及的核心技能,例如观察现象、比较两个物体或识别工具的功能。这样的结构使得人工智能模型不仅能给出正确答案,还能练习展示学生应当学习的思维过程。

以课堂真实场景为导向构建数据集

构建 CSQ 采用了结构化、以人为本的流程。由 19 名具有科学教育与人工智能背景的研究人员组成的团队将工作分为若干阶段。资深成员从课程标准、试题和百科全书中收集题目,确保其合法可复用。研究生随后改写并注释题目,使其符合选择题或判断题格式,并与《义务教育科学课程标准(2022)》相匹配。他们的培训强调使用与年级相符的词汇和认知深度。每条数据——题目、学科属性与解答——都会由另一名注释者交叉核查,关于技能归类或解释深度的分歧则以国家标准为依据予以解决。

教 AI 展示其解题过程

为检验 CSQ 的价值,研究者对若干开源语言模型进行了微调,并在该数据集上评估了一家领先商业模型。他们不仅衡量模型是否选对了选择题答案,还使用自动文本指标与专家人工评分评估生成推理的质量。经过 CSQ 微调后,开源模型在准确率以及解释的清晰度和完整性方面都表现出明显提升。例如,某模型此前在回答小学声音问题时使用了较为先进的波动理论,微调后转而采用更简单、适龄的描述。人工评审发现,微调后的模型在保持儿童年级水平方面明显更好,避免了那些会令孩子困惑而非帮助的“知识超载”。

Figure 2
Figure 2.

当下的局限与未来的范式

作者承认 CSQ 反映了中国科学课程的结构,且仅聚焦于选择题和判断题等题型,而非动手实验或开放式项目。解释性文字由受训的研究生撰写,并非课堂教师或儿童本人,因此还需更多工作以完全匹配真实课堂语言。尽管如此,CSQ 背后的框架——将每道题与学科、主题、年级、具体技能和逐步推理相连接——具有足够的通用性,可以为其他语言和教育体系提供借鉴。简单来说,这项工作展示了精心设计的题集如何帮助人工智能成为对年轻学习者更可靠、更具年龄感知性的科学辅导工具。

引用: Li, D., Liu, Z., Wen, C. et al. A Chinese Elementary Science Question Dataset in Problem-Solving Process Generation. Sci Data 13, 291 (2026). https://doi.org/10.1038/s41597-026-06618-4

关键词: 小学科学教育, 大型语言模型, 问答数据集, 个性化辅导, 中文课程