Clear Sky Science · zh

利用高光谱反射率数据的机器学习模型对玉米性状的泛化性与可迁移性

· 返回目录

为何扫描植物叶片关系到我们的未来粮食

在气候变化背景下养活不断增长的人口需要能在高温、干旱等胁迫下生长的作物。育种学家希望知道哪些植株具有恰当的叶片结构、化学成分和光合性能——但对数千株植物直接测量这些性状既耗时又具破坏性。本研究探讨是否仅用高光谱传感器扫描玉米叶片并结合机器学习,就能可靠地替代繁琐的实验室测定,即便植物在不同年份和变化的田间条件下生长。

Figure 1
Figure 1.

玉米叶片的光学指纹

每片叶子对光的反射呈现出取决于色素、水分含量和内部结构的模式。高光谱传感器在从可见光到短波红外的数百个波长上捕捉这种模式,形成每片叶子的详细“指纹”。研究人员在连续三季的田间试验中,从多样化的玉米群体收集了这些指纹,同时测定了25项性状,涵盖叶片解剖(如比叶面积与碳-氮平衡)、气体交换(叶片吸收CO2与失水的方式)以及叶绿素荧光(反映光合作用效率与调控)的指标。这个丰富的数据集使他们能够检验不同统计模型如何将光谱转换为性状估计。

教机器“读”叶子

团队聚焦于两种广泛使用且相对简单的机器学习方法:偏最小二乘回归(PLSR)和线性支持向量回归(SVR)。两种方法都先将高维光谱压缩为较少的、信息量高的特征,然后将这些特征与实测性状关联。研究人员细致比较了模型调参方式,尤其是PLSR应使用多少成分以及如何避免过拟合。他们还考察了向模型输入单片叶测量值、单地块的平均值,或同一基因型所有植株的平均值哪种更好。通过严格的嵌套交叉验证框架——本质上是重复的训练-测试循环——来检验模型性能与不确定性。

哪些性状最容易预测

一些叶片性状从光谱中比其他性状更“可读”。结构和生化性状,例如比叶面积和氮含量,在基因型水平平均以降低测量噪声时,预测准确度很高。某些光合能力性状和一些反映光系统II在光照下行为的叶绿素荧光指标也表现出中等可预测性。相比之下,与快速、短时过程相关的性状——比如叶片启动或放松保护性能量耗散的速度——则难以捕捉。对于这些性状,光谱信号要么本身微弱,要么容易被测量瞬间的环境变异掩盖。

Figure 2
Figure 2.

从一个生长季到下一个生长季

对实际育种来说,一个关键问题是某一条件下训练的模型能否在另一种条件下可靠使用。当模型在同一生长季预测随机抽取的植株时,对于容易预测的性状总体表现良好。在同一季内预测全新的基因型对结构与氮相关性状只带来适度下降,但对气体交换性状则下降更为明显。最严苛的测试——在不同年份预测新的基因型——显示准确度大幅下降,尤以受环境影响较大的性状为甚。天气、田间条件和基因型组合的差异足以改变光谱模式,从而限制模型的可迁移性,其中有一个季节尤其难以用其他季节的数据预测。

对育种与遥感的意义

对育种者和作物科学家而言,这项研究既带来希望也提出警示。高光谱扫描与相对简单的机器学习结合,已成为对稳定的、综合性性状(如叶片结构与氮状态)进行高通量估测的强大工具,并能在一定程度上跨基因型和跨年份泛化到这些目标。然而,同样的方法在超出训练条件应用于快速、受环境影响的生理性状时可靠性要差得多。作者得出结论:高光谱方法已可支持对一些关键玉米性状的大规模筛选,但要在不同环境中预测动态的生理行为,则需要更丰富的训练数据、更先进的建模方法,或许还需增加其他类型的测量。

引用: Xu, R., Ferguson, J., Breil-Aubert, M. et al. Generalizability and transferability of machine learning models using hyperspectral reflectance data for maize traits. Sci Rep 16, 5865 (2026). https://doi.org/10.1038/s41598-026-36819-1

关键词: 高光谱反射率, 玉米, 机器学习, 植物表型测定, 光合作用