网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于机器学习和深度学习的玉米种子活力光谱检测  PDF

  • 丁子予
  • 岳学军
  • 曾凡国
  • 时浩文
  • 彭文
  • 肖佳仪
华南农业大学电子工程学院(人工智能学院),广州 510642

中图分类号: S126

最近更新:2023-06-16

DOI:10.13300/j.cnki.hnlkxb.2023.03.027

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

为解决传统的种子活力检测方法存在耗时长、损伤种子等问题,实现种子活力的快速无损检测,分别利用机器学习和深度学习算法结合高光谱成像技术构建玉米种子3个活力梯度分类模型,通过人工老化方式将1 012粒玉米种子分为3个活力梯度样本,采集其高光谱数据后通过卷积平滑(SG)和多元散射校正(MSC)去除高光谱噪声,分别采用主成分分析(PCA)、连续投影算法(SPA)进行光谱特征降维,再从降维后的波段中抽取1 156、1 191和1 463 nm 3个波段合成假彩色图像,用局部二值模式(LBP)提取感兴趣区域的纹理特征,并与纯光谱特征融合。分别基于纯光谱特征构建决策树(DT)和支持向量机(SVM)模型和融合特征建立随机森林(RF)、SVM和极端梯度提升树(XGBoost)模型等机器学习模型。将假彩色图像输入ResNet18、MobileNetV2、DenseNet121、Efficientb0、Efficientb2等5个深度学习模型中进行玉米种子活力预测。结果显示,就机器学习方法而言,针对纯光谱特征表现最好的是PCA-SVM模型,其测试集准确率为92.5%;针对融合特征表现最好的是SVM模型,其测试集的分类准确率为 93.1%;就深度学习方法而言,轻量化的MobileNet取得最高的测试集分类准确率99.5%;基于可解释的梯度定位类别激活映射方法表明,分类网络会重点关注玉米种子的中部或基部区域。

甜玉米口感香甜且富含多种营养。目前,甜玉米种子活力低和田间出苗差成为其推广及发展的主要限制因

1。生产实际中种子活力的高低将直接决定种子田间发芽情况,低活力种子导致单产水平降低从而对种植户造成经济损2。因此,对甜玉米种子开展快速无损的活力检测研究对于提高甜玉米产量至关重要。玉米种子的活力检测方法主要有传统方式和计算机视觉方式。传统的种子活力检测方法包括幼苗生长测量、酶活性测定、加速老化试验法3,这些方法存在检测成本较高和检查过程会对种子造成不可逆损伤等缺点。计算机视觉方法可分为机器学习与深度学习。近年来随着光谱检测技术的不断发展,研究发现种子在吸收光谱和反射光谱中存在可以表征种子活力的特征波段,该特性为快速、无损地获取种子活力提供了可行4。目前常用的光谱检测技术有近红外光谱技术无损检5-6、高光谱成像技术等。Al-amery7在950~1 650 nm波长范围内采集高、中、低活力梯度的大豆种子光谱数据,效果不理想,后分为高、低2个活力梯度,判别模型精度达到91.3%。Feng8采用近红外高光谱成像设备结合主成分分析和支持向量机模型,对3个组别共包含8种老化梯度的玉米种子进行了定性判别分析。以上研究表明利用机器学习结合光谱技术实现快速无损检测甜玉米种子活力是可行的,然而这些研究仅考虑了光谱特征,没有考虑到图像特征。

为充分利用高光谱图谱合一的特性,许多学者采用不同方法提取纹理特征与光谱特征融合。杨东

9从数百个波段中选出7个波段作为光谱特征,再提取纹理特征,使用图谱特征融合的方式对玉米籽粒霉变等级进行分类,训练集与测试集精度均在93%以上。王承琨10通过多种纹理特征描述法,提取纹理特征与光谱特征进行融合,对紫檀属内相似树种进行识别,采用融合特征的精度较仅用光谱特征更高。以上研究表明,融合光谱特征和图像特征的方法可以实现玉米种子活力检测,且基于融合特征建模比仅用光谱特征建模检测结果更准确。但图像纹理特征的提取依赖于众多精心设计的统计量,提取步骤繁杂,需要较强的传统图像处理知识。此外,手动挑选的特征要针对不同的任务精心设计且无法保证特征具有高度代表性。

随着深度学习技术在不同领域的广泛应用,越来越多的学者将深度学习应用到农作物种子品种检测领域,且取得了较好的结果。王佳

11基于RGB图像构建了几种经典的深度学习网络,实现了高效无损的玉米品种检测。Pang12利用高光谱成像技术和卷积神经网络检测玉米种子活力,其中基于图像的2维卷积神经网络模型较仅用光谱特征建立的机器学习模型的识别准确率更高。上述研究表明,利用深度学习技术进行玉米种子活力检测的准确度较高。

目前,基于神经网络的种子活力检测模型大多停留在早期的经典网络架构上,如GoogleNet、VGGNet等,缺乏对较新网络架构的研究;对网络深层关注的种子区域进行视觉解释的相关研究也较少,且鲜有研究人员将上述提到的仅用光谱特征、图谱融合特征建立的机器学习模型与深度学习网络在种子活力预测方面进行对比分析。本研究构建自动学习特征的深度学习网络,并分别基于籽粒感兴趣区域的光谱特征、图谱融合的特征构建机器学习模型作为对比,对玉米籽粒的活力梯度进行识别,旨在为玉米种子活力的快速无损检测提供新的思路。

1 材料与方法

1.1 种子采集与发芽试验

甜玉米种子来自华南农业大学甜玉米实验室育种试验田培育的64个玉米自交系,该玉米自交系经过实验室长期培育,在广州地区适应性较好,推广价值高,样本共收集1 012粒形状不一的甜玉米种子(图1)。将所收集的种子样本按照每个系别等量分为3组,装袋。将3组种子放置在模拟环境胁迫的老化箱中分别进行0、3、6 d的人工老化处理,设置老化条件为温度40 ℃、湿度98%;获得3种活力梯度种子样本后,将每粒种子样本按照老化程度进行分类编号,保存于单独的自封袋中,4 ℃保存。

图1  试验用甜玉米种子

Fig.1  Sweet corn seeds for testing

采集甜玉米种子高光谱图像,以bmp格式保存(图2),采集完后开展标准发芽试验,过程如图3所示,具体操作参考国标GB/T 3543.4—1995《农作物种子检验规程》。将种子放入育苗盒后第4天和第7天分别计算发芽势和发芽率,同时根据记录的正常幼苗芽长、根长、苗鲜质量(不带根幼苗)等指标,计算发芽指数(GI)、活力指数(VI),如公式(1)、(2)所示,统计结果如表1所示。通过观察可以发现随着人工老化时间的增加,甜玉米种子的活力呈现阶梯式下降,该趋势符合预期。

图2  不同活力梯度玉米种子

Fig.2  Corn seeds at various vitality levels

A:老化0 d Aging for zero day; B:老化3 d Aging for three days; C:老化6 d Aging for six days.

图3  湿砂覆盖种子

Fig.3  Seeds covered with wet sand

GI=GaDa (1)
VI=GI×S (2)

式(1)~(2)中,Da表示统计时间,d,Ga表示a日的出苗数,S表示固定时间内正常幼苗的质量,g。变异系数:CV=SDMN×100%,其中,SD为标准差,MN为平均值。

表1  甜玉米种子的活力指数统计
Table 1  Statistics of seed vigor index of sweet maize
老化处理时间/dAging treatment time样本量Sample size

VI最小值/((g·粒)/(d·株))

Minimum VI

VI最大值/((g·粒)/(d·株))Maximum VIVI平均值/((g·粒)/(d·株))AverageVI变异系数/%Coefficient of variation
0 347 0.20 127.85 38.14 17.74
3 320 0.00 42.37 9.05 26.15
6 345 0.00 3.81 0.58 33.71

1.2 高光谱数据采集

种子样本使用近红外高光谱成像仪(Gaiafield Pro,China)拍摄扫描,该设备主要由高光谱相机、光源、电控载物台和计算机组成,光谱波长范围为886~1 703 nm,共包含256维光谱特征,获取的高光谱图像大小为333像素×320像素。为避免外部光线干扰,高光谱图像采集在暗箱内完成。为消除由系统造成的样本光谱误差,采集前需要对高光谱图像进行黑白校正,待图像校正完毕,调试系统参数以获取清晰稳定图像。最终将平台移动扫描速度设置为1.1 mm/s,高光谱相机曝光时间设置为15 ms。手动选取甜玉米种子靠近基部的质心附近20像素×20像素方形区域作为感兴趣区域,如图4所示,并取该区域内所有像素点反射率的均值作为该样本的平均反射光谱,最终该仪器共获得1 012个胚面、胚乳面混合样本的256维光谱数据。采集过程中使用的控制及图像校正软件为SpectraVIEW。

图4  感兴趣区域选取

Fig.4  Region of interest selection

1.3 光谱数据处理

1)光谱数据预处理。本研究结合卷积平滑(SG)和多元散射校正(MSC)进行光谱数据的预处理,后续使用的均是预处理后的数据。

2)光谱特征降维。本研究采用主成分分析(PCA)进行特征降维和连续投影算法(SPA)进行特征波长选取。

3)纹理特征提取。本研究通过局部二值模式(LBP

13提取纹理特征,该方法具有成本较低、方法简单的优势,适用于快速检测需求。

4)光谱特征与纹理特征融合。将提取的纹理特征与光谱特征进行串联之前,通过分析发现采用直接特征串联会造成纹理特征数据维度过大,产生大量冗余信息反而影响模型判别精度和检测效率。故采用PCA特征降维,保留累计方差贡献率为98%的特征变量。分别将PCA降维后的光谱特征和LBP纹理特征记作{SL}特征,构建特征耦合方

14。纹理特征采用整幅图片的LBP纹理特征,每幅图片包含多粒种子,将多粒种子的均值作为光谱特征。共获得192个融合特征数据集。

由于光谱的特征变量与不同图像纹理特征的量纲单位不一致,将导致判别模型在建模过程中对数值更大的特征赋予更大权重。因此,在数据拼接前,需对特征矩阵进行归一化处理,保证各特征向量位于同一数量级并消除特征矩阵中各向量之间的量纲影响。选用标准差标准化方法将特征值映射到-1~1。转换函数为:

σ=1Ni=1N(xi-μ)2 (3)
z=x-μσ (4)

式(3)~(4)中: N为样本数量,σ为样本标准差,μ为样本集数据平均值,x为原始数据,z为标准化后的数据。

1.4 数据分析

1)机器学习。选用单一算法模型中的决策树(DT)和支持向量机(SVM)模型,集成学习模型中的随机森林(RF)和极端梯度提升树(XGBoost)模型,均按4∶1的比例随机将样本数据划分成训练集和测试集,采用交叉验证。

2)深度学习。使用ResNet、MobileNet、DenseNet、EfficientNet等4种网络模型,都较为轻量化,若使用手机作为玉米种子活力检测的终端,更容易用于实际应用推广。此外,使用Grad-CAM算法对深度网络做出视觉解释。

1.5 评价标准与软件环境为评估各模型性能,采用准确率(accuracy,A)作为判别结果的主要评价指标,其计算公式为

A=TP+TNTP+TN+FP+FN (5)

式(5)中,TP(true positive)表示实际为1类别,预测结果为1类别样本; TN(true negative)表示实际为1类别,预测结果为0类别样本;FP(false positive)表示实际为0类别,预测结果为1类别样本; FN(false negative)表示实际为0类别,预测结果为0类别样本。

SPA算法选择最佳特征波长数以均方根误差(root mean square error,RMSE)作为评价指标,其计算公式如式(6)所示:

RMSE=1ni=1n(yi-yi)2 (6)

式(6)中,yi表示每个样本的真实值;y^i表示每个样本的预测值;n表示样本数量。

本研究中所使用算法的实现软件为Matlab 2016b(Matrix Laboratory,矩阵实验室)、PyCharm 2021.2.2(Professional Edition)、Python 3.8,主要进行光谱数据处理分析、建模优化以及结果可视化。硬件环境为Dell Precision 5820塔式工作站,CPU:Intel(R) Core(TM) i9-10900X 3.7 GHz;内存:32 GB;显卡:NVIDIA GeForce RTX 3090。

2 结果与分析

2.1 平均光谱特征分析

近红外高光谱成像仪采集到的3个活力梯度种子的平均光谱曲线如图5所示。由图5可知,不同活力梯度的甜玉米种子样本曲线存在较为明显的区别,在1 319、1 632 nm附近存在明显波峰,在1 213、1 443 nm附近存在明显波谷,其余部分平均光谱曲线变化平缓。说明在上述波段范围内很可能随着甜玉米种子活力梯度变化,引起细胞组织失水和由于膜脂过氧化作用而产生的MDA物质等内部理化性质同时出现差

15。上述对应波段附近的光谱特征表征出一部分差异信息,为采用近红外高光谱进行活力判别分析提供了可能性。

图5  不同活力梯度平均光谱曲线

Fig.5  Average spectral curves of different activity gradients

2.2 光谱特征降维

1)PCA特征降维。该光谱数据的空间分布散点图如图6所示,PC1、PC2和PC3贡献率分别为81.48%、15.33%和2.17%,前3个主成分的累计贡献率达到了98.98%,能够解释绝大部分的变量,但存在一定的重叠率。提取938、1 191、1 220、1 268、1 463、1 655 nm这6个波长作为PCA方法筛选出的特征变量。

图6  前3个主成分得分散点图

Fig.6  Scatter plots of the three principal components

2)SPA选取特征波长。由图7可知,当波段个数小于20个时,RMSE的值呈现梯度下降的趋势。此后随着波段数量的增加,模型精度趋于平缓和稳定。最终波段数目达到28时,RMSE的值为0.37,达到了模型效率与特征变量数量关系的平衡点。最终从256维光谱特征中提取出28维,作为光谱的特征变量,分别为941、948、961、964、996、1 015、1 053、1 066、1 082、1 101、1 133、1 146、1 156、1 191、1 249、1 268、1 309、1 341、1 364、1 377、1 383、1 409、1 437、1 463、1 505、1 546、1 626、1 630 nm。使用不同的提取方法提取的特征波长的数量和种类不尽相同,但大多集中于玉米种子中有机物的吸收谱带。分布在1 100~1 200 nm范围的特征波长(1 101、1 133、1 146、1 156和1 191 nm)主要与烃类C—H键振动的二级倍频有

16。PCA得到的1 463 nm属于胺的N—H键的振动组合17

图7  特征波长选取结果

Fig.7  Results of characteristic wavelengths selected

A:特征波长分布 Characteristic wavelength distribution; B:均方根误差 RMSE.

2.3 合成假彩色图像及应用

本研究综合考虑了PCA、SPA提取的特征波段与玉米种子中有机物吸收谱

17以及可视化效果后,最终选取1 156、1 191和1 463 nm等3个特征波段的灰度图像合成假彩色图像,如图8所示。其中图8A是高光谱图像,以3D立方体形式展示,前方是合成的假彩色图像,后方彩色立方体对应高光谱图像的多波段,选出的3个特征波段对应灰度图切片如图8B所示。

图8  假彩色图像合成示意图

Fig.8  Schematic diagram of false color image synthesis

本研究基于机器视觉技术将单粒玉米种子从多粒图像中切割出来作为深度学习网络的输入。分割方法为:首先利用目标种子(图9A)与背景灰度特性上的差异进行彩色图像阈值分割(图9B),然后二值化生成粗糙掩膜(图9C),再利用双边滤波去噪加填充优化掩膜(图9D),利用掩膜去除背景后(图9E),通过轮廓检测算法得到种子的外部形态轮廓,随后可得到掩膜中每粒种子的最小邻接矩阵顶点坐标,最后将此坐标应用于原图像,即可分割出单粒种子(图9F)。由于切割得到的种子大小不一,故统一至224像素×224像素大小(图9G)。将1 012个样本按照4∶1划分训练集与测试集,训练集样本数为810,测试集样本数为202。为避免过拟合现象,对训练集使用了数据增强技术,随机选图片进行水平翻转、垂直翻转、亮度拉伸、生成椒盐噪声、生成高斯噪声、模糊等6种变换,扩充后的训练集大小为2 610。

图9  假彩色图像合成过程

Fig.9  False color image synthesis process

2.4 提取纹理特征

将假彩色图像通过灰度变换进行预处理,然后采用LBP进行纹理特征提取(图10)。本研究采用改进的等价模式LBP进行纹理特征提取,其中提取半径R和采样点个数P是影响特征提取的2个关键参数,由于本数据集样本图片较小,故参数P设置为8;希望得到信息更丰富的特征,故参数R设置为1。将采集到的LBP特征谱转换为统计直方图LBPH组成特征向量,再与光谱特征结合形成融合特征。经过LBP特征提取后的玉米种子图像如图10B所示。

图10  玉米种子的 LBP 特征图

Fig.10  LBP feature map of corn seeds

A:玉米种子原始图像 Original image of the corn seed;B:LBP特征 LBP characteristics.

2.5 机器学习模型

1)基于光谱特征的机器学习模型。对采集到的光谱数据,基于全波段光谱和PCA、SPA特征变量分别建立SVM和DT模型,并根据模型准确率确定较佳模型。基于光谱特征的模型分类结果如表2所示。其中,决策树模型分别基于信息熵(entropy)和基尼系数(Gini)建立,SVM模型分别采用线性核函数和径向基(RBF)核函数。由2可知,光谱特征建立的模型分类预测准确率都在75%以上,说明光谱特征可以体现出不同活力梯度甜玉米种子样本生理指标的差异性。基于PCA和SPA得到的特征变量的模型分类预测准确率大多高于基于全波段的模型,说明使用PCA和SPA法均可有效减少特征数量,减少光谱数据冗余,提高建模稳定性。PCA特征降维后的各模型分类预测准确率均高于SPA选取特征波长的模型,说明经PCA特征降维后得到的甜玉米种子活力判别模型效果更好。其中,PCA+SVM模型分类效果最好,训练集和测试集的准确率分别为94.6%和92.5%。

表2  光谱特征预测分类准确率
Table 2  Accuracy of spectral feature prediction classification ( % )
模型Model模型输入Input of modelSVM核函数/决策树类型Type of decision tree/SVM kernel function

训练准确率

Trainingaccuracy

测试准确率

Testing

accuracy

DT 全波段Full band Gini 83.7 75.4
Entropy 84.2 76.8
PCA Gini 88.2 82.3
Entropy 86.7 79.8
SPA Gini 87.7 82.8
Entropy 83.3 78.8
SVM 全波段Full band Linear 94.1 92.1
RBF 86.9 83.6
PCA Linear 94.6 92.5
RBF 86.5 83.2
SPA Linear 88.4 85.8
RBF 88.6 85.7

2)基于降维光谱特征与图像纹理特征融合的机器学习模型。将高光谱数据用PCA降维后,与纹理特征融合,作为模型的输入数据,建立SVM、RF、XGBoost模型(表3)。由表3可知,训练集和测试集的分类预测准确率都大于92%,分类效果好于单光谱特征。结果表明,光谱特征与纹理特征的融合特征可以提高模型的分类预测准确率,说明光谱数据与纹理特征的融合,能够提供给模型更多有效的特征信息。对于重叠区域较多的中、低梯度活力等级,能够有效提升区分能力。其中,SVM模型分类效果最好,训练集和测试集的准确率分别为100%和93.1%。本研究集成学习模型所表现出的分类性能不如SVM模型。同时,SVM模型面对高维度数据时,首先需要进行降维处理以保证模型精度。而RF模型这类基于树模型建立的集成学习算法,继承了树模型可解释性强的特点,本身可以根据每个节点分裂的增益计算出各属性的重要程度,并对特征重要性进行排序。类似于PCA降维,选择不同阈值可保留部分特征以简化模型,尤其适用于处理光谱这类高维度数据。

表3  融合特征预测分类准确率
Table 3  Accuracy of fusion feature prediction classification ( % )
模型 Model训练准确率Training accuracy测试准确率Testing accuracy
SVM 100.0 93.1
RF 97.4 92.3
XGBoost 97.4 92.3

2.6 基于假彩色图像的深度学习网络

选取ResNet、MobileNet、DenseNet、EfficientNet这4种网络对玉米种子图像进行识别检测,优化器(optimizer)使用 SGD算法,学习率(learning rate)为0.1,动量因子(momentum)为0.9,权重衰减因子(weight_decay)为0.000 1,损失函数使用crossentropy,迭代次数(epochs)为100。训练后识别准确率详情见表4。从表4可以看出,选取的都是轻量级的网络,参数量与运算次数(GFLOPS)均不大。ResNet18与MobileNetV2的测试集准确率最高,为99.5%,而MobileNetV2的参数量与GFLOPS远小于ResNet18;DenseNet121的参数量与GFLOPS虽然稍大,但训练集与测试集的准确率都在99%以上;EfficientNet-b0的GFLOPS虽然最小,但相较于其他网络,测试集准确率不算太高,只有87%;EfficientNetb2的训练集与测试集准确率都在98%以上,而GFLOPS与EfficientNetb0一样,为最低的0.02,只是增加了部分参数量,运算次数最少。训练过程的准确率与损失值如图11所示,在80个迭代后,模型趋于稳定。结果表明,MobileNet在3个活力梯度的分类预测中参数量最小,运算次数少,而在训练集测试集上的表现最好。结果显示,轻量级网络可以很好地完成单品种的3个活力梯度玉米种子预测。

表4  网络性能对比
Table 4  Network performance comparison
模型 Model

参数量/M

Params

运算次数(GFLOPs)

Computational operations

训练准确率/%

Training accuracy

测试准确率/%

Testing accuracy

ResNet18 11.18 1.82 99.77 99.50
MobileNetV2 2.23 0.32 100 99.50
DenseNet121 6.96 2.88 99.07 99.25
EfficientNetb0 5.29 0.02 90.70 87.28
EfficientNetb2 7.71 0.02 99.30 98.00

图11  训练准确率和损失值

Fig.11  Training accuracy and training loss

A:训练准确率 Training accuracy; B:训练损失值 Training loss.

本研究使用Grad-CAM对几种网络的深层做出基于梯度定位的视觉解释,通过计算最后1个卷积层中每个特征图对图片类别的权重,然后求每个特征图的加权和,以热力图的形式展现,最后将加权和的特征图映射到原始图片中,如图12所示。其中,红色表示权重最大区域,权重按红、黄、绿、蓝递减,图12A表示原图,图12B解释了ResNet18的深层视觉,图12C对应MobileNetV2,图12D对应DenseNet121,图12E对应EfficientNetb2,考虑到EfficientNetb0准确率一般,故未放入图12中展示。由图12可知,网络深层关注的区域大多靠近玉米种子中部或基部,这与乳线位置与其内部淀粉等物质含量存在一定的关联性,成熟度越高淀粉堆积越多,乳线位置越靠近种子基部的结论一

18。另外,可以发现机器学习中手动选取的ROI区域与深度学习网络深层关注区域存在一定偏差,这可能就是深度学习网络精度高于机器学习模型的原因之一。综上可知,基于几种神经网络构建的模型不仅比基于传统机器学习建模的准确率更高,操作也更为简便,且几种轻量化网络可以胜任3个活力梯度玉米种子的分类任务,具备部署到移动端的潜力。

图12  网络深层感兴趣区域

Fig.12  Area of interest in the deep layer of networks

A:原图 Original diagram;B: ResNet18;C: MobileNetV2;

D: DenseNet121;E: EfficientNetb2.

3 讨论

考虑到光谱特征中存在可以表征种子活力的特征波段,本研究先设计了基于仅使用光谱特征建模的试验,过程分为先去噪、后降维、再建模。在挑选ROI区域时,由于与种子活力相关的营养物质聚集在基层区域(胚下端)会导致其反射光谱表现出一定的差异

19,且随着时间推移,乳线从籽粒冠部向籽粒基部不断移动,籽粒成熟后乳线消20。故手动选取位于靠近种子基部的质心部位为ROI区域。采集原始光谱时,由于采集样品状态、光谱仪器设备性能以及其他外界环境因素的干扰会产生不稳定变量,导致光谱数据中存在一定的随机噪声和光谱扰动。因此,在数据降维和建立模型前需要对原始光谱数据进行预处理,从而减少噪声信号的干扰并消除基线漂移对数据造成的影响。高光谱数据存在大量的冗余和共线性信息特征且数据处理计算量大,以光谱数据作为模型的输入变量必须考虑用数据降维减少光谱数据冗余,提高建模稳定性。本研究选用PCA进行特征降维和SPA选取特征波长。PCA是常用的降维方法,采用无监督学习方式将原始数据进行压缩从而得到更低维度的特征向量,能将大量相关变量等冗余信息转化为无关变量的线性组20,其最重要的思想为采用基变换的方法,保留拥有最大方差的主成分去除变量间的非线性关系,在不丢失绝大部分特征差异的条件下达到降维目的。SPA作为一种经典的前向选择方法,可以从原始高维度向量中有效筛选出信息冗余度最小、表达量最大的光谱特征组21,其通过迭代计算光谱矩阵中单个向量在其他向量中的投影,剔除出共线性关系较大的向量,得到具有最低冗余度的特征向量22

机器学习过程中除了使用单一算法模型外,还可以使用集成学习模型。它通过构建多个学习器并将其结合,从而更好地完成预测任务,也常被称为模型融合。DT模型属于典型的白盒有监督算法,其建立的树结构可以被可视化,便于直观解释模型判别过程,且不需要大量的数据支持训练模型。SVM模型在非线性可分问题中引入了核函数将非线性样本向量映射至具有更高维度的特征空间内,并在高维度特征空间内构建一个最优决策超平面,因此,适用于在非线性和多变量特征输入条件下获取全局最优决策结果。RF模型属于集成学习模型中Bagging策略,其内部由多个决策树构成森林,按照投票原则输出决策结果。为保证模型的泛化能力,Bagging策略在训练迭代过程中遵循原始数据有放回地随机选择以及各样本特征的随机抽取2个随机原

23。XGBoost模型属于集成学习模型中的Boosting策略,随着模型不断训练迭代,梯度提升树不断对前序学习器进行修正,在做出最终决策时更加依赖于训练过程中判别更准确的基学习器,从而提高集成学习模型本身的预测能24

本研究基于光谱特征建立的模型分类预测准确率都在75%以上,在上述模型中,预测效果最好的SVM模型准确率为92.5%,尚有一定的提升空间,故考虑给模型加入纹理特征。纹理是指在图像局部区域中统计存在的某些规律性变化的特征或者属性,这些呈现出周期性的特征或者属性就可称为纹

25。在图像处理领域,纹理特征具有良好的抗噪性能和旋转不变等优秀性质。在前人已有光谱特征与纹理特征融合可以提高模型精度结论的基础上,本研究考虑到前人研究纹理特征的提取大多基于RGB图像,因为RGB波段可以为人眼所捕获,是常见的可以反映不同样本差异的可见光特征波段,而在电磁波谱中存在其他的特征波段同样具备区分样本的能力却不被人眼所捕获,因此,本研究从近红外波段中选取3个特征波段来合成假彩色图像,在假彩色图的基础上提取纹理特征。在纹理特征与光谱特征融合后建模,SVM模型精度的确有一定程度的提高,训练集、测试集准确率分别从94.6%、92.5%提升到100%、93.1%。但机器学习里手动挑选的特征需要针对不同任务精心设计,还无法保证这些特征具备高度代表性,且需要依据经验选取ROI区域,这些问题可能对预测结果有一定影响,故本研究考虑构建深度学习网络自动学习特征,并试图解释学习过程中网络的关注区域。

深度学习的几种网络中,ResNet提出了残差思想,缓解了随着网络深度增加,性能不升反降的问题,改善了梯度消失。MobileNet采用基于深度可分解的卷积,有效降低模型计算复杂度,使得模型轻量化。DenseNet具有网络更窄、参数更少的优势,可以减轻过拟合现象,使网络更容易训

11。EfficientNet可以综合调整网络深度、宽度,使网络同时具备了网络大小与识别准确率的双重优26。在深度可解释算法方面,Zhou27提出类激活图(CAM)算法,通过定位出输入图像中与网络决策相关的区域解释了网络的决策机制,阐明了用于分类任务的卷积神经网络具有定位能力,也展示了网络深层神经元关注的特征。在这个基础上提出的Grad-CAM28则可以对任意结构的CNN进行视觉解释,不需要修改网络结构或者重新训练。本研究结果显示,采用的ResNet18、MobileNetV2、DenseNet121、EfficientNetb2均有98%以上的识别精度,表明深度学习网络自动学习玉米种子假彩色图像特征后做出预测具有可行性。

本研究综合考虑了PCA、SPA提取的特征波段与玉米种子中有机物吸收谱

16-17以及可视化效果后,最终选取1 156、1 191和1 463 nm等3个特征波段合成假彩色图像,提供了一种不同于前人使用RGB图像的新思路。此外,本研究使用了Grad-CAM对网络深层关注区域做出视觉解释,Xu26通过深度学习对5种玉米种子进行了高精度品种识别,虽然也做出了视觉解释,但只能发现网络深层关注的区域为种子整体,而本研究做出的视觉解释更为具体,发现的网络深层区域关心区域大多位于种子中部或基部,这可能与种子的生理特征相关。由于前者为品种检测,而本研究的目标是活力检测,在种子老化过程中,中部或基部出现更为明显的特征。另外不难发现,机器学习中手动选取的ROI区域与网络深层关注区域存在一定偏差,这可能就是深度学习网络精度高于机器学习模型的原因之一。

本研究在数据来源、深层网络视觉和机器学习与深度学习性能对比等方面为甜玉米种子活力无损检测提供了一定的参考。然而本研究的样本数量与品种有限,后续可以考虑增加更多品种的玉米种子,建立更为稳定以及适用范围更广的玉米种子活力判别模型。

参考文献 References

1

刘敏洁,许昍,王建华,等.基于人工神经网络和二元逻辑回归的甜玉米种子生活力检测模型研究[J].中国农业大学学报,2018,23(7):1-10.LIU M J,XU X,WANG J H,et al.Seed viability testing model of sweet corn based on artificial neural network and binary logistic regression[J].Journal of China Agricultural University,2018,23(7):1-10(in Chinese with English abstract). [百度学术] 

2

HE X T,FENG X P,SUN D W,et al.Rapid and nondestructive measurement of rice seed vitality of different years using near-infrared hyperspectral imaging[J/OL].Molecules(Basel,Switzerland),2019,24(12):2227[2022-11-27].https://doi.org/10.3390/molecules24122227. [百度学术] 

3

李文彬,于秀琪,刘春宇,等.农作物种子活力检测方法研究进展[J].农业灾害研究,2021,11(6):7-8,10.LI W B, YU X Q,LIU C Y,et al.Research progress of crop seed vigor testing methods[J].Journal of agricultural catastrophology,2021,11(6):7-8,10 (in Chinese with English abstract). [百度学术] 

4

袁俊,郑雯,祁亨年,等.种子活力光学无损检测技术研究进展[J].作物杂志,2020(5):9-16.YUAN J,ZHENG W,QI H N,et al.Progress in research of optical non-destructive test technology for seed vigor[J].Crops,2020(5):9-16(in Chinese with English abstract). [百度学术] 

5

王巧华,马逸霄,付丹丹.基于光谱技术的禽蛋内部品质无损检测研究进展[J].华中农业大学学报,2021,40(6):220-230.WANG Q H,MA Y X,FU D D.Progress of non-destructive detection of poultry egg internal quality based on spectroscopy[J].Journal of Huazhong Agricultural University,2021,40(6):220-230(in Chinese with English abstract). [百度学术] 

6

王胜鹏,郑鹏程,桂安辉,等.基于近红外光谱技术的远安黄茶品质快速无损检测方法[J].华中农业大学学报,2022,41(1):238-245.WANG S P,ZHENG P C,GUI A H,et al.Fast and non-destructive quality evaluation of Yuan’an yellow tea based on near-infrared spectroscopy[J].Journal of Huazhong Agricultural University,2022,41(1):238-245(in Chinese with English abstract). [百度学术] 

7

AL-AMERY M, GENEVE R L, SANCHES M F, et al. Near-infrared spectroscopy used to predict soybean seed germination and vigour[J].Seed science research,2018, 28(3): 245-252. [百度学术] 

8

FENG L,ZHU S S,ZHANG C,et al.Identification of maize kernel vigor under different accelerated aging times using hyperspectral imaging[J/OL].Molecules (Basel,Switzerland),2018,23(12):3078[2022-11-27].https://doi.org/10.3390/molecules23123078. [百度学术] 

9

杨东,王舒卉,吴建华,等.玉米籽粒霉变等级高光谱图像检测方法研究[J].中国粮油学报,2022,37(11):46-53.YANG D,WANG S H,WU J H,et al.Study on hyperspectral image detection method of maize grain mildew grade[J].Journal of the Chinese cereals and oils association,2022,37(11):46-53(in Chinese with English abstract). [百度学术] 

10

王承琨,赵鹏,李祥华.采用特征融合的紫檀属内相似树种识别方法研究[J].光谱学与光谱分析,2022,42(7):2247-2254.WANG C K,ZHAO P,LI X H.Similar wood species classification within Pterocarpus genus using feature fusion[J].Spectroscopy and spectral analysis,2022,42(7):2247-2254(in Chinese with English abstract). [百度学术] 

11

王佳, 马睿, 马德新.基于深度学习的登海605玉米品种真伪鉴别方法研究[J/OL].中国粮油学报:1-12[2022-11-27].http://kns.cnki.net/kcms/detail/11.2864.TS.20220609.1531.019.html.WANG J,MA R,MA D S.Identification method of Denghai 605 maize varieties based on deep learning[J/OL].Journal of the Chinese cereals and oils association,1-12[2022-11-27].http://kns.cnki.net/kcms/detail/11.2864.TS.20220609.1531.019.html(in Chinese with English abstract). [百度学术] 

12

PANG L,XIAO J,MA J J,et al.Hyperspectral imaging technology to detect the vigor of thermal-damaged Quercus variabilis seeds[J].Journal of forestry research,2021,32(2):461-469. [百度学术] 

13

张超,乔敏,刘哲,等.基于无人机和卫星遥感影像的制种玉米田识别纹理特征尺度优选[J].农业工程学报,2017,33(17):98-104.ZHANG C,QIAO M,LIU Z,et al.Texture scale analysis and identification of seed maize fields based on UAV and satellite remote sensing images[J].Transactions of the CSAE,2017,33(17):98-104(in Chinese with English abstract). [百度学术] 

14

宋克臣,颜云辉,陈文辉,等.局部二值模式方法研究与展望[J].自动化学报,2013,39(6):730-744.SONG K C,YAN Y H,CHEN W H,et al.Research and perspective on local binary pattern[J].Acta automatica sinica,2013,39(6):730-744(in Chinese with English abstract). [百度学术] 

15

DAI L Q,WU L,DONG Q S,et al.Genome-wide association study of field grain drying rate after physiological maturity based on a resequencing approach in elite maize germplasm[J/OL].Euphytica,2017,213(8):182[2022-11-27].https://doi.org/10.1007/s10681-017-1970-9. [百度学术] 

16

褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011.CHU X L.Molecular spectroscopy analytical technology combined with chemometrics and its applications[M].Beijing:Chemical Industry Press,2011(in Chinese). [百度学术] 

17

樊阳阳,裘正军,陈俭,等.基于近红外高光谱成像技术的干制红枣品种鉴别[J].光谱学与光谱分析,2017,37(3):836-840.FAN Y Y,QIU Z J,CHEN J,et al.Identification of varieties of dried red jujubes with near-infrared hyperspectral imaging[J].Spectroscopy and spectral analysis,2017,37(3):836-840(in Chinese with English abstract). [百度学术] 

18

杨小玲,由昭红,成芳.高光谱成像技术检测玉米种子成熟度[J].光谱学与光谱分析,2016,36(12):4028-4033.YANG X L,YOU Z H,CHENG F.Study on identification of immature corn seed using hyperspectral imaging[J].Spectroscopy and spectral analysis,2016,36(12):4028-4033(in Chinese with English abstract). [百度学术] 

19

王超鹏,黄文倩,樊书祥,等.基于高光谱成像技术与CARS算法的玉米种子含水率检测[J].激光与光电子学进展,2016,53(12):260-267.WANG C P,HUANG W Q,FAN S X,et al.Moisture content detection of maize kernels based on hyperspectral imaging technology and CARS[J].Laser & optoelectronics progress,2016,53(12):260-267(in Chinese with English abstract). [百度学术] 

20

刘立新,何迪,李梦珠,等.基于高光谱技术与机器学习的新疆红枣品种鉴别[J].中国激光,2020,47(11):291-298.LIU L X,HE D,LI M Z,et al.Identification of Xinjiang jujube varieties based on hyperspectral technique and machine learning[J].Chinese journal of lasers,2020,47(11):291-298(in Chinese with English abstract). [百度学术] 

21

DOS SANTOS PEREIRA E V,DE SOUSA FERNANDES D D,DE ARAÚJO M C U,et al.In-situ authentication of goat milk in terms of its adulteration with cow milk using a low-cost portable NIR spectrophotometer[J/OL].Microchemical journal,2021,163:105885[2022-11-27].https://doi.org/10.1016/j.microc.2020.105885. [百度学术] 

22

邵园园,王永贤,玄冠涛,等.基于高光谱成像的肥城桃品质可视化分析与成熟度检测[J].农业机械学报,2020,51(8):344-350.SHAO Y Y,WANG Y X,XUAN G T,et al.Visual detection of SSC and firmness and maturity prediction for Feicheng peach by using hyperspectral imaging[J].Transactions of the CSAM,2020,51(8):344-350(in Chinese with English abstract). [百度学术] 

23

王奕森,夏树涛.集成学习之随机森林算法综述[J].信息通信技术,2018,12(1):49-55.WANG Y S,XIA S T.A survey of random forests algorithms[J].Information and communications technologies,2018,12(1):49-55(in Chinese with English abstract). [百度学术] 

24

李占山,刘兆赓.基于XGBoost的特征选择算法[J].通信学报,2019,40(10):101-108.LI Z S,LIU Z G.Feature selection algorithm based on XGBoost[J].Journal on communications,2019,40(10):101-108(in Chinese with English abstract). [百度学术] 

25

王冬,王坤,吴静珠,等.基于光谱及成像技术的种子品质无损速测研究进展[J].光谱学与光谱分析,2021,41(1):52-59.WANG D,WANG K,WU J Z,et al.Progress in research on rapid and non-destructive detection of seed quality based on spectroscopy and imaging technology[J].Spectroscopy and spectral analysis,2021,41(1):52-59(in Chinese with English abstract). [百度学术] 

26

XU P,TAN Q,ZHANG Y P,et al.Research on maize seed classification and recognition based on machine vision and deep learning[J/OL].Agriculture,2022,12(2),232[2022-11-27]. https://doi.org/10.3390/agriculture12020232. [百度学术] 

27

ZHOU B L,KHOSLA A,LAPEDRIZA A,et al.Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.Las Vegas:IEEE,2016:2921-2929. [百度学术] 

28

SELVARAJU R R,COGSWELL M,DAS A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[J].International journal of computer vision,2020,128(2):336-359. [百度学术]