摘要
为实现复杂环境下辣椒病害的精准识别和分类,设计了一种适用于辣椒病害识别分类的方法。以辣椒在生长过程中常见的6种病害为分类研究的对象,使用数据增强的方法扩充数据集,提出一种基于MaxViT改进的MaxViT-DF模型,将MaxViT模型中的普通卷积替换为可变形卷积,使模型在提取特征时能更贴近复杂环境下的识别目标;同时在MaxViT模型施加注意力时引入特征融合模块,提高模型的全局感知能力。结果显示,改进的MaxViT-DF模型识别分类准确率达到98.10%,对6种辣椒病害的分类精度均高于95%。与ResNet-34、EfficientNetv2和VGG-16等模型相比,改进模型在收敛速度和分类精度上具有明显优势。以上结果表明,MaxViT-DF模型能够对不同种类的辣椒常见病害进行有效的分类识别。
关键词
21世纪以来,全球辣椒种植面积与产量稳步增长,中国辣椒产业也进入了迅速发展阶段。据联合国粮食及农业组织的统计数据显示,2020年中国辣椒产量约占全球产量的1/2,是全球最大的辣椒主产
近些年来深度学习得到了快速发展,深度学习中的卷积神经网
针对上述CNN识别植物病害时模型训练收敛时间长和参数庞大的问题。Vishnoi
值得注意的是,以上的植物病害识别结果都是建立在具有良好的环境和数据集的背景下得出的,其数据集背景简单并且检测目标较易被识别,而在日常农业生产中很难有如此理想的环境。因此,为了应对背景杂乱或有干扰物等的复杂环境下对辣椒病害进行精准识别分类的问题,本研究选用MaxVi
本研究以炭疽病、病毒病等对辣椒生长危害最严重的6种病害作为研究对象,收集图像组成基础数据集,图像背景为辣椒自然生长环境,图片背景复杂并且有干扰物,如

图1 辣椒常见6种病害
Fig. 1 Common diseases of pepper
基础数据集共收集病害2 107张图片(随机划分测试集421张,训练集1 686张)。为了避免模型没有足够样例区分特征,导致模型在训练过程中出现过拟合现象,通过图像翻转、调整对比度、调整饱和度和调整锐度4类数据增强方法对训练集进行处理(

图2 数据增强结果
Fig. 2 Data enhancement results
种类 Type | 训练集 Training set | 图像翻转 Image flipping | 调整对比度 Adjust contrast | 调整锐度 Adjusting sharpness | 调整饱和度 Adjusting saturation | 合计 Total |
---|---|---|---|---|---|---|
d1 | 271 | 271 | 18 | 0 | 0 | 560 |
d2 | 560 | 0 | 0 | 0 | 0 | 560 |
d3 | 276 | 276 | 8 | 0 | 0 | 560 |
d4 | 187 | 187 | 186 | 0 | 0 | 560 |
d5 | 280 | 280 | 0 | 0 | 0 | 560 |
d6 | 112 | 112 | 112 | 112 | 112 | 560 |
注: d1~d6分别表示炭疽病、病毒病、温度不适、细菌性病害、根腐病和缺素。Note:d1-d6 represent anthracnose,viral diseases,temperature discomfort,bacterial diseases,root rot,and nutrient deficiency respectively.
MaxViT是2022年谷歌提出的分层Transformer模
MaxViT模型如

图3 MaxViT模型
Fig. 3 MaxViT model
针对辣椒表面形状复杂和病害缺陷范围不规则的问题,在MaxViT模型的基础上将提取特征的普通卷积层替换为可以偏移位置的可变形卷

图4 普通卷积和可变形卷积对比
Fig. 4 Comparison between ordinary convolutions and deformable convolutions
可变形卷积结构如

图5 可变形卷积结构
Fig. 5 Structure of deformable convolution
MaxViT模块在添加注意力的同时也对特征图进行尺寸的缩减,为了缓解这种因为尺寸缩减而带来的特征损失问题,本研究在MaxViT模型的框架中引入了特征融合模块。特征融合模块结构如

图6 特征融合模块结构
Fig. 6 Structure of feature fusion module
为了提高辣椒病害的识别准确率,将可变形卷积和特征融合模块融合到原始MaxViT模型中。MaxViT-DF模型结构如

图7 MaxViT-DF模型结构
Fig. 7 MaxViT-DF model structure
MaxViT block由MBConv和多轴注意力模块组成。在MBConv中输入特征在经过卷积升维后进行深度可分离卷

图8 多轴注意力模块结构
Fig. 8 Structure diagram of multi-axis attention module
窗口注意力对于输入特征图,转化为形状张量,以表示划分为不重叠的窗口,其中每个窗口的大小为,最后在每一个窗口中执行自注意力计算,如
(1) |
不同于传统使用固定窗口大小来划分特征图的操作,网格注意力使用固定的,均匀网格将输入张量网格化为,得到自适应窗口,最后在上使用自注意力计算,通过使用相同的窗口和网格,可以有效平衡局部和全局之间的计算,且仅具有线性复杂度,如
(2) |
在窗格注意力和网格注意力之间通过前馈网
试验所用中央处理器型号为AMD EPYC 7551P 256G 64核、内存大小64 GB,图形处理器GPU为NVIDIA GeForce RTX 3090。操作系统为ubuntu20.04,深度学习框架使用Pytorch1.8.1、Python3.7、CUDA 11.3。
为了验证改进方法的有效性,将MaxViT-DF模型与其他5个主流分类网络模型进行对比测试,包括ResNet-3
辣椒病害识别分类任务使用BCEWithLogitsLoss损失函数。先将预测种类经过Sigmoid函数归一化,如
(3) |
(4) |
式(
在训练过程中各模型的损失曲线、准确率曲线如

图9 各分类模型损失曲线(A)和准确率曲线(B)
Fig. 9 Loss curves (A) and accuracy curve (B) in each classification model
不同辣椒病害分类模型的结果、平均单幅图像的推理时间和模型大小如
模型 Model | 准确率/% Accuracy | 精度/% Precision | 召回率/% Recall | F1值/% F1 value | 时间/ms Time | 模型大小/MB Model size |
---|---|---|---|---|---|---|
ResNet-34 | 82.19 | 82.91 | 80.7 | 81.79 | 78.38 | 81.34 |
EfficientNetv2 | 66.75 | 62.67 | 64.72 | 63.68 | 79.35 | 77.86 |
VGG-16 | 90.97 | 91.46 | 92.35 | 91.90 | 118.76 | 512.27 |
MaxViT | 94.50 | 94.57 | 94.82 | 94.69 | 102.14 | 109.32 |
MaxViT(DConv) | 95.00 | 95.02 | 94.35 | 94.68 | 102.03 | 108.68 |
MaxViT-DF | 98.10 | 98.48 | 98.06 | 98.27 | 106.89 | 109.66 |
为了进一步分析各分类模型对辣椒各病害的分类差异,列出各分类模型在辣椒各病害的分类召回率、精度和F1值(
病害 Disease | 模型 Model | 召回率 Recall | 精度 Precision | F1值 F1 value |
---|---|---|---|---|
炭疽病 Anthracnose | ResNet-34 | 82.09 | 84.62 | 83.34 |
EfficientNetv2 | 50.75 | 56.67 | 53.55 | |
VGG-16 | 97.01 | 94.20 | 95.58 | |
MaxViT | 91.04 | 100.00 | 95.31 | |
MaxViT(DConv) | 92.54 | 96.88 | 94.66 | |
MaxViT-DF | 95.92 | 100.00 | 97.71 | |
病毒病 Viral diseases | ResNet-34 | 87.86 | 76.88 | 82.00 |
EfficientNetv2 | 70.00 | 73.68 | 71.79 | |
VGG-16 | 82.86 | 94.31 | 88.22 | |
MaxViT | 92.86 | 92.20 | 92.53 | |
MaxViT(DConv) | 93.57 | 92.25 | 92.91 | |
MaxViT-DF | 97.86 | 97.16 | 97.51 | |
温度不适 Temperature discomfort | ResNet-34 | 51.43 | 81.82 | 63.16 |
EfficientNetv2 | 50.00 | 56.45 | 53.03 | |
VGG-16 | 91.43 | 76.19 | 83.12 | |
MaxViT | 86.30 | 90.00 | 88.11 | |
MaxViT(DConv) | 87.14 | 87.14 | 87.14 | |
MaxViT-DF | 98.57 | 95.83 | 97.18 | |
细菌性病害 Bacterial diseases | ResNet-34 | 97.83 | 81.82 | 89.11 |
EfficientNetv2 | 78.26 | 63.16 | 69.90 | |
VGG-16 | 93.48 | 95.56 | 94.51 | |
MaxViT | 100.00 | 95.83 | 97.87 | |
MaxViT(DConv) | 100.00 | 93.88 | 96.84 | |
MaxViT-DF | 100.00 | 97.87 | 98.92 | |
根腐病 Root rot | ResNet-34 | 97.14 | 93.15 | 95.10 |
EfficientNetv2 | 92.86 | 81.25 | 86.67 | |
VGG-16 | 100.00 | 95.89 | 97.90 | |
MaxViT | 98.57 | 100.00 | 99.28 | |
MaxViT(DConv) | 100.00 | 100.00 | 100.00 | |
MaxViT-DF | 100.00 | 100.00 | 100.00 | |
缺素 Nutrient deficiency | ResNet-34 | 67.86 | 79.17 | 73.08 |
EfficientNetv2 | 46.43 | 44.83 | 45.62 | |
VGG-16 | 89.29 | 92.59 | 90.91 | |
MaxViT | 96.43 | 93.10 | 94.74 | |
MaxViT(DConv) | 100.00 | 92.86 | 96.30 | |
MaxViT-DF | 96.43 | 100.00 | 98.18 |
由

图10 基于MaxViT-DF模型的辣椒病害分类结果
Fig. 10 Classification results of pepper diseases based on MaxViT-DF model
A:正确预测样例 Example of correct prediction;B:错误预测样例 Example of incorrect prediction.
为进一步了解各辣椒病害的识别情况,根据各分类模型各病害分类准确率作混淆矩阵(其中d1~d6分别表示炭疽病、病毒病、温度不适、细菌性病害、根腐病和缺素)。由

图11 各模型分类结果的混淆矩阵
Fig. 11 Confusion matrix of classification results of each model
d1~d6分别表示炭疽病、病毒病、温度不适、细菌性病害、根腐病和缺素。d1-d6 represent anthracnose,viral diseases,temperature discomfort,bacterial diseases,root rot,and nutrient deficiency respectively.
本研究提出了一种在复杂环境下(如背景杂乱或有干扰物等)对辣椒病害进行识别分类的方法,提出的MaxViT-DF模型相比于原始的MaxViT模型改进点有2个:(1)改进后的MaxViT-DF模型相比原始MaxViT模型,将用于提取特征的普通卷积替换为可变形卷积,使模型在提取特征时可以更贴近物体的形状和尺寸,提高了模型的分类准确率;(2)改进后的MaxViT-DF模型在原始MaxViT模型施加注意力机制时引入了特征融合模块,增加了模型在处理输入特征时的全局信息感知能力,使模型在应对小目标缺陷时保持较高的分类性能。通过与其他分类模型的对比,本研究所提出的辣椒病害识别分类方法的识别准确率达到了98.10%,高于MaxViT(94.50%)、ResNet-34(82.19%)、EfficientNetv2(66.75%)和VGG-16(90.97%),分别提高3.6、15.91、31.35和7.13百分点,表明改进MaxViT-DF模型具有高准确率和较高的泛化能力。
同时,改进MaxViT-DF模型对各病害的识别结果分析发现,改进模型对炭疽病、细菌性病害、根腐病和缺素4种病害进行目标识别时,能够减少复杂环境对其识别性能的干扰,容易提取到有效特征,但改进模型对辣椒病毒病和温度不适病害的识别分类准确率相对较低,一方面是因为病毒病和温度不适病害多发生在辣椒叶片上,特征不如其他病害明显,而模型在应对病毒病和温度不适病害时容易被环境干扰从而学习到无效特征;另一方面病毒病和温度不适病害图片中可识别的部位过多,导致模型不能识别到真正有病害缺陷的叶片。针对上述错分问题,在今后的研究中应该对图片的复杂背景进行相应的前处理,将背景与病害部位分开提取,并且进一步加深模型的多尺度特征融合能力,增强模型在小目标和相似目标上的识别能力,从而提高模型在识别多种病害时的整体准确率。
参考文献References
Food and Agriculture Organization of the United Nations.FAOSTAT[DB/OL].[2023-06-05].https://www.fao.org/faostat/zh/#data/QCL. [百度学术]
ZEILER M D,FERGUS R.Visualizing and understanding convolutional networks[C]//FLEET D,PAJDLA T,SCHIELE B,et al.Computer Vision–ECCV:lecture notes in computer science.Cham:Springer,2014:818-833. [百度学术]
王燕,吕艳萍.混合深度CNN联合注意力的高光谱图像分类[J].计算机科学与探索,2023,17(2):385-395.WANG Y,LÜ Y P.Hybrid deep CNN-attention for hyperspectral image classification[J].Journal of frontiers of computer science and technology,2023,17(2):385-395 (in Chinese with English abstract). [百度学术]
SLADOJEVIC S,ARSENOVIC M,ANDERLA A,et al.Deep neural networks based recognition of plant diseases by leaf image classification[J/OL].Computational intelligence and neuroscience,2016,2016:3289801 [2023-06-05].https://doi.org/10.1155/2016/3289801. [百度学术]
张帅,淮永建.基于分层卷积深度学习系统的植物叶片识别研究[J].北京林业大学学报,2016,38(9):108-115.ZHANG S,HUAI Y J.Leaf image recognition based on layered convolutions neural network deep learning[J].Journal of Beijing Forestry University,2016,38(9):108-115 (in Chinese with English abstract). [百度学术]
张善文,谢泽奇,张晴晴.卷积神经网络在黄瓜叶部病害识别中的应用[J].江苏农业学报,2018,34(1):56-61.ZHANG S W,XIE Z Q,ZHANG Q Q.Application research on convolutional neural network for cucumber leaf disease recognition[J].Jiangsu journal of agricultural sciences,2018,34(1):56-61 (in Chinese with English abstract). [百度学术]
VISHNOI V K,KUMAR K,KUMAR B,et al.Detection of apple plant diseases using leaf images through convolutional neural network[J].IEEE access,2022,11:6594-6609. [百度学术]
LIU Z,XIANG X,QIN J,et al.Image recognition of citrus diseases based on deep learning[J].Computers,materials and continua,2021,66(1):457-466. [百度学术]
张鹏程,余勇华,陈传武,等.基于改进MobileNetV2的柑橘害虫分类识别方法[J].华中农业大学学报,2023,42(3):161-168.ZHANG P C,YU Y H,CHEN C W,et al.A classification and recognition method for citrus insect pests based on improved MobileNetV2[J].Journal of Huazhong Agricultural University,2023,42(3):161-168 (in Chinese with English abstract). [百度学术]
苏俊楷,段先华,叶赵兵.改进YOLOv5算法的玉米病害检测研究[J].计算机科学与探索,2023,17(4):933-941.SU J K,DUAN X H,YE Z B.Research on corn disease detection based on improved YOLOv5 algorithm[J].Journal of frontiers of computer science and technology,2023,17(4):933-941 (in Chinese with English abstract). [百度学术]
孙道宗,刘锦源,丁郑,等.基于改进EfficientNetv2模型的多品种南药叶片分类方法[J].华中农业大学学报,2023,42(1):258-267.SUN D Z,LIU J Y,DING Z,et al.Classification of leaves of multi-variety southern traditional Chinese medicine based on improved EfficientNetv2 model[J].Journal of Huazhong Agricultural University,2023,42(1):258-267(in Chinese with English abstract). [百度学术]
TU Z Z,TALEBI H,ZHANG H,et al.MaxViT:multi-axis vision transformer[DB/OL].arXiv,2022:2204.01697[2023-06-05].https://arxiv.org/abs/2204.01697. [百度学术]
VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st international conference on neural information processing systems (NIPS 2017),December 4-9,2017,Long Beach,USA.New York:Curran Associates Inc.,2017:6000-6010. [百度学术]
DAI J,QI H,XIONG Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEE international conference on computer vision (ICCV),October 22-29,2017,Venice,Italy.Venice:IEEE,2017:764-773. [百度学术]
JANG J G,QUAN C,LEE H D,et al.Falcon:lightweight and accurate convolution based on depthwise separable convolution[J].Knowledge and information systems,2023,65(5):2225-2249. [百度学术]
ZHANG J W,MA P L,JIANG T,et al.SEM-RCNN:a squeeze-and-excitation-based mask region convolutional neural network for multi-class environmental microorganism detection[J/OL].Applied sciences,2022,12(19):9902 [2023-06-05].https://doi.org/10.3390/app12199902. [百度学术]
AGUIAR M A D,DIAS A,FIELD M.Feedforward networks:adaptation,feedback,and synchrony[J].Journal of nonlinear science,2019,29(3):1129-1164. [百度学术]
DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:transformers for image recognition at scale[DB/OL].arXiv,2020:2010.11929 [2023-06-05].https://doi.org/10.48550/arXiv.2010.11929. [百度学术]
GAO M Y,QI D W,MU H B,et al.A transfer residual neural network based on ResNet-34 for detection of wood knot defects[J/OL].Forests,2021,12(2):212 [2023-06-05].https://doi.org/10.3390/f12020212. [百度学术]
DENG L W,SUO H F,LI D J.Deepfake video detection based on EfficientNet-V2 network[J/OL].Computational intelligence and neuroscience,2022,2022:3441549 [2023-06-05].https://doi.org/10.1155/2022/3441549. [百度学术]
CAMPOS-LEAL J A,YEE-RENDÓN A,VEGA-LÓPEZ I F.Simplifying VGG-16 for plant species identification[J].IEEE Latin America transactions,2022,20(11):2330-2338. [百度学术]