摘要
为解决测报灯采集图像中害虫依赖人工识别及统计结果可靠性低和准确性差的问题,本研究提出一种改进型Cascade R-CNN田间害虫检测算法。该算法以Cascade R-CNN为基础框架,采用ResNeSt-50作为主干网络,融合了跨通道注意力机制;使用统一目标检测头(unifying object detection heads with attentions,DyHead),并融合尺度感知、空间位置感知和任务感知。此外,采用简单复制-粘贴(simple copy-paste,SCP)方法进行了数据增强。研究共采集到20类害虫总计1 500张图像,制作了符合MS COCO格式(microsoft common objects in context 2017, MS COCO 2017)的测报灯田间害虫数据集。结果显示,本研究提出的方法的F1分数(F1-score)达到了86.2%。当交并比(intersection over union ,IoU)为0.5时,其F1-分数与经典Cascade R-CNN、Faster R-CNN和YOLOv4相比,分别提升了2.8、5.8和8.2个百分点。表明该方法满足测报灯害虫检测任务对判别能力和实时性的要求,实现了害虫的高精度自动识别与计数,可直接应用于田间害虫检测。
田间害虫以作物的组织为食,尤其是在功能叶的大部分光合作用尚未进行时吸食,导致作物严重减
早期的害虫自动化检测主要采用模式识别方法,将特征组合成特征向量后,根据特征相似度设计分类
近年来,深度学习技术在计算机视觉领域取得重大突
本研究以测报灯在田间实际环境下采集的害虫为研究对象,针对图像中害虫种类多、密度大、面积占比相对偏小、可辨别性较弱等特性,提出一种融合注意力机制的Cascade R-CNN田间害虫检测算法,在使用简单复制-粘贴(simple copy-paste,SCP
为建立算法所用的数据集,本研究采用上海云农智联生产的智能虫情测报灯作为采集装置,该装置结构如

图 1 测报灯结构(A)和拍摄环境(B、C)
Fig.1 Structure diagram (A) and shooting environment of telemetering lamp (B,C)
图像数据于2018年4月15日至2020年5月20日采集,共采集到20种害虫图像数据,具体害虫信息如

图 2 20类害虫图像
Fig.2 Images of 20 types of pests
A:水稻金翅叶蛾Cnaphalocrocis medinalis;B:水稻三化螟Scirpophaga incertulas;C:稻蝽Scotinophara lurida;D:稻象甲Echinocnemus squameus Billberg;E:蝼跍Gryllotalpa spps;F:水稻二化螟Cnaphalocrocis medinalis;G:稻纵卷叶螟Cnaphalocrocis medinalis;H:水稻大螟Sesamia inferens;I:稻蓟马Stenchaetothrips biformis;J:稻飞虱Nilaparvata lugens Stal;K:七星瓢虫Coccinella septempunctata;L:蚜虫 Aphididae;M: 蝗虫Locusta migratoria manilensis Meyen;N:粉蝶灯蛾Nyctemera adversata;O: 螳螂Mantodea;P:隐翅虫Oxytelus batiuculus;Q:稻叶蝉Nephotettix cincticeps;R:天牛Cerambycidae;S:青尺蛾Nehipparchus hypoleuca;T:灯蛾Artiae caja.
随机选择1 500幅图像建立高质量的数据集,使用开源工具Labelme对害虫图片进行人工标注,昆虫种类标签和
标注完成的所有图片制作成MS-COCO 2017格式的数据集,按8∶1∶1的比例随机将数据集中所有图片分配为训练集、验证集和测试集。其中,训练集用于对模型算法进行训练,验证集用于对模型超参数进行调整,测试集则用于对模型的识别能力做最终的评估。本研究采用COCO数据集检测评估指标对算法进行评估,即IoU(交并比,intersection over union,IoU)阈值为0.5的精确率(precision)进行评估。
在模型的训练过程中,为了提高模型的泛化能力,本研究引入SCP数据增强方

图 3 SCP数据增强结果
Fig.3 SCP data enhancement results
A:原始图像 Original images; B:简单复制-粘贴 Simple copy-paste.
深度学习检测算法至今已发展出基于锚框(anchor-based)和非锚框(anchor-free)两大技术分支。其中,基于锚框的技术在图像检测领域得到了更广泛的应用。基于锚框分为单阶段模型、双阶段模型和多阶段模型。随着阶段数的提高,锚框检测算法的精度也随之提升。多阶段模型的代表网络Cascade R-CN
为适应田间复杂环境下的害虫识别需求,本研究在Cascade R-CNN的基础框架之上,提出一种融合注意力机制的Cascade R-CNN,使用ResNeSt-50作为骨干网络来提取害虫图像特征。在不增加额外计算开销的情况下,通过引入统一目标检测头(unifying object detection heads with attentions,DyHead),提高害虫目标检测模型头部的表达能力。此外,在模型训练阶段,引入简单复制-粘贴(simple copy-paste,SCP)数据增强方法,以提高模型的特征学习效果和泛化能力。改进型Cascade R-CNN结构如

图4 改进型Cascade R-CNN结构
Fig.4 Improved Cascade R-CNN structure diagram
Cascade R-CNN在双阶段目标检测模型Faster R-CNN的基础上,通过在第二阶段ROI(region of interest)目标检测部分级联多个不同IoU阈值的检测网络,可以对预测结果不断优化,以提高目标识别的准确度。与普通级联网络不同的是,Cascade R-CNN级联结构中的每个检测模型都基于不同IoU阈值的正负样本训练得到,前一个检测网络输出的边界框作为下一个检测网络的输入。这样级联后的检测器接收的正负样本的IoU阈值越高,可获得的样本的质量越高,使得检测可以获得高质量的正样本来进行训练识别,提高了网络对目标信息的获取能力。随着输入的检测器接收到的正负样本IoU阈值不断上升,每个阶段的检测器都专注于检测某个IoU范围内的感兴趣目标候选区域,从而提高检测效果。
在
在田间害虫的识别中,需要识别多个种类的害虫目标。ResNeSt网络在ResNet网络结构的基础上对卷积部分进行了重构,引入了拆分注意力机制(split attention),能够在不改变整体特征通道数和输出特征图大小的情况下,使网络提取到更丰富的害虫特征信息。为了提高算法模型提取不同种类害虫目标特征信息的能力,本研究使用ResNeSt-50作为Cascade R-CNN中用于提取图像特征的骨干网络,在ImageNet数据集上,其准确率达到80.64%,分别高于经典的网络ResNet-50和ResNeXt-50的76.15%和77.77
在ResNeSt 模块中对害虫特征图的通道维数进行统计,并将通道维数分为k个簇(cardinal)。每个簇内部根据通道维数再分为r组,对每组的输入张量数据依次使用1×1卷积核和3×3卷积核进行处理,随后再将所有组输出的张量数据送入拆分注意力机制(split attention)处理。最后进行拼接(concatenate),将k个簇的特征通道进行融合,输出的数据使用1×1卷积核进行卷积。其结构如

图5 ResNeSt结构
Fig.5 ResNeSt structure diagram
目前主流的深度学习模型在骨干网络提取到足够的特征信息之后,采用特征金字塔先将提取到的特征送入模型头部,再进行进一步的分类和回归,得到最终的检测结果。在田间环境多种类害虫检测研究中,为了达到高精度检测的目的,需克服以下挑战。首先,在采集的图像中,由于害虫种类较多且处于不同发育阶段,使得多个尺度不一的目标出现在1张图像上,因此检测算法需要具有尺度感知能力。其次,在特征金字塔不同尺度的特征图中,目标通常以不同的形状和位置出现,检测算法需要感知目标在不同空间位置之间的关系。为了不增加额外计算开销,本研究引入DyHead来提高害虫目标检测模型头部的表示能力,DyHead结构如

图6 DyHead原理图
Fig.6 Schematic diagram of DyHead
A:DyHead方法示例 An illustration of DyHead approach; B:DyHead模块详细设计 Detailed design of DyHead.
与多数深度学习检测算法中对特征金字塔的处理方式不同,DyHead使用注意力机制来统一目标检测头部,通过在尺度感知的特征层之间、空间感知的空间位置之间以及任务感知的输出通道内连贯地结合多种自注意力机制(self-attention)。DyHead在害虫图像特征的层序(level)维度处理上,学习多个语义层之间的相对重要性,根据害虫目标的尺度大小在适当的特征层次上增强特征。空间感知(spatial-aware)注意力模块只在害虫图像特征的空间维度上处理,在空间位置上学习不同害虫特征的区别。任务感知(task-aware)注意力模块处理通道上的害虫特征数据,根据害虫特征在不同卷积核的卷积计算输出差别,引导不同的特征通道分别识别不同的害虫种类。DyHead可以将检测器在COCO数据集上的平均精确率(average precision)提高1.2%~3.2
由于级联结构的引入,训练阶段中的损失函数在Faster R-CNN损失函数的基础上,引入了递归函数,损失总体表达式如
(1) |
(2) |
在
本研究中所用操作系统为Ubuntu 20.04,深度学习模型框架为Pytorch 1.7.1,使用Python 3.7.9作为整体系统软件编写语言。改进型Cascade R-CNN算法实验所用服务器硬件平台配置为:处理器Intel(R) Core(TM)i9-9900k,主频为3.6 GHz,内存32 GB,显卡NVIDIA GeForce RTX 3090(24 GB)。
本试验采用MS COCO2017格式的田间害虫数据集。根据迁移学习方法,改进型Cascade R-CNN使用在ImageNet上经过预训练的权重文件,在训练集中对网络进行训练,通过测试集测试模型的效果,比较不同算法的性能。
使用随机梯度下降法(SGD)训练模型,权值衰减系数为0.000 05,动量参数为0.9,基于单RTX 3090显卡的batch size大小为3。学习率为0.002 5,设定训练迭代(epochs)为36,在训练过程中采用动态机制调整学习率,初始学习率设为0.001,在前500次迭代中线性增加至0.002 5后保持不变,在第28至第34期减少为初始值的1/10。

图7 训练过程损失函数变化曲线
Fig.7 Loss curves of training
为了验证算法中改进部分的有效性,本研究分别针对SCP、ResNeSt-50和DyHead完成了消融实验,结果如
模型 Model | 特征提取网络 Backbone | 精确率 Precision | 召回率 Recall | F1分数 F1-score |
---|---|---|---|---|
Cascade R-CNN | ResNet-50 | 88.6 | 78.7 | 83.4 |
Cascade R-CNN | ResNeSt-50 | 89.7 | 79.4 | 84.2 |
Cascade R-CNN+SCP | ResNet-50 | 90.2 | 80.5 | 85.1 |
Cascade R-CNN+DyHead | ResNet-50 | 89.6 | 79.8 | 84.4 |
Improved Cascade R-CNN | ResNeSt-50 | 91.4 | 81.6 | 86.2 |

图 8 害虫检测效果对比图
Fig.8 Image of the pest detection effect comparison
A:原始图像 Original images; B:真实标签 True label; C:Cascade R-CNN; D:Cascade R-CNN+SCP+ResNeSt-50+DyHead.
由
在本研究建立的测报灯害虫数据集中,除了消融试验外,分别利用改进型Cascade R-CNN、Cascade R-CNN、Faster R-CNN、YOLOv
模型 Model | 特征提取网络 Backbone | 精确率 Precision | 召回率 Recall | F1分数 F1-score |
---|---|---|---|---|
Faster R-CNN | ResNet-50 | 85.8 | 75.7 | 80.4 |
YOLOv4 | DarkNet53 | 83.6 | 73.1 | 78.0 |
YOLOX | DarkNet53 | 86.4 | 77.3 | 81.6 |
Cascade RPN | ResNet-50 | 87.2 | 78.1 | 82.4 |
Improved Cascade R-CNN | ResNeSt-50 | 91.4 | 81.6 | 86.2 |
本研究针对田间害虫检测问题,在Cascade R-CNN模型基础上针对多目标图像特征学习进行改进,提出了一种融合注意力机制的Cascade R-CNN害虫检测方法。该方法采用ResNeSt-50作为骨干网络提取害虫图像特征,引入DyHead以增强害虫目标检测的模型头部表示能力;通过应用SCP提升模型的泛化能力。本研究提出的改进型Cascade R-CNN在F1-score上达到了86.2%,与经典的Cascade R-CNN、Faster R-CNN和YOLOv4相比分别提升了2.8、5.8和8.2个百分点。这一结果表明所提出的方法可满足田间害虫检测的精度要求,可为后续田间害虫精准检测装备的研究奠定基础。
在实际应用场景中,害虫密集分布会导致虫体堆积和遮挡问题,给识别带来一定的困难。为了应对这一挑战,后续研究可以探索更先进的模块或算法,以提高模型在复杂场景下的性能。此外,为了进一步提升模型的泛化能力,可以考虑在数据集中增加更多种类害虫的图像数据。在采集装置研发方面,针对虫体堆积和遮挡问题,可为测报灯添加预警装置,在虫量超出设定阈值时产生反馈信号并自行调节拍摄频率,以获取遮挡较少的灯诱害虫图像,从而降低图像处理难度,以提升模型在实际应用中的稳定性,为农业生产带来实质性的益处。
参考文献 References
盛承发.间接性害虫为害与作物产量损失的关系Ⅰ.食叶害虫[J].应用生态学报,1993,4(2):192-197.SHENG C F.Relationship of crop yield to feeding injury by indirect insect and mite pests.Ⅰ.Leaf eating insect pests[J].Chinese journal of applied ecology,1993,4(2):192-197 (in Chinese with English abstract). [百度学术]
李改完,王艳,冀晓燕.基层病虫测报工作存在问题及对策[J].现代农村科技,2011(7):4-5.LI G W,WANG Y,JI X Y.Problems and countermeasures of grass-roots pest forecasting work[J].Modern agricultural science and technology,2011(7):4-5 (in Chinese). [百度学术]
DING W G,TAYLOR G.Automatic moth detection from trap images for pest management[J].Computers and electronics in agriculture,2016,123:17-28. [百度学术]
杨红珍,张建伟,李湘涛,等.基于图像的昆虫远程自动识别系统的研究[J].农业工程学报,2008,24(1):188-192.YANG H Z,ZHANG J W,LI X T,et al.Remote automatic identification system based on insect image[J].Transactions of the CSAE,2008,24(1):188-192 (in Chinese with English abstract). [百度学术]
张建伟,王永模,沈佐锐.麦田蚜虫自动计数研究[J].农业工程学报,2006,22(9):159-162.ZHANG J W,WANG Y M,SHEN Z R.Novel method for estimating cereal aphid population based on computer vision technology[J].Transactions of the CSAE,2006,22(9):159-162 (in Chinese with English abstract). [百度学术]
张红涛,刘迦南,谭联,等.基于计算机视觉的棉铃虫成虫雌雄自动判别研究[J].环境昆虫学报,2019,41(4):908-913.ZHANG H T,LIU J N,TAN L,et al.Study on utomatic discrimination of male and female imagoes of Helicoverpa armigera(Hübner)based on computer vision[J].Journal of environmental entomology,2019,41(4):908-913 (in Chinese with English abstract). [百度学术]
潘梅,李光辉,周小波,等.基于机器视觉的茶园害虫智能识别系统研究与实现[J].现代农业科技,2019(18):229-230,233.PAN M,LI G H,ZHOU X B,et al.Research and implementation of intelligent recognition system for tea garden pest based on machine vision[J].Modern agricultural science and technology,2019(18):229-230,233 (in Chinese with English abstract). [百度学术]
荆晓冉.基于图像的害虫自动计数与识别系统的研究[D].杭州:浙江大学,2014.JING X R.Study on automatic pest counting and identification system based on image[D].Hangzhou:Zhejiang University,2014 (in Chinese with English abstract). [百度学术]
REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 1.December 7 - 12,2015,Montreal,Canada.New York:ACM,2015:91–99. [百度学术]
QIAO S Y,CHEN L C,YUILLE A.DetectoRS:detecting objects with recursive feature pyramid and switchable atrous convolution[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),June 20-25,2021,Nashville,TN,USA.Nashville:IEEE,2021:10208-10219. [百度学术]
WANG Z B,WANG K Y,LIU Z Q,et al.A cognitive vision method for insect pest image segmentation[J].IFAC-PapersOnLine,2018,51(17):85-89. [百度学术]
SUN Y,LIU X X,YUAN M S,et al.Automatic in-trap pest detection using deep learning for pheromone-based Dendroctonus valens monitoring[J].Biosystems engineering,2018,176:140-150. [百度学术]
LIU L,WANG R J,XIE C J,et al.PestNet:an end-to-end deep learning approach for large-scale multi-class pest detection and classification[J].IEEE access,2019,7:45301-45312. [百度学术]
甘雨,郭庆文,王春桃,等.基于改进EfficientNet模型的作物害虫识别[J].农业工程学报,2022,38(1):203-211.GAN Y,GUO Q W,WANG C T,et al.Recognizing crop pests using an improved EfficientNet model[J].Transactions of the CSAE,2022,38(1):203-211 (in Chinese with English abstract). [百度学术]
张善文,许新华,齐国红,等.基于可形变VGG-16模型的田间作物害虫检测方法[J].农业工程学报,2021,37(18):188-194.ZHANG S W,XU X H,QI G H,et al.Detecting the pest disease of field crops using deformable VGG-16 model[J].Transactions of the CSAE,2021,37(18):188-194 (in Chinese with English abstract). [百度学术]
鲍文霞,吴德钊,胡根生,等.基于轻量型残差网络的自然场景水稻害虫识别[J].农业工程学报,2021,37(16):145-152.BAO W X,WU D Z,HU G S,et al.Rice pest identification in natural scene based on lightweight residual network[J].Transactions of the CSAE,2021,37(16):145-152 (in Chinese with English abstract). [百度学术]
蔡润基, 江方湧, 郑涛涛, 等. 深度模型融合数据合成机制的长尾目标识别[J/OL]. 华中农业大学学报: 1-10[2023-02-13].http://kns.cnki.net/kcms/detail/42.1181.S.20230112.1916.002.html.CAI R J, JIANG F Y, ZHENG T T, et al. Synthetic samples combined model-based recognition of long-tailed target[J/OL].Journal of Huazhong Agricultural University, 2023: 1-10[2023-02-13].http://kns.cnki.net/kcms/detail/42.1181.S.20230112.1916.002.html (in Chinese with English abstract) . [百度学术]
姚青,吴叔珍,蒯乃阳,等.基于改进CornerNet的水稻灯诱飞虱自动检测方法构建与验证[J].农业工程学报,2021,37(7):183-189.YAO Q,WU S Z,KUAI N Y,et al.Automatic detection of rice planthoppers through light-trap insect images using improved CornerNet[J].Transactions of the CSAE,2021,37(7):183-189 (in Chinese with English abstract). [百度学术]
张诗雨,夏凯,杜晓晨,等.一种基于聚类特征的Faster R-CNN粮仓害虫检测方法[J].中国粮油学报,2020,35(4):165-172.ZHANG S Y,XIA K,DU X C,et al.A faster R-CNN method for insect detection in granary based on clustering feature[J].Journal of the Chinese cereals and oils association,2020,35(4):165-172 (in Chinese with English abstract). [百度学术]
张博,张苗辉,陈运忠.基于空间金字塔池化和深度卷积神经网络的作物害虫识别[J].农业工程学报,2019,35(19):209-215.ZHANG B,ZHANG M H,CHEN Y Z.Crop pest identification based on spatial pyramid pooling and deep convolution neural network[J].Transactions of the CSAE,2019,35(19):209-215 (in Chinese with English abstract). [百度学术]
GHIASI G,CUI Y,SRINIVAS A,et al.Simple copy-paste is a strong data augmentation method for instance segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),June 20-25,2021,Nashville,TN,USA.Nashville:IEEE,2021:2917-2927. [百度学术]
ZHANG H,WU C R,ZHANG Z Y,et al.ResNeSt:split-attention networks[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),June 19-20,2022.New Orleans,LA,USA:IEEE,2022:2735-2745. [百度学术]
DAI X Y,CHEN Y P,XIAO B,et al.Dynamic head:unifying object detection heads with attentions[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),June 20-25,2021.Nashville,TN,USA:IEEE,2021:7369-7378. [百度学术]
CAI Z W,VASCONCELOS N.Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,une 18-23,2018,Salt Lake City,UT,USA.Salt Lake City:IEEE,2018:6154-6162. [百度学术]
LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV),October 22-29,2017.Venice,Italy:IEEE,2017:2999-3007. [百度学术]
BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[DB/OL].arXiv,2020:2004.10934.https://doi.org/10.48550/arXiv.2004.10934. [百度学术]
GE Z,LIU S T,WANG F,et al.YOLOX:exceeding YOLO series in 2021[DB/OL].arXiv,2021:2107.08430.https://doi.org/10.48550/arXiv.2107.08430. [百度学术]
VU T,JANG H,PHAM T X,et al.Cascade RPN:delving into high-quality region proposal network with adaptive convolution[DB/OL].arXiv,2019:1909.06720.https://doi.org/10.48550/arXiv.1909.06720. [百度学术]