摘要
针对荔枝园复杂背景下荔枝小目标病虫害检测困难的问题,提出一种基于改进Faster R-CNN的荔枝病虫害检测方法。以Faster R-CNN为基础,使用特征提取能力更优秀的Swin Transformer代替原有主干网络VGG16;通过特征金字塔网络(feature pyramid network, FPN)提升Faster R-CNN模型的多尺度特征融合能力,均衡提高每一类荔枝病虫害的识别精确率;引入感兴趣区域对齐(region of interest align, ROI Align)策略提升模型的候选框定位精度,进一步提升模型的整体检测效果。结果显示,改进后的模型平均精度均值达到92.76%,相较原始Faster R-CNN检测器提升了30.08百分点,在5类荔枝病虫害图像(藻斑病、炭疽病、煤烟病、毛毡病、叶瘿蚊)中的检测精度分别为93.05%、94.81%、96.57%、87.03%和92.34%,平均精度均值比SSD512、RetinaNet、EfficientDet-d0和YOLOv5s模型分别提高了20.50、5.70、13.08和3.26百分点。结果表明,改进后的Faster R-CNN模型能准确检测复杂背景下的荔枝病虫害目标,具有较高的应用价值,能为农作物病虫害快速、准确识别研究提供参考。
荔枝口感美味,含有丰富的微量元素以及蛋白质,营养价值高,深受人们的青
自然环境下的检测任务中,荔枝病虫害图像背景往往是复杂的、非结构的,并且图像中往往存在多种病虫害目标。随着计算机视觉技术的发展,对输入图像中病虫害目标同时进行分类和定位的目标检测方法,能够对农作物病虫害进行更加高效且精确的诊断防控。徐会杰
Transformer模型依托于自注意力机制,能够精准捕捉图像中的长距离依赖关系,在目标检测任务中展现出卓越的建模能力,因此ViT(Vision Transformer)和DETR(Detection Transformer)先后被提出并分别应用于图像分类和目标检测任务。蒲攀
荔枝病虫害图像背景复杂,病斑面积较大但数量较少的样本与病斑面积较小但数量较多的样本并存,部分类别的病斑与雨水或光斑相似,极易造成病虫害斑点的误检与漏检。针对以上问题,本研究结合双阶段目标检测算法Faster R-CNN与Transformer的特性,提出基于改进Faster R-CNN的荔枝病虫害检测方法,以期为林间精准监测荔枝病虫害提供参考。
本研究的荔枝病虫害图像采集地点为广东省农业技术推广总站,采集时间为2021年8月中旬和2022年4月下旬,图像采集设备为Nikon D7200相机和高清智能手机,相机传感器尺寸约22.3 mm×14.9 mm,像素为1 800万像素,设置相机分辨率为4 032像素×3 016像素和3 000像素×3 000像素。为真实还原荔枝园复杂环境,分别在晴天、雨后和阴天3种不同天气采集数据,在自然光下对荔枝病虫害叶片进行东、南、西、北4个方向拍摄,拍摄距离为0.3~0.5 m。在荔枝病虫害专家的指导下完成数据集分类,数据集共包含5类荔枝病虫害图像,病害种类包括藻斑病、煤烟病和炭疽病,虫害包括毛毡病和叶瘿蚊,数据集图像总数为4 093。数据集样例如

图1 病虫害实例
Fig. 1 Case of diseases and insect pests
采用可视图像标注工具LabelImg手动标注图像中的荔枝病虫害目标,标注格式为COCO格式,标注过程中不会标注接近图像边缘的病虫害目标。为增强模型的鲁棒性,本研究在每次迭代训练期间使用随机缩放、随机旋转和高斯模糊3种方法对输入图像进行增强。训练集、验证集和测试集按照8∶1∶1的比例划分。数据集的5类样本划分情况见
类别 Category | 训练集 Train set | 验证集 Validation set | 测试集 Test set | 合计 Total set |
---|---|---|---|---|
毛毡病 Felt disease | 686 | 86 | 86 | 858 |
煤烟病 Sooty mold | 633 | 79 | 79 | 791 |
炭疽病 Anthracnose | 623 | 78 | 78 | 779 |
藻斑病 Algal leaf spot | 638 | 80 | 80 | 798 |
叶瘿蚊 Leaf gall | 694 | 86 | 87 | 867 |
合计 Number of images | 3 274 | 409 | 410 | 4 093 |
如何更准确地提取小目标类别病斑特征和回归边界框,进而准确识别已知病虫害类别与发病位置是本文的研究重点。随着R-CN

图2 Faster R-CNN模型结构
Fig. 2 Model structure of Faster R-CNN
Reshape表示维度重组操作 Dimension reorganization operation;Softmax表示分类激活函数 Classification activation function;Proposals表示候选框 Candidate boxes;Img_info表示预先设置的锚框设置 Preset anchor box settings;ROI Pooling表示感兴趣区域池化 Region of interest pooling.
1) 主干网络。2017年,由Google研究团队提出的Transformer模
如

图3 Swin Transformer模型结构
Fig. 3 Model structure of Swin Transformer
H和W分别表示高度和宽度 H and W represent height and width respectively;Patch partition表示块分割操作 Patch partition represents block segmentation operation;Linear embedding表示线性嵌入操作 Linear embedding represents linear embedding operation;⊕表示矩阵逐元素相加操作 ⊕ represents matrix element addition operation.
2) 特征金字塔网络。本研究数据中的荔枝藻斑病与叶瘿蚊的病斑面积小,直径通常不超过5 mm,而荔枝炭疽病、煤烟病和毛毡病病斑相对较大,针对小目标和多尺度检测难点问题,本研究引入Lin
如

图4 特征金字塔网络结构
Fig. 4 Feature pyramid network architecture
3) 感兴趣区域对齐。ROI Pooling涉及2次量化:第1次将ROI坐标从浮点数量化为整数,第2次在ROI划分子区域时向下取整。这导致Faster R-CNN得到的候选框与初始位置产生了一定的偏差,这对小目标检测效果影响很大。本研究借鉴Mask R-CNN,用ROI Align改进网络以提高小目标检测效果。
ROI Align机制的运作流程可概括为3个关键步骤,如

图5 感兴趣区域对齐原理
Fig. 5 Principle of ROI Align
为了提高Faster R-CNN对复杂背景下的荔枝小目标病虫害检测精度,本研究使用Swin Transformer替代原始Faster R-CNN所使用的VGG16特征提取骨干网络;通过特征金字塔网络融合高级特征与低级特征,丰富特征图信息;引入ROI Align替代原始Faster R-CNN模型的ROI Pooling策略,提升模型的候选框定位精度。改进后的Faster R-CNN模型结构如

图6 改进后Faster R-CNN完整结构
Fig. 6 Improved complete structure of Faster R-CNN
1) 实验平台与训练超参数设置。本研究平台基于操作系统为Ubuntu18.04(x86-64bit)的服务器,该服务器CPU为Inter(R) Xeon(R) Gold 6240 CPU@2.59 GHz,GPU为2块NVIDIA GeForce GTX 3090,显存为24 GB,运行内存192 GB。编程语言选择Python 3.8.10,深度学习框架选择Pytorch 1.9.0,CUDA驱动选择11.1,Cudnn版本选择8.5.0。
为了提升模型训练的效率和稳定性,本研究采用了迁移学习方法,使用预训练的Swin Transformer骨干网络权重。训练前对所有待处理图像尺寸标准化至640像素×640像素,并采取随机缩放、旋转和添加高斯噪声3种数据增强措施,以提高模型鲁棒性。在训练阶段,设定初始学习率0.002,批量大小设置为64,配合Adam优化器执行模型的反向传播。此外,模型在每完成250次迭代后,使用0.5的交并比(intersection over union, IoU)阈值对验证集进行性能评估,并通过非极大值抑制(non-maximum suppression, NMS)预测结果,其中NMS的IoU阈值设定为0.5。
2) 评价指标。本研究使用平均精度(average precision,PA)作为模型在各类别荔枝病虫害数据集上的评价指标。平均精度与模型的精确率(precision,P)和召回率(recall,R)有关,在给定一个特定检测类别以及IoU阈值下,平均精度表示为精确率与召回率的曲线面积之和,进一步可以得到各类别PA的平均精度均值(mean average precision, PmA)。其中,精确率、召回率和平均精度的定义如式(
(1) |
(2) |
(3) |
为验证提出的改进方法对5类荔枝病虫害的实际检测效果,本研究将改进Faster R-CNN模型与原始Faster R-CNN模型基于相同测试集进行测试。由
模型 Model | 病害平均精度 Disease average precision | 虫害平均精度 Insect average precision | 平均精度均值 PmA | |||
---|---|---|---|---|---|---|
藻斑病 Algal leaf spot | 炭疽病 Anthracnose | 煤烟病 Sooty mold | 毛毡病 Felt disease | 叶瘿蚊 Leaf gall | ||
基线模型 Baseline model | 32.93 | 91.42 | 87.46 | 80.51 | 21.10 | 62.68 |
改进模型 Improved model | 93.05 | 94.81 | 96.57 | 87.03 | 92.34 | 92.76 |
为直观感受改进后的模型对荔枝病虫害图像的检测效果,分别使用改进前后的模型对比检测了晴天阳光直射、晴天阳光非直射、阴天、雨天4种环境下的荔枝病虫害图像。由

图7 改进前后模型对每类荔枝病虫害的检测效果
Fig. 7 Detection effect of improved models on each kind of litchi diseases and insect pests
为验证Swin Transformer骨干网络、特征金字塔网络和感兴趣区域对齐策略对原始Faster R-CNN模型带来的性能提升效果,本研究在统一测试集和损失函数的基准下,设置了一系列消融实验。由

图8 消融实验训练损失值
Fig. 8 Training loss results of ablation experiments
S, F, R分别代表原始模型添加Swin Transformer、FPN和ROI Align。S, F and R respectively represent that the original model is added with Swin Transformer, FPN and ROI Align.
由
骨干网络 Backbone | 特征金字塔网络 FPN | 感兴趣区域对齐 ROI Align | 精确率/% P | 召回率/% R | F1分数 F1 score | 平均精度均值/% PmA |
---|---|---|---|---|---|---|
VGG16 | × | × | 38.44 | 72.64 | 50.01 | 62.68 |
Swin Transformer | × | × | 68.46 | 78.37 | 73.08 | 74.50 |
Swin Transformer | × | √ | 75.30 | 82.08 | 78.54 | 79.00 |
Swin Transformer | √ | × | 76.89 | 90.16 | 83.20 | 89.20 |
Swin Transformer | √ | √ | 82.57 | 93.57 | 87.72 | 92.76 |
为综合对比改进Faster R-CNN模型与其他不同模型对荔枝病虫害的检测效果,在相同训练环境和超参数设置下,将当前主流目标检测模型SSD512、YOLOv5s、EfficientDet-d0和RetinaNet与本研究提出的改进Faster R-CNN模型进行测试对比。
由
模型 Model | 骨干网络 Backbone | 精确率/% P | 召回率/% R | F1 分数 F1 score | 平均精度均值/% PmA |
---|---|---|---|---|---|
SSD512 | VGG16 | 67.85 | 74.05 | 70.81 | 72.26 |
YOLOv5s | CSPDarknet53 | 87.33 | 84.92 | 86.05 | 89.50 |
EfficientDet-d0 | EfficientNet | 72.61 | 82.90 | 77.41 | 79.68 |
RetinaNet | ResNet18 | 66.65 | 86.25 | 75.19 | 87.06 |
改进Faster R-CNN Improved Faster R-CNN | Swin Transformer | 82.57 | 93.57 | 87.72 | 92.76 |
由

图9 不同模型的混淆矩阵
Fig. 9 Confusion matrices for different models
FD,ALS,ATC,LG,SM,BG分别代表荔枝毛毡病、藻斑病、炭疽病、叶瘿蚊、煤烟病、背景类别。FD, ALS, ATC, LG, SM, BG represents felt disease, algal leaf spot, anthracnose, leaf gall, sooty mold and background category, respectively .
本研究使用Grad-CAM(gradient-weighted class activation mapping)方法对改进Faster R-CNN模型进行热力图可视化,颜色越红表示该区域对模型响应越高。由

图10 改进前后模型检测热力图
Fig. 10 Heatmaps of model detection before and after improvement
A:荔枝病虫害图像 Images of litchi pests and diseases;B:原始Faster R-CNN模型检测热力图Heatmaps of Faster R-CNN model detection;C:改进Faster R-CNN模型检测热力图Heatmaps of improved Faster R-CNN model detection.
本研究针对复杂环境下的荔枝病虫害小目标检测难点,以5种不同荔枝病虫害图像作为研究对象,使用实地采集的4 093张图像,构建荔枝病虫害数据集,在原始Faster R-CNN模型的基础上,使用Swin Transformer作为模型的骨干网络,采用特征金字塔网络和感兴趣区域对齐策略改进模型。改进Faster R-CNN模型在训练集、验证集和测试集上的检测平均精度均值分别为97.70%、93.30%和92.76%,表明模型进行了很好的收敛且具有很好的泛化性;改进Faster R-CNN模型在毛毡病、炭疽病和煤烟病的检测精度分别为87.03%、94.81%和96.57%,在小目标类别(藻斑病和叶瘿蚊)的检测精度为93.05%和92.34%,对比改进前分别提升60.12和71.24百分点,小目标检测能力获得大幅提升。
本研究提出的改进Faster R-CNN模型相比常见目标检测模型,很好地解决了荔枝病虫害斑的多尺度检测问题与小目标检测问题,具有较高的应用价值。但由于时间和资源限制,所使用数据集样本集中采集于广州地区,采集时间为4月下旬和8月中旬,存在地域局限性和时间局限性。因此在未来的研究中,需要进一步扩大样本数量和增加样本多样性,以提高研究结果的普适性和可靠性;在保持精度的情况下,设计更轻量化的模型嵌入移动端设备,为荔枝产业智能化管理提供有效参考。
参考文献 References
陈剑文.荔枝栽培管理及病虫害防治方法[J].吉林农业,2018(19):86.CHEN J W.Litchi cultivation management and pest control methods[J].Agriculture of Jilin,2018(19):86 (in Chinese). [百度学术]
钟谋.荔枝和龙眼病虫害综合防治技术[J].乡村科技,2018,9(7):101-102.ZHONG M.Integrated pest control techniques for litchi and longan[J].Rural science and technology,2018,9(7):101-102 (in Chinese). [百度学术]
张敏,曾雯雯,陆耀.荔枝种植中优质高效栽培技术研究[J].现代农机,2022(5):104-106.ZHANG M,ZENG W W,LU Y.Study on high-quality and efficient cultivation techniques in litchi planting[J].Modern agricultural machinery,2022(5):104-106 (in Chinese). [百度学术]
黄康泉.荔枝主要病虫害的为害症状及防治方法[J].现代园艺,2021,44(22):40-41.HUANG K Q.Damage symptoms and control methods of main diseases and insect pests in litchi[J].Contemporary horticulture,2021,44(22):40-41 (in Chinese). [百度学术]
全林发,董易之,徐淑,等.荔枝园荔枝蒂蛀虫常规爆发期的种群空间分布格局[J].环境昆虫学报,2021,43(4):950-958.QUAN L F,DONG Y Z,XU S,et al.Spatial distribution patterns of Conopomorpha sinensis Bradley during its conventional population outbreak in litchi orchard[J].Journal of environmental entomology,2021,43(4):950-958 (in Chinese). [百度学术]
邵明月,张建华,冯全,等.深度学习在植物叶部病害检测与识别的研究进展[J].智慧农业,2022,4(1):29-46.SHAO M Y,ZHANG J H,FENG Q,et al.Research progress of deep learning in detection and recognition of plant leaf diseases[J].Smart agriculture,2022,4(1):29-46 (in Chinese with English abstract). [百度学术]
WAHEED A,GOYAL M,GUPTA D,et al.An optimized dense convolutional neural network model for disease recognition and classification in corn leaf[J/OL].Computers and electronics in agriculture,2020,175:105456[2024-09-11].https://doi.org/10.1016/j.compag.2020.105456. [百度学术]
CHEN J,LIU Q,GAO L W.Visual tea leaf disease recognition using a convolutional neural network model[J/OL].Symmetry,2019,11(3):343[2024-09-11].https://doi.org/10.3390/sym11030343. [百度学术]
谢家兴,陈斌瀚,彭家骏,等.基于改进ShuffleNet V2的荔枝叶片病虫害图像识别[J].果树学报,2023,40(5):1024-1035.XIE J X,CHEN B H,PENG J J,et al.Image recognition of leaf pests and diseases based on improved ShuffleNet V2 in litchi[J].Journal of fruit science,2023,40(5):1024-1035 (in Chinese with English abstract). [百度学术]
徐会杰,黄仪龙,刘曼.基于改进YOLOv3模型的玉米叶片病虫害检测与识别研究[J].南京农业大学学报,2022,45(6):1276-1285.XU H J,HUANG Y L,LIU M.Research on pest detection and identification of corn leaf based on improved YOLOv3 model[J].Journal of Nanjing Agricultural University,2022,45(6):1276-1285 (in Chinese with English abstract). [百度学术]
王卫星,刘泽乾,高鹏,等.基于改进YOLOv4的荔枝病虫害检测模型[J].农业机械学报,2023,54(5):227-235.WANG W X,LIU Z Q,GAO P,et al.Detection of litchi diseases and insect pests based on improved YOLOv4 model[J].Transactions of the CSAM,2023,54(5):227-235 (in Chinese with English abstract). [百度学术]
何颖,陈丁号,彭琳.基于改进YOLOv5模型的经济林木虫害目标检测算法研究[J].中国农机化学报,2022,43(4):106-115.HE Y,CHEN D H,PENG L.Research on object detection algorithm of economic forestry pests based on improved YOLOv5[J].Journal of Chinese agricultural mechanization,2022,43(4):106-115 (in Chinese with English abstract). [百度学术]
XIAO J Y,KANG G B,WANG L H,et al.Real-time lightweight detection of lychee diseases with enhanced YOLOv7 and edge computing[J/OL].Agronomy,2023,13(12):2866[2024-09-11].https://doi.org/10.3390/agronomy13122866. [百度学术]
GHOURY S, SUNGUR C, DURDU A. Real-time diseases detection of grape and grape leaves using Faster R-CNN and SSD mobilenet architectures[C]//International Conference on Advanced Technologies, Computer Engineering and Science (ICATCES 2019), Apr 26-28, 2019, Alanya, Turkey. [S.l.:s.n.],2019:39-44. [百度学术]
姜晟,曹亚芃,刘梓伊,等.基于改进Faster RCNN的茶叶叶部病害识别[J].华中农业大学学报,2024,43(5):41-50.JIANG S,CAO Y P,LIU Z Y,et al.Recognition of tea leaf disease based on improved Faster RCNN[J].Journal of Huazhong Agricultural University,2024,43(5):41-50 (in Chinese with English abstract). [百度学术]
蒲攀,张越,刘勇,等.Transformer优化及其在苹果病虫命名实体识别中的应用[J].农业机械学报,2023,54(6):264-271.PU P,ZHANG Y,LIU Y,et al.Transformer optimization and application in named entity recognition of apple diseases and pests[J].Transactions of the CSAM,2023,54(6):264-271 (in Chinese with English abstract). [百度学术]
杨信廷,刘彤,韩佳伟,等.基于Swin Transformer与GRU的低温贮藏番茄成熟度识别与时序预测研究[J].农业机械学报,2024,55(3):213-220.YANG X T,LIU T,HAN J W,et al.Low temperature storage tomato maturity recognition and time series prediction based on swin transformer-GRU[J].Transactions of the CSAM,2024,55(3):213-220 (in Chinese with English abstract). [百度学术]
王杨,李迎春,许佳炜,等.基于改进Vision Transformer网络的农作物病害识别方法[J].小型微型计算机系统,2024,45(4):887-893.WANG Y,LI Y C,XU J W,et al.Crop disease recognition method based on improved Vision Transformer network[J].Journal of Chinese computer systems,2024,45(4):887-893 (in Chinese with English abstract). [百度学术]
YAO Z Y,AI J B,LI B X,et al.Efficient DETR:improving end-to-end object detector with dense prior[DB/OL].ArXiv, 2021:2104.01318[2024-09-11]. https://doi.org/10.48550/arXiv.2104.01318. [百度学术]
GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,June 23-28,2014,Columbus,USA.Santiago:IEEE,2014:580-587. [百度学术]
GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV),December 7-13,2015,Santiago,Chile.Santiago:IEEE,2015:1440-1448. [百度学术]
SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [DB/OL]. ArXiv,2014:1409.1556[2024-09-11]. https://doi.org/10.48550/arXiv.1409.1556. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//31st International Conference on Neural Information Processing Systems,December 4-9,2017,Long Beach,USA.Long Beach:Curran Associates Inc.,2017:6000-6010. [百度学术]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[DB/OL].ArXiv,2020:2010.11929[2024-09-11]. https://doi.org/10.48550/arXiv.2010.11929. [百度学术]
LIU Z,LIN Y T,CAO Y,et al.Swin transformer:hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV),October 10-17,2021,Montreal,Canada.Montreal:IEEE,2021:9992-10002. [百度学术]
LIN T Y,DOLLÁR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),July 21-26,2017,Honolulu,USA.Honolulu:IEEE,2017:936-944. [百度学术]
HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//2017 IEEE International Conference On Computer Vision,October 22-29,2017.Venice,Italy.Venice:IEEE, 2017:2961-2969. [百度学术]