摘要
为了快速识别自然环境下的成熟草莓与未成熟草莓,本研究提出了基于EfficientDet-D1的草莓快速检测及分类方法。该方法具有EfficientNet 网络中快速归一化特征加权融合特点,应用该方法与YOLOv3、YOLOv4、Faster-RCNN以及EfficientDet-D0模型进行对比试验,结果显示,YOLOv3、YOLOv4、Faster-RCNN、EfficientDet-D0和EfficientDet-D1等5种算法的平均精度均值(PmA)分别为 89.51%、69.02%、96.54%、96.71%、97.50%。试验结果表明,EfficientDet-D1在成熟草莓与未成熟草莓的检测性能均优于其他4种目标检测算法,有较好的泛化性和鲁棒性,且使用模型参数量较小的EfficientNet网络,更适合作用于移动端识别,可实现草莓快速识别中的速度与精度要求。
草莓是世界广泛种植的浆果类果实,其采摘过程繁琐、劳累,大大增加了人工成本。草莓自动采摘机器人能够应对更加复杂的作业对象和作业环境,替代大量人工操作,并取得较好的作业效果。基于计算机视觉的草莓成熟度检测方法为实现草莓的自动化采摘提供了应用基础,是目前研究热点之一。贾宗维
近年来随着人工智能技术的发展,以卷积神经网络为主干特征提取网络的目标检测算法在图像识别领域得到广泛关
本试验所采集的数据来自广东省广州市从化区某大型草莓种植园,其采用大棚地垄式种植方式。该草莓园地理位置经纬度为东经113°55′,北纬23°64′,采样当天天气晴。试验使用的图像采集设备为华为荣耀9X手机后置摄像头。试验将已挂果的草莓植株作为采集对象,其中成熟草莓为新鲜红色,未成熟的草莓为绿色或者粉色。试验共采集了自然环境中的草莓图像636张,为提高数据集的容量,使用Python脚本从网上随机爬取各类草莓图像1 000张,总数共计1 636张原始图像,成熟草莓样本为594张,未成熟草莓样本为1 042张,按8∶1∶1划分为训练集(1 309)、验证集(162)、测试集(165),如
图像分类Image category | 成熟草莓Ripe strawberry | 未成熟草莓Unripe strawberry |
---|---|---|
数据集 Data set | 594 | 1 042 |
训练集 Training set | 475 | 834 |
验证集 Validation set | 59 | 103 |
测试集Test set | 60 | 105 |
为提高EfficientNet网络模型的泛化力和鲁棒性,本研究采用训练线上数据增强方法增加草莓样本数量,为提高网络模型泛化能力和鲁棒性,避免网络因训练样本不足导致过拟合。采用90°、-180°、45°翻转和使用锐化来模拟自然环境下光线差异进行图像增强,如
(1) |
其中,为锐化后结果,表示原图像,表示冲激响应。

图 1 数据增强方法
Fig.1 Data augmentation method
A:原图Original image;B:旋转45º Roate 45º;C:旋转90º Roate 90º ;D:旋转180º Roate 180º;E:锐化1 Sharpening 1;F:锐化2 Sharpening 2.
(2) |
(3) |
EfficientDet属于一阶目标检测算法,系统地研究了目标检测神经网络结构的设计选择,并提出了几个关键的优化以提高效率。首先提出了1种加权双向特征金字塔网络(BiFPN),该网络能够简单快速地融合多尺度特征;其次提出了1种复合缩放方法,该方法可以同时对所有主干网络、特征网络和预测网络的分辨率、深度和宽度进行统一缩放。EfficientDet的主干特征提取网络是EfficientNet,特征融合网络采用了BiFPN网络。
EfficientDet的主干网络EfficientNet,如

图2 EfficientDet主干特征提取网络
Fig.2 EfficientDet backbone feature extraction network
EfficientNet是由16个移动翻转瓶颈卷积(MBConv)、2个Conv、1个全局平均池化(Global Average Pooling)和1个全连接层(Full Connect)组成。其创新性提出组合缩放系数,用单一的组合缩放系数ø,同时缩放宽度w、深度和图片分辨率r,其缩放基数分别为,β,γ ,如
(4) |
首先,将图像输入EfficientNet主干特征提取网络,通过7次下采样得到不同深度的语义信息,分别获得P1~P7层,其中{P3,P4,P5,P6,P7}具有较深的语义信息,然后将其输入进BiFPN网络里进行上采样。
多尺度特征融合的目标是聚合不同分辨率的特征,FPN(featurized image pyramids,特征金字塔网络)能解决目标检测在物体大小差异十分明显的问

图3 加强特征提取网络结构
Fig.3 Strengthen feature extraction network structure
在BiFPN网络结构添加了快速归一化特征加权融合(fast normalized fusion),其公式如
(5) |
其中,是可学习权重,可以是标量(每个特征)、向量(每个通道)或多维张量(每个像素)。为第i层输入图像为常数,一般取0.000 1。每个规格化权重的值也在0和1之间。经过EfficientNet采样得出{P3_in,P4_in,P5_in,P6_in,P7_in} 5层深度语义信息,然后输入BiFPN网络,通过交叉尺度连接和快速归一化融合后得到{P3_out,P4_out,P5_out,P6_out,P7_out},Conv是用于特征处理的卷积操作,Pi_in为自上而下路径第i层输入特征,Pi_td为自上而下路径第i层中间特征,Pi_out 是自上而下路径第i层输出特征,如
(6) |
1)试验环境平台。操作系统:Windows 10 专业版64位操作系统;CPU:Intel Xeon Silver 4210×2,10核20线程,最大睿频2.82 GHz;GPU为GeForece RTX 3090,显存24 GB;内存64 GB;深度学习框架:PyTorch 1.9,进行网络搭建、训练、验证和测试。
2)步骤。首先将采集到的原始草莓图像进行预处理,并逐一标记图像中草莓的位置。然后以标记图像作为输入,对EfficientDet系列模型以及两类目标检测中的经典算法YOLO系列的v3和v4以及Faster-RCNN进行训练,得到各自算法的草莓识别模型。最后进行对比分析,其具体对比思路为:EfficientDet算法内部进行性能分析与比较,同时算法外部对比EfficientDet、YOLO和Faster-RCNN 3种模型的识别结果,最终得出试验结论(

图4 试验整体流程
Fig.4 The overall flow of experiment
本研究采用了迁移学习的思想,预测权重使用官方权重,根据EfficientDet的不同版本,图片输入尺寸分别为(512,512)、(640,640)、(768,768)、(896,896)、(1 024,1 024)、(1 280,1 280)、(1 408,1 408)、(1 536,1 536)。先将图片转换为RGB图像,防止灰度图在预测时候报错,训练时候学习率选取0.001,2次训练所使用的优化器为Adam,权重衰退为0.000 5,损失函数由两部分组成,分别是Focal Loss和Smooth Loss。在训练过程中,分为两部分的训练迭代,每部分的迭代次数是50次,共100次。训练完第1个迭代次数后,进行冻结训练,冻结前一部分的权重,把算力资源放在第2迭代部分训练。本研究使用EfficientDet模型可以直接对草莓测试集原图进行输入训练。
由于EfficientDet的模型参数量随版本数增加而增多,所需要显卡显存越大,导致训练难度越来越大。本研究对EfficientDet-D0 和EfficientDet-D1进行内部对比试验,从而选取符合机器人采摘精度与速度的最佳版本。为了对比度高,本研究选择YOLOv3、YOLOv4、Faster-RCNN与已选最佳版本进行对比,并选用了平均精度(avearge precision, PA)、平均精度均值(mean avearge precision,PmA)、召回率(recall,R)、对数平均误测率(LAMR)、损失率(loss rate)对所有试验算法进行评
TP(true positive):正确检验框,表示已标定的预测框与标签框匹配。FP(false positive):误检框,表示将背景预测成为物体的框。FN(false negative):漏检框,表示原本需要检测到物体的框,没有检测出来。TN(ture negative):正确背景,表示本身是背景,然后模型也没有检测出来。目标检测常见的评价指标包括正确率(precision,P) 、召回率(R)、平均精度(PA)、平均精度均值(PmA)及F1分数,公式如下:
(7) |
(8) |
(9) |
(10) |
(11) |
公式(
嵌入式设备主要以CPU进行计算,处理器多以intel至强、ARM为平台。本试验为模拟嵌入式终端设备推断硬件环境,选用Intel Xeon CPU,模型通过GPU训练完得到模型权重,再通过CPU进行推断计算,经过对比试验后,得出5种算法的各评价指标以及识别草莓图片时间。选取了EfficientDet-D0和EfficientDet-D1版本,与YOLOv3、YOLOv4及Faster-RCNN进行对比。将165张测试集图片逐张输入至不同算法进行检测时间测试,每种算法都使用相同的测试集,记录每张图片平均检测时间。将在同一算法下所有图片的检测相加再除以165得每种算法的平均检测时间。试验结果显示,Faster-RCNN的平均预测时间为23.4 s,YOLOv3、YOLOv4的平均预测时间分别为2.23、1.22 s,EfficientDet-D0和EfficientDet-D1检测时间分别为0.32、0.34 s。由于Faster-RCNN是二阶目标检测,速度远远低于一阶目标检测。EfficientDet、YOLO系列是一阶目标检测,对比之下,EfficientDet具有更大优势,YOLOv3与YOLOv4的检测速度相比,YOLOv4速度比YOLOv3快1.01 s,但是相对于EfficientDet-D0慢约10%,而EfficientDet-D1检查平均时间比EfficientDet-D0快0.02 s。在相同CPU实验平台上,EfficientDet的D0、D1两个版本相对于YOLO的v3、v4检测速度更快,而Faster-RCNN不能满足移动端实时检测需求。
不同算法对成熟和未成熟的草莓检测效果如

图5 5种检测算法效果图
Fig.5 Effect diagram of five detection algorithms
模型Model | PA | P | R | F1 |
---|---|---|---|---|
Faster-RCNN | 95 | 81.60 | 95.68 | 88 |
YOLOv3 | 88 | 90.83 | 78.42 | 84 |
YOLOv4 EfficientDet-D0 EfficientDet-D1 |
73 95 96 |
82.65 98.92 99.25 |
58.27 82.73 94.96 |
68 90 97 |
未成熟草莓算法检测性能结果(
模型Model | PA | P | R | F1 |
---|---|---|---|---|
Faster-RCNN | 98.00 | 87.76 | 98.47 | 93 |
YOLOv3 | 91.02 | 89.76 | 87.02 | 88 |
YOLOv4 | 65.00 | 90.57 | 36.64 | 52 |
EfficientDet-D0 | 98.00 | 98.40 | 93.89 | 96 |
EfficientDet-D1 | 100.00 | 99.24 | 100.00 | 100 |
针对自然环境下成熟草莓快速识别,本研究将YOLOv3、YOLOv4、Faster-RCNN 3种目标检测算法与EfficientDet算法进行比较,结果表明, YOLOv3、YOLOv4、Faster-RCNN的平均精度均值(PmA)分别为89.51%、56.573%、96.54%。EfficientDet-D0的PmA为96.71%,EfficientDet-D1的PmA为97.5%。且在视频测试中,EfficientDet-D1平均视频帧数为23.4帧/s,EfficientDet-D0平均视频帧数为22.3帧/s,比Faster-RCNN高出1.4%,基本与YOLOv3和v4视频测试帧数持平,符合视频实时检测需求。进行图片测试时,平均预测时间用时最短的是EfficientDet,平均用时0.23 s,其次是YOLOv3、YOLOv4和Faster-RCNN。经过性能测试比较,均高于其他算法,适合于草莓快速检测及分类。
EfficientDet采用轻量主干网络EfficientNet,YOLOv3和YOLOv4采用DarkNet,Faster-RCNN采用VGG16主干网络,网络参数量庞大,浮点运算率占用大,其余3种算法不适宜于嵌入式边缘端检测。本研究提出以EfficientDet-D1草莓快速检测及分类算法,解决了传统目标检测成熟草莓算法检测精度低和鲁棒性差的问题,满足嵌入式草莓分拣系统的视觉要求,此外也可以为其他水果分拣系统提供检测思路。
参考文献 References
贾宗维,姚思敏,张如意,等.基于改进U-Net网络的大棚草莓果实识别[J].山西农业大学学报(自然科学版),2022,42(2):120-128.JIA Z W,YAO S M,ZHANG R Y,et al. Recognition of strawberry fruits in greenhouses based on improved U-Net network [J].Journal of Shanxi Agricultural University (natural science edition),2022,42(2):120-128(in Chinese with English abstract). [百度学术]
刘小刚,范诚,李加念,等.基于卷积神经网络的草莓识别方法[J].农业机械学报,2020,51(02):237-244.LIU X G,FAN C,LI J N,et al.Strawberry recognition method based on convolutional neural network [J].Journal of the CSAM,2020,51(2):237-244(in Chinese with English abstract). [百度学术]
许丽建.颜色差值分类算法在草莓成熟程度检测中的应用[J].科技通报,2012,28(10):160-162.XU L J.Color difference in strawberry classification algorithm of maturity of the application of the test[J].Bulletin of science and technology,2012,28(10):160-162(in Chinese with English abstract). [百度学术]
覃磊,孙开琼,李诗高,等.基于RGB颜色相似度的成熟草莓图像分割[J].浙江农业学报,2016,28(2):330-337.QIN L,SUN K Q,LI S G,et al.Image segmentation of ripe strawberry based on RGB color similarity[J].Acta agriculturae zhejiangensis,2016,28(2):330-337(in Chinese with English abstract). [百度学术]
蒋浩,张初,刘飞,等.基于高光谱图像多光谱参数的草莓成熟度识别[J].光谱学与光谱分析,2016,36(5):1423-1427.JIANG H,ZHANG C,LIU F,et al.Identification of strawberry ripeness based on multispectral indexes extracted from hyperspectral images[J].Spectroscopy and spectral analysis,2016,36(5):1423-1427(in Chinese with English abstract). [百度学术]
王雪光,陈淑红.基于K均值聚类的成熟草莓图像分割算法[J].农机化研究,2013,35(6):51-54.WANG X G,CHEN S H.The ripe strawberry image segmentation algorithm based on K-means clustering[J].Journal of agricultural mechanization research,2013,35(6):51-54(in Chinese with English abstract). [百度学术]
赵玲,周桂红.基于颜色特征的草莓成熟度识别技术研究[J].河北农业大学学报,2017,40(2):97-101.ZHAO L,ZHOU G H.Study on recognition technology of strawberry maturity based on color feature[J].Journal of Hebei Agricultural University,2017,40(2):97-101(in Chinese with English abstract). [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the acm,2017,60(6):84-90. [百度学术]
杨万里,段凌凤,杨万能.基于深度学习的水稻表型特征提取和穗质量预测研究[J].华中农业大学学报,2021,40(1):227-235.YANG W L,DUAN L F,YANG W N.Deep learning-based extraction of rice phenotypic characteristics and prediction of rice panicle weight[J].Journal of Huazhong Agricultural University,2021,40(1):227-235(in Chinese with English abstract). [百度学术]
ZHOU X,LEE W S,AMPATZIDIS Y,et al.Strawberry maturity classification from UAV and near-ground imaging using deep learning[J/OL].Smart agricultural technology,2021,1:100001[2022-04-13].https://doi.org/10.1016/j.atech.2021.100001. [百度学术]
TAN M X,PANG R M,LE Q V.EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA.Seattle :IEEE,2020:10778-10787. [百度学术]
REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE transactions on pattern analysis and machine intelligence,2017,39(6):1137-1149. [百度学术]
SHINDE S,KOTHARI A,GUPTA V.YOLO based human action recognition and localization[J].Procedia computer science,2018,133:831-838. [百度学术]
王季.基于EfficientDet的全球小麦麦穗检测方法研究[J].农业装备与车辆工程,2021,59(12):108-111.WANG J.Research on global wheat head detection method based on EfficientDet[J].Agricultural equipment & vehicle engineering,2021,59(12):108-111(in Chinese with English abstract). [百度学术]
WU D H,LV S C,JIANG M,et al.Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J/OL].Computers and electronics in agriculture,2020,178:105742[2022-04-13].https://doi.org/10.1016/j.compag.2020.105742. [百度学术]
LIN T Y,DOLLÁR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,HI,USA.Honolulu:IEEE,2017:936-944. [百度学术]
LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.Salt Lake City :IEEE,2018:8759-8768. [百度学术]