摘要
针对夜间场景下苹果识别率低、实时性差的问题,提出一种融合图像增强和迁移学习的YOLOv8n夜间苹果检测方法。首先,在YOLOv8n前端嵌入Zero-DCE模块增强夜间图像,更清晰地呈现苹果的轮廓和细节,降低夜间苹果图像的识别难度;其次,使用SPD-Conv进行下采样,增强模型细粒度特征的提取能力;在此基础上,针对夜间苹果数据集样本量少的问题,采用迁移学习训练策略,选取含有苹果类别的MS COCO数据集作为源域数据集,对于夜间场景下的目标域数据集,利用Zero-DCE增加其与日间苹果图像的相似度并在源域模型上微调目标域模型。基于上述方法,在夜间苹果图像数据集上进行了试验,结果显示,所提方法的模型精确率P为97.0%、召回率R为93.4%、平均精度均值mAP@0.5:0.95为74.6%,较YOLOv8n原始模型分别提升2.3、1.9和4.3百分点,同时该模型的推理速度为22 帧/s,可以满足实时性要求。消融试验显示,图像增强与迁移学习结合使用的效果超过两者单独使用时的效果之和。研究表明,改进后的模型在处理重叠、遮挡、绿果和光线过暗等复杂情形时都比原始模型表现更优,具有良好的鲁棒性。
中国是全球最大的苹果生产国,2021年产量达到4 597.34万t,占据全球总产量的54.7
夜间环境下光线弱,采集的图像存在暗淡、模糊和阴影等问
综上所述,传统图像处理方法在夜间果实检测任务中存在精度低、速度慢和通用性差等局限性,难以满足实际作业要求,基于深度学习的方法具备更优的性能,但也有不足之处,许多研究者沿用白天检测环境的思路,忽视了夜间环境的特殊性,导致面对重叠、遮挡、绿果和光线过暗等情形时检测效果欠佳,同时部分研究还过度依赖于外部辅助光源系统弥补图像质量的不足,此外也没有利用迁移学习策略把日间数据纳入到模型训练中。针对上述问题,本研究提出了一种融合图像增强与迁移学习的YOLOv8n的夜间苹果检测方法,以期实现对夜间苹果的准确实时检测,从而提升苹果采摘机器人及相关机器视觉设备的全天工作效率。
本研究将MS COCO的训练

图1 数据标注结果示例
Fig.1 Example of data annotation results
将标注后的数据集按7∶3划分,得到764幅图像的训练集和328幅图像的测试集。然后,在训练集上采用翻转、适度的模糊和噪声等数据增强技术,以提升模型的适应能力,增强结果示例如

图2 数据增强结果示例
Fig.2 Example of data augmentation results
A:原图Original;B:翻转Flipped;C:高斯模糊Gaussian blur;D:椒盐噪声Salt- pepper noise.
YOLOv8是当前主流的目标检测网络之一,具备高效的训练和推理能力,能够准确快速地分类和定位果实目标,根据网络深度和特征图宽度的不同有n、s、m、l、x 5个版本,以满足不同应用场景的需求。为保证相关机器视觉设备的工作效率,本研究采用复杂度较低的YOLOv8n模型,并在此基础上搭建适合夜间苹果检测的网络,通过零参考深度曲线估计(zero-reference deep curve estimation,Zero-DCE
1)Zero-DCE增强夜间图像。夜间采集的图像整体偏暗,导致部分果实边缘与背景的颜色差异微小,给机器视觉识别带来较大困难,鉴于此,引入Zero-DCE增强夜间图像,更清晰地展现苹果的轮廓和细节,以降低夜间图像识别难度,从而为后续图像处理任务提供基础,Zero-DCE的框架如

图3 Zero-DCE的框架
Fig.3 The framework of Zero-DCE
其中,Zero-DCE以低光图像作为输入,利用DCE-Net学习曲线参数图,通过亮度增强曲线(light enhancement curve)对输入的夜间图像进行像素级调整,并经过多次迭代优化输出最终的增强图像,提亮曲线对应的函数表达式为:
(1) |
2)SPD-Conv提取细粒度特征。图像增强方法可以有效降低夜间图像的检测难度,但由于图像分辨率较低,复杂情况下的识别仍然较为困难,因此需要加强模型细粒度特征提取能力。卷积核的步长大小对特征提取的细致程度有重要影响,相较于步长为2的卷积,步长为1的卷积能够使特征图的每个像素点被采样多次,并且奇数列和偶数列的采样次数保持一致,这有助于模型提取到细粒度特征,步长为2与步长为1的卷积核采样特点如

图4 步长为2与步长为1的卷积核采样特点(以列为例)
Fig.4 Sampling characteristics of convolutional kernels with steps of 2 and 1(using columns as an example)
A:步长为2的卷积 Convolution with a stride of 2;B:步长为1的卷积 Convolution with a stride of 1.

图5 SPD-Conv的操作过程
Fig.5 Operation process of SPD-Conv
3)改进后的网络。改进后网络的结构如

图6 改进的网络结构
Fig.6 Improved network structure
4)迁移学习训练策略。在复杂的夜间环境中,确保模型的通用性和稳定性显得至关重要,这需要大量的、多样的训练数据作为支撑,然而实际场景中数据获取比较困难,且人工标注数据耗时费力,迁移学习可以将一个领域上的预训练模型复用在新领域中,从而降低数据获取和标注的成本。迁移学习的核心思路是借助源域中已有的标注数据,通过算法的开发,最大化地利用这些知识,该过程需要寻找源域和目标域之间的相似性,以便将源域的知识有效地迁移到目标域

图7 本研究方法迁移学习过程
Fig.7 Transfer learning process of the method in this article
其中,针对源域,选取MS COCO数据集作为源域数据集,与PASCAL VO
本研究将平均精度均值(mean average precision,mAP)作为算法质量有效性的评估指标,mAP是基于精确率(percision,P)和召回率(recall,R)计算出来的,精确率P表示预测的正确样本占总预测样本的比例,召回率R表示预测的正确样本占实际正确样本的比例,mAP@0.5:0.95则是模型在不同交并比(intersection over union,IoU)阈值(0.5至0.95,步长为0.05)下的平均值。另外,将推理速度(单位为帧/s)作为算法实时性的评估指标。
模型训练硬件配置为Intel(R) Core(TM) i9-10900KF CPU @ 3.70 GHz,RAM为64 GB,GPU为NVIDIA GeForce RTX 3090 24 GB;软件运行环境基于Windows 10(x64)操作系统,采用Python编程语言和Pytorch深度学习框架,Python 3.9.18,Pytorch 1.13.1,Torchvision 0.14.1,Torchaudio 0.13.1,Cuda 11.7.0,Cudnn 8.4.0。
试验采用随机梯度下降法(stochastic gradient descent,SGD)作为优化器,初始学习率和最终学习率设为0.01,SGD动量设为0.937,权值衰减参数设为0.000 5,批次大小设为16。运用warm up训练策略,warm up轮数设为3,总训练轮数设为100。
YOLOv8n基线模型和应用本研究方法得到的改进模型训练过程中在测试集上的mAP0.5:0.95变化如

图8 基线模型和改进模型训练过程中在测试集上的mAP@0.5:0.95变化
Fig.8 Changes in mAP@0.5:0.95 on the test set during training of baseline and improved model
本部分重点就图像增强和迁移学习的改进方法进行了消融试验研究。其中,将YOLOv8n作为基线模型,记为模型1(YOLOv8n);在模型1中应用SPD-Conv,得到模型2(YOLO-SPD);在模型1中应用Zero-DCE,得到模型3(YOLO-Zero);在模型1中应用迁移学习策略,得到模型4(YOLO-TL);在模型1中同时应用Zero-DCE和迁移学习策略,得到模型5(YOLO-Zero-TL);在模型5中应用SPD-Conv,得到模型6(YOLO-SPD-Zero-TL)。测试结果如
模型 Model | 精确率/%Precision | 召回率/% Recall | 平均精度 均值/%mAP@0.5:0.95 | 推理速度/(帧/s) Inference speed |
---|---|---|---|---|
YOLOv8n | 94.7 | 91.5 | 70.3 | 35 |
YOLO-SPD | 94.8 | 92.0 | 71.0 | 30 |
YOLO-Zero | 95.2 | 91.7 | 71.2 | 26 |
YOLO-TL | 95.9 | 92.4 | 72.6 | 35 |
YOLO-Zero-TL | 96.8 | 92.9 | 74.0 | 26 |
YOLO-SPD- Zero-TL | 97.0 | 93.4 | 74.6 | 22 |
由
为探究复杂场景下模型的检测效果,从测试集中随机挑选85幅图像分别输入到基线模型和应用本研究方法得到的改进模型中进行检测,其中含有重叠、遮挡、绿果、光线过暗的苹果实例个数分别为109、185、93和76,结果如
模型 Model | 场景 Situation | 总数 Total | 正确识别数 Correct | 正确识 别率/% Accuracy |
---|---|---|---|---|
基线模型 Baseline model | 重叠 Overlap | 109 | 97 | 89.0 |
遮挡 Occlusion | 185 | 167 | 90.3 | |
绿果 Green fruit | 93 | 81 | 87.1 | |
光线过暗 Dim light | 76 | 68 | 89.5 | |
改进模型 Improved model | 重叠 Overlap | 109 | 101 | 92.7 |
遮挡 Occlusion | 185 | 172 | 93.0 | |
绿果 Green fruit | 93 | 85 | 91.4 | |
光线过暗Dim light | 76 | 72 | 94.7 |
由

图9 基线模型和本研究模型的复杂场景检测示例
Fig.9 Examples of complex scene detection using baseline and improved model
A:重叠 Overlap;B:遮挡 Occlusion;C:绿果 Green fruit;D:光线过暗 Dim light.
由以上结果可知,在面对重叠、遮挡、绿果和光线过暗等复杂情形时,基线模型更容易出现误检和漏检,而本研究所提模型仍然保持较高的检测精度,证明本研究所提模型在稳定性和鲁棒性上表现更好,能够有效地降低夜间苹果检测的误检率和漏检率。
本研究提出了一种融合图像增强与迁移学习的YOLOv8n苹果夜间检测方法,该方法采用YOLOv8n模型,通过Zero-DCE增强夜间图像,并利用SPD-Conv提取细粒度特征,同时结合迁移学习策略进一步优化模型性能。试验结果表明,本研究所提方法的模型在夜间苹果数据集上的精确率为97.0%,召回率为93.4%,平均精度均值mAP@0.5:0.95为74.6%,推理速度为22帧/s,可以满足实时准确检测的需求。
苹果夜间检测具有一定的复杂性,尽管深度学习方法在夜间检测中展现出一定优势,但仍有一些不足。熊俊涛
此外,本研究采用的Zero-DCE夜间图像增强方法基于深度学习技术,可以避免传统图像处理方
消融试验显示,结合图像增强和迁移学习的方法的效果超过单独应用两者效果的总和。另外,改进后的模型展现出了较强的抗干扰能力,即使在重叠、遮挡、绿果和光线过暗等困难情形下,也能达到良好的识别效果。本研究所提方法为解决夜间果实检测问题提供了一种新的研究思路和技术手段,可为后续的相关研究提供参考。
参考文献 References
李会宾,史云.果园采摘机器人研究综述[J].中国农业信息,2019,31(6):1-9.LI H B,SHI Y.Review on orchard harvesting robots[J].China agricultural informatics,2019,31(6):1-9 (in Chinese with English abstract). [百度学术]
中国苹果产业协会,中国农业大学农业规划设计院.2021年度中国苹果产业发展报告(总篇)精简版[J].中国果菜,2023,43(1):1-8.China Apple Industry Association,China Agricultural University Agricultural Planning and Design Institute.China apple industry development report in 2021(general),condensed versio N[J].China fruit & vegetable,2023,43(1):1-8(in Chinese with English abstract). [百度学术]
宋怀波,尚钰莹,何东健.果实目标深度学习识别技术研究进展[J].农业机械学报,2023,54(1):1-19.SONG H B,SHANG Y Y,HE D J.Review on deep learning technology for fruit target recognition[J].Transactions of the CSAM,2023,54(1):1-19(in Chinese with English abstract). [百度学术]
WEI X Q,JIA K,LAN J H,et al.Automatic method of fruit object extraction under complex agricultural background for vision system of fruit picking robot[J].Optik,2014,125(19):5684-5689. [百度学术]
周桂红,马帅,梁芳芳.基于改进YOLOv4模型的全景图像苹果识别[J].农业工程学报,2022,38(21):159-168.ZHOU G H,MA S,LIANG F F.Recognition of the apple in panoramic images based on improved YOLOv4 model[J].Transactions of the CSAE,2022,38(21):159-168(in Chinese with English abstract). [百度学术]
袁紫薇.基于机器视觉的番茄收割机实时分拣系统研究[D].西安:长安大学,2017.YUAN Z W.Research on real-time sorting system of tomato harvester based on machine vision[D].Xi’an:Changan University,2017(in Chinese with English abstract). [百度学术]
岳琳茜,李文宽,杨晓峰,等.基于改进YOLOv4的苹果检测与果径估测方法[J].激光杂志,2022,43(2):58-65.YUE L X,LI W K,YANG X F,et al.Apple detection and fruit diameter estimation method based on improved YOLOv4[J].Laser journal,2022,43(2):58-65(in Chinese with English abstract). [百度学术]
陈青,殷程凯,郭自良,等.苹果采摘机器人关键技术研究现状与发展趋势[J].农业工程学报,2023,39(4):1-15.CHEN Q,YIN C K,GUO Z L,et al.Current status and future development of the key technologies for apple picking robots[J].Transactions of the CSAE,2023,39(4):1-15(in Chinese with English abstract). [百度学术]
FONT D,PALLEJÀ T,TRESANCHEZ M,et al.Counting red grapes in vineyards by detecting specular spherical reflection peaks in RGB images obtained at night with artificial illumination[J].Computers and electronics in agriculture,2014,108:105-111. [百度学术]
赵德安,刘晓洋,陈玉,等.苹果采摘机器人夜间识别方法[J].农业机械学报,2015,46(3):15-22.ZHAO D A,LIU X Y,CHEN Y,et al.Image recognition at night for apple picking robot[J].Transactions of the CSAM,2015,46(3):15-22(in Chinese with English abstract). [百度学术]
戴家裕.苹果采摘机器人夜间青苹果识别方法[D].杭州:浙江工业大学,2020.DAI J Y.Method for identify green apples at night by apple pic robot[D].Hangzhou:Zhejiang University of Technology,2020(in Chinese with English abstract). [百度学术]
REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016.Las Vegas,NV,USA.Las Vegas:IEEE,2016:779-788. [百度学术]
熊俊涛,郑镇辉,梁嘉恩,等.基于改进YOLO v3网络的夜间环境柑橘识别方法[J].农业机械学报,2020,51(4):199-206.XIONG J T,ZHENG Z H, LIANG J E,et al.Citrus detection method in night environment based on improved YOLO v3 network[J].Transactions of the CSAM,2020,51(4):199-206(in Chinese with English abstract). [百度学术]
HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely connected convolutional networks[DB/OL].arXiv,2016:1608.06993[2023-12-01].http://arxiv.org/abs/1608.06993v5. [百度学术]
孙宝霞,梁翠晓,刘凯,等.夜间环境下树上柑橘表征缺陷深度学习检测方法[J].林业工程学报,2021,6(6):148-155.SUN B X,LIANG C X,LIU K,et al.Fluorescence detection of citrus characterization defects using SVM[J].Journal of forestry engineering,2021,6(6):148-155(in Chinese with English abstract). [百度学术]
何斌,张亦博,龚健林,等.基于改进YOLOv5的夜间温室番茄果实快速识别[J].农业机械学报,2022,53(5):201-208.HE B,ZHANG Y B,GONG J L,et al.Fast recognition of tomato fruit in greenhouse at night based on improved YOLOv5[J].Transactions of the CSAM,2022,53(5):201-208(in Chinese with English abstract). [百度学术]
LIN T Y,MARIRE M,BELONGIE S,et al.Microsoft COCO:Common objects in context[C]//Computer Vision-EC CV 2014 Workshops.Zurich,Switzerland,September 6-7 and 12,2014.Cham:Springer,2014. [百度学术]
GUO C L,LI C Y,GUO J C,et al.Zero-reference deep curve estimation for low-light image enhancement[DB/OL].arXiv,2020:2001.06826[2023-12-01].https://doi.org/10.48550/ arXiv.2001.06826 [百度学术]
SUNKARA R,LUO T.No more strided convolutions or pooling:a new CNN building block for low-resolution images and small objects[DB/OL].arXiv,2022:2208.03641[2023-12-01].https://doi.org/10.48550/arXiv.2208.03641. [百度学术]
庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.ZHUANG F Z,LUO P,HE Q,et al.Survey on transfer learning research[J].Journal of software,2015,26(1):26-39(in Chinese with English abstract). [百度学术]
PAN S J,YANG Q.A survey on transfer learning[J].IEEE transactions on knowledge and data engineering,2010,22(10):1345-1359. [百度学术]
EVERINGHAM M,ALI ESLAMI S M,VAN GOOL L,et al.The pascal visual object classes challenge:a retrospective[J].International journal of computer vision,2015,111(1):98-136. [百度学术]