摘要
为解决红鳍东方鲀养殖密度不均导致图像分割精度低和小目标分割效果差的问题,提出一种改进的轻量版SOLOv2实例分割方法。首先进行可变形卷积(deformable convolutional networks,DCN)网络结构的优化调整,通过在卷积核上增加偏移参数,调整卷积的感受野,使感受野与物体的实际形状更加贴近;再在残差模块最后一层引入无参数注意力机制SimAM,捕捉图像中更多的局部信息,获得不同尺度的目标特征,优化模型对小目标分割的性能。试验结果显示,改进后的轻量版SOLOv2模型较原有模型平均分割精度提高了3.7个百分点,对小目标的分割精度提升了1.4个百分点,同时加入DCN和SimAM注意力模块后,模型的分割精度提高到65.2%。结果表明,改进后的SOLOv2模型可以提高边界处的细节感知能力,强化模型对小目标鱼群特征的提取能力,可用于高密度场景下的精准实例分割,实现红鳍东方鲀鱼群目标精准像素级分割。
精准化养殖是促进海洋渔业转型升级、发展海洋经济、贯彻海洋强国战略的重要保障。鱼类精准实例分割是实现精准化养殖的重要前
SOLOv2因其检测速度快、精度高的特点已成功应用于以上工业领域,但并未见到应用于水产养殖领域的相关研究。水下养殖环境鱼群图像相似性高、水下背景干扰大,模型的分割效果仍有很大改进空间。因此,本研究基于SOLOv2框架,提出改进轻量版SOLOv2图像分割的方法,融合多尺度特征,设计满足目标多尺寸要求的特征提取主干网络,引入无参数注意力机制SimAM,设计专用实例分割器,建立适用于高密度场景下的精准实例分割模型,以期实现养殖鱼类像素级分割,为鱼类实例分割提供新途径。
实例分割模型需要大量的图像进行训练。本研究在大连海洋大学信息工程学院的实践基地,以室温环境下通过人工培育的红鳍东方鲀(Takifugu rubripes)作为试验对象,利用固定的单目摄像头侧拍进行实时录像,采集鱼类视频样本,经过抽帧处理制作鱼群数据集,存储格式为JPG,图像的大小为1 080像素×1 920像素。随机选取200张图像作为数据集,图像包括鱼群在水下的各种真实活动情况。通过标注软件Labelme进行数据集的标注,标注后的文件保存为json格式,数据集的标注样例如

图1 数据集标注示意图
Fig.1 Dataset annotation legend
1)改进轻量版SOLOv2网络结构。SOLOv2官方发布的模型分为标准版SOLOv2模型和轻量版SOLOv2模型,轻量版SOLOv2模型是将标准版SOLOv2预测头中的卷积层减少为3个,是结构中网络层数最少、模型尺寸最小的模型。因此,选取轻量版SOLOv2模型为本研究的主体网络结构。
利用单目摄像头进行水下侧拍,采集鱼类图像样本。根据图像样本分析水下图像统计信息;结合可变形卷积(DCN

图2 改进轻量版SOLOv2网络结构
Fig.2 Improved light SOLOv2 network architecture
图像进入主干网络ResNet50,通过在残差模块中加入可变形卷积(DCN)和无参数注意力模块SimAM(具体操作如
2)基于无参数注意力模块SimAM的ResNet50骨干网络。养殖鱼类精准实例分割的首要任务是提取目标有效特征,特征提取通过主干网络完成。本研究基于水下图像数据,归纳养殖鱼类目标特点,利用注意力机制方法,设计具有与多种目标尺寸匹配感受野的实例分割器,增强特征提取能力,为分割模型提供准确特征。
SOLOv2的Backbone是残差网络ResNet50,有Conv Block和Identity Block 2个基本的模块,结构图如

图3 ResNet50两个残差模块
Fig.3 Two residual modules of ResNet50
改进后的红鳍东方鲀实例分割模型是在轻量版SOLOv2模型的主干网络中加入无参数注意力机制SimAM。通过在2个残差模块的最后1层卷积中加入SimAM注意力模块,lambda取0.000 1,防止除零,强化模型对小目标鱼群特征的提取能力,提高边界处的细节感知能力,在不增加模型参数量的同时,增强了模型对红鳍东方鲀小目标识别精度,改进后残差模块结构如

图4 ResNet50残差模块结构图
Fig.4 Residual module structure diagram
SimAM是一种3D注意力模块,通过能量函数计算注意力权值,是一个简单但非常有效的卷积神经网络的注意机制模块。通过设计一种能量函数来计算注意力权值,能够灵活、有效地提高神经网络的表示能力。SimAM注意力模块将空间注意力与通道注意力进行并行或串行组合,在不引入额外参数的情况下为特征图推断3D注意力权值,提出优化能量函数以发掘每个神经元的重要性,利用统一权值的注意力模块,通过优化能量函数以发掘每个神经元的重要性,针对能量函数推导出一种快速解析解,加速注意力权值的计算并得到了一种轻量型注意力模块,结构如

图5 SimAM注意力结构
Fig.5 SimAM attention architecture
神经科学中,信息神经元相较于其他神经元一般有着不同的激活模式,并且抑制其他神经元,应该更加重视具有空间抑制的神经元。最简单的寻找重要神经元的方法:度量神经元之间的线性可分性。因此,能量函数如
(1) |
(2) |
(3) |
其中,t和xi是输入特征X∈
(4) |
理论上,每个通道有M个能量函数,λ为系数,
(5) |
(6) |
(7) |
(8) |
其中,
(9) |
按照注意力机制的定义,需要对特征进行增强处理,1个神经元对应1个神经元能量e,单个通道的所有神经元的能量组成该通道的能量矩阵E,X表示特征图,融合SimAM注意力特征图公式如
⊙ | (10) |
sigmoid激活函数由
(11) |
改进后的ResNet骨干网络,在不添加额外参数的情况下获得不同尺度的特征信息,并且可以提高小目标的分割精度。
3)可变形卷积DCN。卷积神经网络有对未知的变化适应性差、泛化能力不强等缺陷,而可变形卷积DCN的特点是在感受野中引入偏移量,为卷积核上的每一点学习1个偏移量,使用额外的偏移量来增强模块中的空间采样位置,不需要额外的监督。卷积核可以根据不同的数据学习的卷积结构。通过偏移量的学习,可以使得感受野与物体的实际形状贴近,从而使卷积区域始终覆盖在物体形状周围,无论物体如何形变,都可以通过偏移量进行学习,结构如

图6 DCN结构
Fig. 6 DCN architecture
A.绿色是标准的3×3卷积 The green is standard 3×3 convolution;B.给普通卷积加上偏移之后形成的可变形卷积核,蓝色是新的卷积点,箭头是位移方向The deformable convolution kernel formed after adding the offset to the ordinary convolution, the blue color is the new convolution point, and the arrow is the displacement direction.
通过在Identity Block模块的最后1层卷积中加入DCN,利用传统的卷积核提取的特征图作为输入,在原始卷积中增加额外偏移量的空间采样位置,使卷积核可以根据实际情况调整本身的形状,更好地提取输入的特征,从而适应不同鱼的形状、大小等几何形

图7 融合DCN残差模块结构图
Fig. 7 Structure diagram of fusion DCN residual module
对于特征图p的计算公式为:
(12) |
4) 损失函数。损失函数包括两部分,分别是分类分支和mask分支,分类loss直接使用FocalLoss,输出采用的是sigmoid激活。Lcate是用于分类的Focal损失函数,Lmask是用于mask预测的损失函数,λ设置为3。
(13) |
mask分支的损失函数见
(14) |
按从左到右、从上到下索引,i=[k/s],j=k modS,Npos表示阳性样本数,
经过实验,发现Dice loss有很好的稳定性,确定dmask使用Dice loss。
(15) |
D为Dice系数,定义如
(16) |
px,y和qx,y分别为预测掩码和真实掩码在(x,y)位置的像素值。
试验运行环境采用百度AI Studio平台和Paddlepaddle,使用平台配置的GPU、Tesla V 100、32G显存以及RAM32G为实验硬件设备。为了提高模型训练速度,减少时间成本,采用基于SOLOv2框架下的轻量版SOLOv2预训练模型进行迁移学习。试验使用红鳍东方鲀数据集,随机划分数据集70%为训练集、20%为测试集、10%为验证集,批量数为16,训练10 000轮。神经网络在刚开始训练的时候非常不稳定,为保证网络能够具有良好的收敛性,通常会采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身”阶段,因此初始学习率设置为0.000 8,权值衰减速率设置为0.000 2。
选用红鳍东方鲀作为数据对象进行模型训练,采用交并比(intersection over union,IoU)、平均精度、平均精度均值、检测速率、参数量、浮点运算次数作为模型的评价指标。本研究选取的判定阈值为0.5和0.75。
为了选取基础模型,对标准版SOLOv2模型和轻量版SOLOv2模型进行试验。试验结果如
模型 Models | 平均精度 Average precision | 平均精度均值 Mean average precision | 检测速度/(帧/s) Detection speed | |
---|---|---|---|---|
IoU=0.50 | IoU=0.75 | |||
标准版SOLOv2 Original SOLOv2 | 0.621 | 0.856 | 0.724 | 4.1 |
轻量版SOLOv2 Light SOLOv2 | 0.615 | 0.861 | 0.727 | 5.5 |
为了进一步验证可变形卷积DCN对调整模型感受野以及特征的提取能力,对DCN加入模型位置进行对比试验。ResNet50网络有5个阶段,分别在第4、5阶段,第3、4、5阶段和第5阶段融合DCN进行对比试验。结果如
DCN融合位置DCN fusion position | 平均精度Average precision | 主干网络参数量/M Backbone network parameters |
---|---|---|
Stage(5) | 0.644 | 26.3 |
Stage(4,5) | 0.619 | 28.1 |
Stage(3,4,5) | 0.646 | 30.8 |
从识别效果看,在第3、4、5层加入DCN后模型对图中残缺的小目标鱼类个体的分割效果不好,可能是加入DCN的层数过多,导致特征提取时优化的不够完善,分割效果如

图8 加入DCN后试验分割结果
Fig.8 Experimental segmentation results
A. DCN加在网络第5阶段的模型分割效果The model segmentation effect of DCN in stage 5;B. DCN加在网络第3、4、5阶段的模型分割效果图The model segmentation effect of DCN in stage(3,4,5); C. 图A红框放大视图 Enlarged view of the red frame in figure A; D. 图B红框放大视图 Enlarged view of the red frame in figure B.
为了评估本研究算法对图像中鱼群的分割效果,将本研究改进的算法与原轻量版SOLOv2模型进行对比,分割结果如

图9 SOLOv2模型试验分割结果
Fig.9 Experimental segmentation results
A. 轻量版SOLOv2模型分割结果 Model segmentation result diagram of light SOLOv2;B. 改进后模型分割结果图 Model segmentation result diagram of ours;C. 图A红框放大视图 Enlarged view of the red frame in figure A;D. 图B红框放大视图 Enlarged view of the red frame in figure B.
由
模型 Model | 平均精度 Average precision | 平均精度均值 Mean average precision | |||
---|---|---|---|---|---|
IoU=0.50 | IoU=0.75 | 小目标 Small target | 大目标 Large target | ||
轻量版SOLOv2 Light SOLOv2 | 0.615 | 0.861 | 0.727 | 0.454 | 0.655 |
轻量版SOLOv2+DCN+SimAM Light SOLOv2 +DCN+SimAM | 0.652 | 0.892 | 0.743 | 0.468 | 0.682 |
为了评估本研究提出的DCN和SimAM两种改进策略对轻量版SOLOv2模型分割性能的影响,在数据集上进行消融实验,判断每个改进策略的有效性,在原有模型基础上依次加上DCN和SimAM,结果如
模型 Method | DCN | SimAM | 平均精度 Average precision | 平均精度均值 Mean average precision | |
---|---|---|---|---|---|
IoU=0.50 | IoU=0.75 | ||||
轻量版SOLOv2 Light SOLOv2 | - | - | 0.615 | 0.861 | 0.720 |
轻量版SOLOv2 + DCN Light SOLOv2 + DCN | √ | - | 0.644 | 0.884 | 0.735 |
轻量版SOLOv2 + SimAM Light SOLOv2 + SimAM | - | √ | 0.647 | 0.890 | 0.739 |
轻量版SOLOv2 + DCN+ SimAM Light SOLOv2 + DCN+ SimAM | √ | √ | 0.652 | 0.892 | 0.743 |
注: “√”表示采用此方法,“-”表示未采用。 Note: “√” indicates that this method is taken, and “-” indicates that it is not taken.
引入DCN之后,模型的平均精度提高了2.9个百分点,平均精确均值也有明显提升;在引入SimAM注意力之后,模型可以关注到许多易被淹没的语义信息,平均精度提高了3.2个百分点,对小目标的分割效果也有很好的改善。同时加入DCN和SimAM注意力模型的分割精度提高到65.2%。试验结果表明,2种改进方案均能有效提高模型的分割精度,验证了本研究所提方法的有效性。
本研究提出了改进的轻量版SOLOv2实例分割网络框架,相比于其他深度模型,SOLOv2模型既有很高的分割精度又有快速分割的能力,通过结合可变形卷积DCN和引入无参数注意力模块SimAM,扩大模型感受野,提升模型泛化能力,在增加少量参数的前提下提升模型分割的精度,并且对小目标的分割能力也有很大的提高,改善了水下红鳍东方鲀养殖密度大导致多遮挡等复杂情况下漏检以及小目标物体分割效果差的问题。试验结果表明,改进后的轻量版SOLOv2模型的平均精度为65.2%,检测的平均精度比原模型平提高了3.7个百分点,单张图像平均分割的时间为0.195 s,性能优于传统的SOLOv2模型,满足实时分割的要求,为实现智慧化、精准化鱼类养殖奠定基础。但由于改进后模型的结构较大,需要大量的算力才能满足边缘部署实时运行的需求。为使改进后的模型更好应用于实际,提高部署的的运行效率,今后的研究重点将侧重优化网络结构,提高模型的推理速度,并部署到移动设备上,支持在复杂的环境中进行实时精准的鱼群分割工作。
参考文献References
史磊,秦宏,刘龙腾.世界海洋捕捞业发展概况、趋势及对我国的启示[J].海洋科学,2018,42(11):126-134.SHI L,QIN H,LIU L T.Development situation and trend of world marine fishing industry and its enlightenment to China[J].Marine sciences,2018,42(11):126-134 (in Chinese with English abstract). [百度学术]
王振忠,任鹏,赵红光,等.中国水产种业发展现状与对策研究[J].中国农业科技导报,2017,19(1):1-7.WANG Z Z,REN P,ZHAO H G,et al.Development status and countermeasures of the aquatic breeding industry in China[J].Journal of agricultural science and technology,2017,19(1):1-7 (in Chinese with English abstract). [百度学术]
王柯力.深度学习在渔业图像识别中的应用研究[D].上海:上海海洋大学,2018.WANG K L.Research on the application of deep learning in fishery image recognition[D].Shanghai:Shanghai Ocean University,2018 (in Chinese with English abstract). [百度学术]
朱纯.基于深度学习的目标实时检测模型的研究与实现[D].南京:东南大学,2019.ZHU C.Research and implementation of real-time target detection model based on deep learning[D].Nanjing:Southeast University,2019 (in Chinese with English abstract). [百度学术]
DENG L.Deep learning:methods and applications[J].Foundations and trend
LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324. [百度学术]
HINTON G,DENG L,YU D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE signal processing magazine,2012,29(6):82-97. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the acm,2017,60(6):84-90. [百度学术]
HE K M,GKIOXARI G,DOLLÁR P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.Venice:IEEE,2017:2980-2988. [百度学术]
LIN T Y,DOLLÁR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.Honolulu:IEEE,2017:936-944. [百度学术]
BOLYA D,ZHOU C,XIAO F Y,et al.YOLACT++ better real-time instance segmentation[J].IEEE transactions on pattern analysis and machine intelligence,2022,44(2):1108-1121. [百度学术]
WANG X L,ZHANG R F,KONG T,et al.SOLOv2:dynamic and fast instance segmentation[DB/OL].arXiv,2020:2003.10152[2022-09-29].https://doi.org/10.48550/arXiv.2003.10152. [百度学术]
吴逢斌,曹国,时昊.基于改进SOLOv2的转炉炼钢钢液检测[J].计算机应用,2022,42(S1):321-326.WU F B,CAO G,SHI H.Steel liquid detection in converter steelmaking by using improved SOLOv2[J].Journal of computer applications,2022,42(S1):321-326 (in Chinese with English abstract). [百度学术]
花玮,顾梅花,李立瑶,等.改进SOLOv2的服装图像分割算法[J].纺织高校基础科学学报,2021,34(4):74-81.HUA W,GU M H,LI L Y,et al.Clothing image segmentation algorithm based on improved SOLOv2[J].Basic sciences journal of textile universities,2021,34(4):74-81 (in Chinese with English abstract). [百度学术]
DAI J F,QI H Z,XIONG Y W,et al.Deformable convolutional networks[DB/OL].arXiv,2017:1703.06211[2022-09-29].https://arxiv.org/abs/1703.06211. [百度学术]
YANG L X,ZHANG R Y,LI L D, et al. SimAM: a simple, Paraeter-free attention module for convolutional neural networks[C]//Proceedings of the 38th International Conference on Machine Learning. New York: PMLR, 2021:11863. [百度学术]
SOFIIUK K,BARINOVA O,KONUSHIN A.AdaptIS:adaptive instance selection network[DB/OL].arXiv,2019:1909.07829[2022-09-29].https://doi.org/10.48550/arXiv.1909.07829. [百度学术]
袁利毫,昝英飞,钟声华,等.基于YOLOv3的水下小目标自主识别[J].海洋工程装备与技术,2018,5(S1):118-123.YUAN L H,ZAN Y F,ZHONG S H,et al.Small underwater target recognition based on YOLOv3[J].Ocean engineering equipment and technology,2018,5(S1):118-123 (in Chinese with English abstract). [百度学术]