摘要
为解决昆虫数据集数据分布不均衡导致识别模型在数据量少的尾部类别的识别性能差的问题,提出1种融合数据合成的卷积识别网络模型(synthetic samples combined model,SSCM),该模型包含图像分割与重组模块、主干网络模块和数据纠正分支模块等3个模块。通过图像分割与重组模块对训练的图片进行分割并重组,得到新的训练数据并加入训练集;再使用ResNet-50作为网络主干提取图片的特征,同时数据纠正分支模块采用均方误差与交叉熵计算合成图像与原图像之间的误差,以减少合成图像对尾部数据的不利影响。构建包含300个蝴蝶类别共26 045张图片的数据集验证模型性能,结果显示,SSCM模型在该数据集上的准确率较DRC、BBN、RIDE等主流长尾目标识别模型分别高3、2.14、2.71个百分点。采用公开昆虫数据集IP102进一步验证SSCM算法的有效性,结果显示,SSCM模型准确率比DRC、BBN、RIDE等模型分别高18.94、3.02、3.36个百分点。
蝴蝶(Rhopalocera)是自然界种类最丰富的昆虫之
近年来,随着深度学习的发展,卷积神经网络被成功应用到自动识别领域。从1990年代的LeNet开始,卷积神经网络经历了AlexNe
在生态监测领域,目前与害虫有关的数据集较少,且公开的害虫数据集存在类别
SSCM识别模型主要由用于数据预处理的图片分割与重组模块、基于ResNet-50的主干特征提取模块以及数据纠正分支模块3部分组成,整体框架如

图1 SSCM模型蝴蝶识别网络结构
Fig.1 Butterfly recognition network structure of SSCM model
受到基于局部特征进行数据深层学习的方法启

图2 图片分割与重组模块
Fig.2 Segment and shuffle module
对于输入大小为224像素×224像素的RGB蝴蝶图像,使用该模块将输入图片切割为大小112像素×112像素的分块,再将分割好的图片随机打乱重组输入到网络中训练。由于数据集的分布是不平衡的,受到DR
SSCM模型选择ResNet-5

图3 ResNet-50结构
Fig.3 Structure of ResNet-50
由于生成的新图像与原图像存在特征位置、目标边界等不同,由此学习到的特征与原图像存在一定的误差。针对这个问题,受到Hariharan

图4 数据纠正分支模块
Fig.4 Data fix branch
改进的数据纠正分支模块由2个卷积层和1个全连接层组成,2个卷积层采取不同大小的卷积核以学习与原来主干网络不同的深层特征。第一层的卷积核大小为1,第二层的卷积核大小为3,并且使用间隔大小为1的空间卷积以避免使用下采样,进而在相同计算量的前提下,提供更大的感受野。为了防止梯度弥散,增强模型的非线性能力,减少过拟合,卷积层后均使用了ReLU 激活函
(1) |
(2) |
为了取得不同能力的分类器,模型在全连接层上进行不加载预训练参数的操作,并且使用标准初始化操作分别对主干网络和设计的分类器的全连接层进行参数初始化,以确保2个分类器在开始训练阶段拥有不同的分类能力,初始化函数是恺明初始化(Kaiming normal initialization
(3) |
该初始化方式不需要计算全连接层的输入维度,默认将参数的值设置为1。也是该层的输出维度。在2个分类器有不同的起点后,进行优化微调模型中所有层的参数,进行更深层的特征提取学习。
主干网络使用的损失函数为分类任务中常用的交叉熵(CE loss), 该损失函数可以更好地描述2个概率分布之间的距离,公式表示为:
(4) |
其中,和分别表示分类器对第个实例的预测结果和真实的结果。
在训练的过程中,由于设计了数据纠正分支模块,对该模块的输出设计了新的损失函数以进行误差计算。在数据纠正分支模块使用以下损失函数,公式表示为:
(5) |
其中是1个固定值,训练设置为0.5,表示均方误差(mean squared error),使用该损失是为了表示生成图片与原图片的差异。在测试阶段,对于每个分类器,结果计算如下:
(6) |
(7) |
与华南农业大学植物保护学院蝴蝶专家王敏教授团队合作开展本研究项目,构建蝴蝶数据集,该数据集包含蝴蝶300种,一共53 567张。由不同地方、季节、天气环境下的各种姿态的生态图片和标本图片组成,涵盖了中国境内的大多数蝴蝶类别。其中,蝴蝶的标本照片主要收集于互联网和中国蝶类志等昆虫学专著。生态照片主要来源于数码相机野外实拍和互联网资源,如Google、百度等。在进行数据采集以及初步处理后得到的原始数据集蝴蝶图片中,蝴蝶主体在图像中占比较小,而周围的背景环境占比较大。为了去除复杂的背景,构建了目标检测数据集,且使用目标检测技术在原始图片中提取出蝴蝶图像数据构成实验所用的蝴蝶识别数据集。

图5 蝴蝶数据集样本示例(A)与样本分布情况(B)
Fig.5 Instances(A) and distribution(B) of butterfly dataset
为了进一步推进昆虫识别研究,Wu

图6 IP102数据集样本示例(A)与样本分布情况(B)
Fig.6 Instances(A) and distribution(B) of IP102
本研究试验均在Ubuntu 16.04系统下完成,基于深度学习框架PyTorch1.11.0和编译器Python 3.7实现,硬件环境:CPU为Inte
模型训练采用随机梯度下降法(stochastic gradient descent,SGD)训练,初始学习率设为0.002,动量为0.9,权重衰减为0.000 05,在蝴蝶数据集和IP102昆虫长尾数据集上均迭代90次。由于不同数据集样本的差异性,在蝴蝶数据集上的批处理大小为32,在第20轮将学习率调整为0.001,在第30轮将学习率调整为0.000 5,在第50轮时将学习率调整为0.000 1。在IP102昆虫长尾数据集上批处理大小为16,每30轮学习率以0.1的衰减率衰减。
为了验证模型的性能,使用准确率(accuracy,A)作为评价标准,并且准确率从测试集中得到。为得到更真实的性能评估,测试集与训练集图片相互独立,准确率(accuracy,A)如
(8) |
其中,TP为真实的正样本数量,FP为虚假的正样本数量,FN为虚假的负样本数量,TN是真实的负样本数量。
为了进一步比较模型之间的性能,再引入精确率、召回率、F1分数这3个评价指标。其中精确率(precision,P)如
(9) |
(10) |
在
(11) |
(12) |
在
(13) |
通过
将本研究提出的SSCM模型与DR

图7 蝴蝶数据集上的训练曲线
Fig.7 The training curve of models in the butterfly dataset
模型 Model | 网络主干 Backbone | 年份 Year | 第一准确率/%Top-1 accuracy | 召回率/% Recall | 精确率/%Precision | F1分数 F1-score |
---|---|---|---|---|---|---|
- | ResNet-50 | 2016 | 82.80 | 76.1 | 81.4 | 0.755 |
DRC | ResNeXt-50 | 2019 | 83.10 | 76.8 | 82.3 | 0.759 |
BBN | ResNet-50 | 2020 | 83.96 | 77.4 | 81.6 | 0.775 |
RIDE | ResNeXt-50 | 2021 | 83.39 | 76.4 | 81.5 | 0.761 |
This study | ResNet-50 | 2022 | 86.10 | 81.3 | 84.6 | 0.818 |
模型在数据量不足的尾部类别上性能不佳是长尾识别的一个严重的问题,但是模型在尾部数据性能不佳很难被诸如准确率的这种标准的评价指标所反映出来。为了更直观地显示出模型的改进效果,将超过100张图像的类别划分为头部类,低于30张图像的类别划分为尾部类,所有模型的头部和尾部对应的准确率见
模型 Model | 网络主干 Backbone | 年份 Year | 头部类准确率/%Many-shot accuracy | 尾部类准确率/%Few-shot accuracy |
---|---|---|---|---|
- | ResNet-50 | 2016 | 85.79 | 62.94 |
DRC | ResNeXt-50 | 2019 | 86.15 | 63.38 |
BBN | ResNet-50 | 2020 | 86.14 | 64.11 |
RIDE | ResNeXt-50 | 2021 | 86.25 | 65.49 |
This study | ResNet-50 | 2022 | 88.96 | 68.34 |
使用SSCM在300种蝴蝶数据集上进行消融实验分析,结果如
基准Baseline | Layer1 | Layer2 | Layer3 | 准确率/%Accuracy |
---|---|---|---|---|
+ | - | - | - | 82.8 |
+ | + | - | - | 71.5 |
+ | - | + | - | 84.5 |
+ | - | - | + | 86.1 |
为了更直观地解释这个结果,将主干网络的每个Layer层的输出均转化为特征图,并且每层随机抽选3张特征图,如

图8 主干网络进行特征提取后的每层特征图
Fig.8 Feature maps for each layer of the feature extraction backbone
为进一步检验SSCM模型在呈现长尾分布的数据集上的分类性能,在同样具有长尾分布的公开IP102昆虫数据集上,与DRC、BBN、RIDE 3个主流的长尾识别模型进行对比。另外,SSCM模型还与Bollis
Methods 方法 | 网络主干Backbone | 年份Year | 第一准确率/%Top-1 accuracy |
---|---|---|---|
Bollis | Inception-v4 | 2020 | 48.20 |
IP102 | ResNet-50 | 2019 | 49.40 |
DRC | ResNeXt-50 | 2019 | 52.21 |
Bollis | MobileNet-V2 | 2020 | 53.00 |
Bollis | NasNet-A Mob. | 2020 | 53.40 |
Bollis | EfficientNet-B0 | 2020 | 59.80 |
RIDE | ResNeXt-50 | 2021 | 67.79 |
BBN | ResNet-50 | 2020 | 68.13 |
Ours | ResNet-50 | 2022 | 71.15 |
由
模型 Model | 网络主干 Backbone | 年份 Year | 第一准确率/% Top-1 accuracy | 召回率/% Recall | 精确率/% Precision | F1分数 F1-score |
---|---|---|---|---|---|---|
- | ResNet-50 | 2016 | 49.40 | 34.9 | 36.3 | 0.334 |
DRC | ResNeXt-50 | 2019 | 52.21 | 37.6 | 40.1 | 0.383 |
BBN | ResNet-50 | 2020 | 67.79 | 53.1 | 55.8 | 0.547 |
RIDE | ResNeXt-50 | 2021 | 68.13 | 59.8 | 64.5 | 0.567 |
Ours | ResNet-50 | 2022 | 71.15 | 67.6 | 70.2 | 0.673 |
由
模型 Model | 网络主干 Backbone | 年份 Year | 头部类准确率/% Many-shot accuracy | 尾部类准确率/% Few-shot accuracy |
---|---|---|---|---|
- | Resnet-50 | 2016 | 61.61 | 16.90 |
DRC | Resnext-50 | 2019 | 64.35 | 19.52 |
BBN | Resnet-50 | 2020 | 76.35 | 34.04 |
RIDE | Resnext-50 | 2021 | 78.78 | 44.28 |
Ours | Resnet-50 | 2022 | 82.94 | 52.61 |
SSCM模型在IP102昆虫数据集上的消融试验结果与其在蝴蝶数据集中识别准确性表现一致,数据纠正模块均在接入Layer3时获得了最好的性能提升(
基准Baseline | Layer1 | Layer2 | Layer3 | 准确率/% Accuracy |
---|---|---|---|---|
+ | - | - | - | 66.69 |
+ | + | - | - | 53.34 |
+ | - | + | - | 69.67 |
+ | - | - | + | 71.15 |
本研究提出了一种SSCM模型以改善长尾识别中尾部类别过拟合问题。由于昆虫识别往往与网络学习到的主体特征有关,如翅膀的纹理、颜色、形状以及躯干等可以表示该种类与其他种类的区别,人眼在识别的过程中也常常利用这些特征。为了使网络更有效地学习到这些特征,目前有2种主流的方法,一种是基于整张图片的全局特征训练学习,另一种是基于图片的局部特征对数据进行深一层的学习。受到第2种方法的启发,本研究设计了图像分割与重组模块。即对输入的图像首先基于图像分割与重组模块对其随机分割并重铸,进而在不改变数据集分布前提下提升尾部数据集。
具有更深层数的卷积神经网络(convolution neural network,CNN)例如VGG和EfficientNet等可以取得相对更高的平衡的图像数据分类准确率。但是现实生活中特定类别的数据往往是难以收集的,导致这些类别的数据有限,而有限的数据需要更高效提取特征的网络。为了满足这个需求,ResNet-50的残差结构解决了深层网络的梯度消失和梯度爆炸问题,使得网络可以提取更丰富的特征信息,并且可以减轻数据集小带来的过拟合问题。
此外,本研究设计数据纠正分支模块,使用均方误差反馈新数据与原数据的差异,与原网络共同影响前面的特征层,以平衡网络的分类能力,从而加强网络的分类效果。试验结果表明,该模型在蝴蝶数据集和公开的昆虫长尾数据集上准确率分别达到86.1%、71.15%,较对比的方法提升了2.14和3.02个百分点。
训练好的模型作为后端部署在服务器上,通过小程序和App获取到实拍的蝴蝶图片,对图片进行快速识别,可以实时对农业环境里的昆虫进行快速识别,甄别农业害虫,为农业监测提供支持。后续研究中,将增加更多的昆虫类别,并且结合新的网络主干,以进一步探索特征学习与数据集不平衡的联系,进而保证识别的精确度和对识别种类多样性的同时提升。
参考文献 References
ESPELAND M,BREINHOLT J,WILLMOTT K R,et al.A comprehensive and dated phylogenomic analysis of butterflies[J].Current biology,2018,28(5):770-778. [百度学术]
KAYA Y,KAYCI L,UYAR M.Automatic identification of butterfly species based on local binary patterns and artificial neural network[J].Applied soft computing,2015,28:132-137. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the acm,2017,60(6):84-90. [百度学术]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[DB/OL].arXiv,2014:1409.1556[2022-09-02].https://doi.org/10.48550/arXiv.1409.1556. [百度学术]
SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[DB/OL].arXiv,2014:1409.4842[2022-09-02].https://doi.org/10.48550/arXiv.1409.4842. [百度学术]
HOWARD A,SANDLER M,CHEN B,et al.Searching for MobileNetV3[DB/OL].arXiv,2019:1905.02244[2022-09-02]. https://doi.org/10.48550/arXiv. 1905.02244. [百度学术]
TAN M, LE Q. Efficientnet:rethinking model scaling for convolutional neural networks[DB/OL].arXiv,2019:1905.11946 [2022-09-02]https://doi.org/10.48550/arXiv. 1905.11946. [百度学术]
黄彤镔,黄河清,李震,等.基于YOLOv5改进模型的柑橘果实识别方法[J].华中农业大学学报,2022,41(4):170-177.HUANG T B,HUANG H Q,LI Z,et al.Citrus fruit recognition method based on the improved model of YOLOv5[J].Journal of Huazhong Agricultural University,2022,41(4):170-177(in Chinese with English abstract). [百度学术]
艾正茂,谭鹤群,万鹏.基于机器视觉的日本鲭定向装置设计与试验[J].华中农业大学学报,2022,41(2):208-216.AI Z M,TAN H Q,WAN P.Design and experiment of a mackerel orientation device based on machine vision[J].Journal of Huazhong Agricultural University,2022,41(2):208-216(in Chinese with English abstract). [百度学术]
REED W J.The Pareto,Zipf and other power laws[J].Economics letters,2001,74(1):15-19. [百度学术]
POUYANFAR S,TAO Y D,MOHAN A,et al.Dynamic sampling in convolutional neural networks for imbalanced data classification[C]//2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR),Mar. 21-23,2018,Miami,the United States.Miami:IEEE,2018:112-117. [百度学术]
HE H B,GARCIA E A.Learning from imbalanced data[J].IEEE transactions on knowledge and data engineering,2009,21(9):1263-1284. [百度学术]
KANG B, XIE S,ROHRBACH M,et al.Decoupling representation and classifier for long-tailed recognition[DB/OL].arXiv,2019:1910.09217[2022-09-02].https://doi.org/10.48550/arXiv.1910.09217. [百度学术]
ZHANG S Y,LI Z M,YAN S P,et al.Distribution alignment:a unified framework for long-tail visual recognition[DB/OL].arXiv,2021:2103.16370[2022-09-02].https://doi.org/10.48550/arXiv.2103.16370. [百度学术]
CUI Y,JIA M L,LIN T Y,et al.Class-balanced loss based on effective number of samples[DB/OL].arXiv,2019:1901.05555 [2022-09-02].https://doi.org/10.48550/arXiv.1901.05555. [百度学术]
DENG L M,WANG Y J,HAN Z Z,et al.Research on insect pest image detection and recognition based on bio-inspired methods[J].Biosystems engineering,2018,169:139-148. [百度学术]
XIE C J,WANG R J,ZHANG J,et al.Multi-level learning features for automatic classification of field crop pests[J].Computers and electronics in agriculture,2018,152:233-241. [百度学术]
WU X P,ZHAN C,LAI Y K,et al.IP102:a large-scale benchmark dataset for insect pest recognition[C]//Conference on Computer Vision and Pattern Recognition (CVPR),Jun. 15 - 20,2019,Long Beach,USA.Long Beach:IEEE,2019:8779-8788. [百度学术]
HE X T,PENG Y X,ZHAO J J.Which and how many regions to gaze:focus discriminative regions for fine-grained visual categorization[J].International journal of computer vision,2019,127(9):1235-1255. [百度学术]
HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[DB/OL].arXiv,2016:1512.03385[2022-09-02]. https://doi.org/10.48550/arXiv.1512.03385. [百度学术]
HARIHARAN B,GIRSHICK R.Low-shot visual recognition by shrinking and hallucinating features[DB/OL].arXiv,2017:1606.02819[2022-09-02].https://doi.org/10.48550/arXiv.1606.02819. [百度学术]
GLOROT X,BORDE S A,BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics (AISTATS),October 15-18,2021.Palo Alto,CA,USA.Palo Alto:[s.n.],2021:315-323. [百度学术]
HE K M,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[DB/OL].arXiv,2015:1502.01852[2022-09-02].https://doi.org/10.48550/arXiv.1502.01852. [百度学术]
ZHOU B Y,CUI Q,WEI X S,et al.BBN:bilateral-branch network with cumulative learning for long-tailed visual recognition[DB/OL].arXiv,2020:1912.02413[2022-09-02].https://doi.org/10.48550/arXiv.1912.02413. [百度学术]
WANG X,LIAN L,MIAO Z,et al. Long-tailed recognition by routing diverse distribution-aware experts[DB/OL].arXiv,2020:2010.01809[2022-09-02].https://doi.org/10.48550/arXiv.2010.01809. [百度学术]
BOLLIS E,PEDRINI H,AVILA S.Weakly supervised learning guided by activation mapping applied to a novel Citrus pest benchmark[DB/OL].arXiv,2020:2004.11252[2022-09-02]. https://doi.org/10.48550/arXiv.2004.11252. [百度学术]