摘要
为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用Inception-CSA模型对鸟鸣声特征图进行特征提取,其中Inception模块提取鸟鸣声特征图中的多尺度局部时频域特征,CSA模块获取鸟鸣声特征图的全局注意力权重,将二者的输出结合得到更强的特征图,再次利用最大池化层对特征图进行下采样;最后利用全连接层进行分类,得到最终的分类结果。以采集的华南地区自然环境中的10种野生鸟类的鸣叫声构建数据集,用于实验部分以验证方法的有效性。结果表明,本研究提出的方法在自建数据集上准确率达到了93.11%,相比于基于其他经典模型的分类方法,基于Inception-CSA模型的分类方法在拥有较少模型参数量的同时达到了更高的准确率。
随着工业社会的发展,生态环境的保护与修复逐渐成为研究重
早期鸟鸣声分类研究主要以传统机器学习的方法为主,包括支持向量
因此,本研究基于Inception结构和协调注意力,提出Inception-CSA神经网络模型用于鸟鸣声分类任务,旨在为识别鸟类所属种群、保护珍稀鸟类以及检测生态环境质量提供核心算法理论参考。
基于Inception-CSA神经网络模型的鸟鸣声分类方法总体结构图如

图1 基于Inception-CSA模型的鸟鸣声分类方法总体结构图
Fig.1 Overall structure of bird song classification method based on Inception-CSA model
自然环境中的鸟鸣声在环境噪声、鸣叫声响度等因素的影响下,表现出来的波形图差别较大,甚至同种鸟类的雏鸟和成年鸟的鸣叫声也存在明显的差异。

图2 银喉长尾山雀在不同情况下的鸣叫声波形图
Fig.2 Waveforms of calls of the silver-throated long-tailed tit in different situations
A:无噪声时的正常鸟鸣声 Normal birdsong when there is no noise;B:较大噪声时的正常鸟鸣声 Normal birdsong in case of loud noise;C:无噪声且较小鸟鸣声 No noise and birdsong.
对于1个时长为4 s的音频,以22 050 Hz采样频率进行采样处理,会得到1个包含大约80 000个采样点的信号序列,这些采样点仅包含时域特征,且数量极多杂乱无章,不易从中提取特征进而进行分类任务。基于上述限制,本研究将音频样本可视化,即将鸟鸣声样本转换成同时包含时域特征和频域特征的基于人耳听觉的梅尔频谱图,将梅尔频谱图作为Inception-CSA模型的输入特征图进行分类任务。
梅尔频谱图的提取过程如下:首先将原始音频进行预加重、分帧、加窗等操作,再进行傅里叶变换得到频谱图。傅里叶变换主要从频域突出音频特征,公式如
(1) |
其中,代表频率,代表帧长,对于1个4 s的音频,可以获得174帧,则。为时域信号,代表频域信号,是中心位置位于的汉明窗(Hamming window),窗口长度设为2 048,步长为512,采样率为22 050 Hz。对于频谱图利用梅尔滤波器组过滤得到梅尔频谱图为:
(2) |
其中,代表正常频率,是经过滤波后的梅尔标度频率。因为频域信号有很多冗余,滤波器组可以对频域的幅值进行精简,每个频段用1个值来表示。本研究设置滤波器组个数为64,即。
本研究在Inception模型和协调注意力的基础上提出Inception-CSA模型,其由3个相同的Inception-CSA Block构成,Inception-CSA Block的结构见

图3 Inception-CSA Block的结构图
Fig.3 Structure diagram of Inception-CSA Block
对于1个尺寸为的音频特征图,代表通道数,代表特征图的频率维度,代表特征图的时间维度。在多尺度卷积模块部分中,为了扩充特征的多样性,特征图分别经过1×1、3×3、5×5共3种大小卷积核的卷积层,提取其不同感受野下的局部时频域特征,得到3种大小均为特征图、、。其中、、每个通道上的特征图都能单独代表原始特征图的特征,将3个特征图在通道维度上进行拼接,得到大小为的特征图。
多尺度卷积模块虽然能提取不同范围内的局部高维特征,但受卷积层感受野大小的限制,在提取局部特征的同时不能关注到特征图中距离较远的节点的特征,这就导致全局特征的丢失。而且音频包含许多冗杂的信息,利用CSA模块旨在得到特征图中鸟鸣声部分的全局注意权重,让整个网络在特征提取的过程中在全局上更加关注特征图中鸟鸣声部分,CSA模块的结构图见

图4 CSA模块的结构图
Fig.4 Structure diagram of CSA module
CSA模块将特征图分别进行时域和频域2个维度上的平均池化,得到2个维度上的特征向量、。接着对特征向量进行归一化,利用函数对特征向量进行激活,再经过1×1大小卷积核的卷积层与Sigmoid层,增加注意力模块的非线性映射,得到2个维度上的特征注意权重和。最后将2个维度上的特征注意权重进行矩阵乘法,得到全局特征注意权重,见式(
(3) |
(4) |
(5) |
其中,表示Sigmoid函数,表示卷积操作,表示归一化操作,为周期正弦函数,其可以解决特征值差异悬殊引起的特征注意权重差异过大问题,以便关注权重能更容易集中到特征图中鸟鸣声部分。声音信号经过傅里叶变换,被分解成若干不同频率不同强度正弦波的叠加,以此得到的梅尔频谱图中还留存着正弦波的特征。函数具有周期性,其值域为[-1, 1],对特征向量具有一定的约束性,一定程度上也能避免特征之间差异过大引起的过拟合现象。为避免在利用Inception-CSA Block模块对特征图进行下采样的过程中特征图的这些特征丢失,在coordinate-sin attention模块中加入函数对特征向量进行激活。函数的任意阶导数均为三角函数,不会增加神经网络训练中反向传播的计算复杂度。虽然傅里叶变化的结果能用函数表示,其值域与函数相同且具有周期性,但函数并不适用于此,原因是在数据预处理阶段对梅尔频谱图进行了0填充,该0填充的部分为无声部分,其在下采样中不应该改变,而使用函数进行激活,会改变该部分的特征值,从而导致声音特征中引入噪声。
将多尺度卷积模块的输出特征图与CSA模块的输出全局特征注意权重进行矩阵点乘,得到同时具备多尺度局部特征和全局关注的特征图,以利用全局特征关注权重让特征图中鸟鸣声部分的特征更加突出。最后再利用3×3池化层对特征图进行下采样,得到Inception-CSA Block模块特征最终的提取结果。使用池化层能提取鸟鸣声特征图中的纹理特征,以此可以减少噪声的干扰,同时还能将特征图缩小,减少后续网络结构中的计算量。
本研究采集了华南区域自然环境中常见的10种野生鸟类的鸣叫声,包括银喉长尾山雀(Aegithalos glaucogularis)、黑翅雀鹎(Aegithina tiphia)、绿头鸭(Anas platyrhynchos)、小白鹭(Egretta garzetta)、噪鹃(Eudynamys scolopaceus)、家燕(Hirundo rustica)、红耳鸭(Malacorhynchus membranaceus)、白鹡鸰(Motacilla alba)、珠颈斑鸠(Streptopelia chinensis)、暗绿绣眼鸟(Zosterops japonicus)。由于这些音频样本的时间长度相差较大,为了使输送进网络的数据标准化,本研究将这些鸟鸣声的音频样本通过音频剪辑统一处理成时长4 s左右、采样率为41 000 Hz的音频样本,构建了1个用于鸟鸣声分类任务的数据集。各个类别的音频样本数量分别为银喉长尾山雀847、黑翅雀鹎844、绿头鸭850、小白鹭846、噪鹃852、家燕930、红耳鸭919、白鹡鸰904、珠颈斑鸠847、暗绿绣眼鸟926。
试验中将数据集的每个类别随机选取80%的样本作为训练集样本,剩余的20%的样本作为验证集样本,取验证集最好的结果作为Inception-CSA模型的最终分类精度。预处理阶段使用Python库中的Librosa对每个声音样本提取64个梅尔滤波器组的梅尔频谱图。音频采样率为22 050 Hz,帧移为512,帧之间的重叠率为窗口大小的1/4, 4 s长度的声音样本大致包含174帧。但数据集的所有音频样本的时长并非严格控制在4 s,音频样本经过预处理获取到的梅尔频谱图的尺寸在时间维度上不统一,而网络模型的输入需要统一尺寸。将梅尔频谱图在时间维度上进行0填充,统一补齐至192帧,因此所有梅尔频谱图的尺寸均变为64×192。0填充的部分不会将噪声引入梅尔频谱图,因为其在卷积、池化、线性激活等操作的过程中,特征值一直保持为0,不会在特征提取的过程中引入噪声。
本研究所有试验均在深度学习服务器上进行,服务器的试验条件为:CPU Intel i9,内存 32 GB,GPU GeForce RTX 3090 16 GB,操作系统 Windows 10专业版,编辑语言 Python 3.7, 深度学习框架 Pytorch 1.9。为了能使深度学习模型训练完全,试验进行300个Epoch。试验中Batch_size对最终分类结果影响较小,为了尽可能地利用显存资源,将Batch_size设为32 ,优化器选用SGD优化器。理想情况下学习率应该随着训练的进行不断衰减最终接近0,模型的参数才能收敛到最佳效果,Pytorch深度学习框架自带的库中Exponential LR学习率下降策略符合该要求,因此,本试验的学习率更新策略采用Exponential LR:
(6) |
其中表示初始学习率,表示学习率衰减参数,试验中经过多次调参优化二者分别设为0.001与0.965。表示每个Epoch的学习率。
损失函数选用分类任务中常用的交叉熵函数(cross entropy):
(7) |
其中,表示损失值,表示第个样本的标签,表示模型预测的结果,即第类别的概率。

图5 训练过程损失值(A)和准确率(B) 变化
Fig.5 Loss value change (A) and accuracy rate change (B) during training
本研究使用混淆矩

图6 最终验证集的混淆矩阵
Fig.6 Confusion matrix for final validation set
通过混淆矩阵计算出每个类别的精确率(precision)、召回率(recall)、F1分数(F1-score),如
类别 Category | 精确率/% Precision | 召回率/% Recall | F1分数/% F1-score | 数量Number |
---|---|---|---|---|
银喉长尾山雀Aegithalos glaucogularis | 94.55 | 91.76 | 93.13 | 165 |
黑翅雀鹎 Aegithina tiphia | 88.07 | 91.72 | 89.86 | 176 |
绿头鸭 Anas platyrhynchos | 96.41 | 94.71 | 95.56 | 167 |
小白鹭 Egretta garzetta | 93.06 | 94.71 | 93.87 | 173 |
噪鹃 Eudynamys scolopaceus | 96.86 | 90.06 | 93.34 | 159 |
家燕 Hirundo rustica | 95.05 | 93.01 | 94.01 | 182 |
红耳鸭 Malacorhynchus membranaceus | 92.67 | 96.20 | 94.40 | 191 |
白鹡鸰 Motacilla alba | 88.17 | 90.61 | 89.37 | 186 |
珠颈斑鸠Streptopelia chinensis | 97.62 | 96.47 | 97.04 | 168 |
暗绿绣眼鸟Zosterops japonicus | 90.00 | 91.94 | 90.96 | 190 |
模型 Model | 参数量 Parameters | 准确率/% Accuracy |
---|---|---|
CNN |
4.93×1 | 87.48 |
ResNet18 |
11.70×1 | 87.65 |
ResNet34 |
20.81×1 | 86.34 |
ResNet50 |
25.57×1 | 91.97 |
ResNet101 |
44.56×1 | 89.41 |
VGG16 |
138.30×1 | 88.50 |
AlexNet |
61.11×1 | 86.37 |
GoogleNet |
13.01×1 | 90.01 |
Inception-CA |
1.58×1 | 91.27 |
Inception-CSA |
1.57×1 | 93.11 |
不同数量的梅尔滤波器组会直接影响梅尔频谱图的大小,从而影响特征图的特征数量。梅尔滤波器组个数过少或过多,均会对分类精度产生影响。本研究将声音样本转换成不同个数梅尔滤波器组的梅尔频谱图,来考察分类精度最高的情况。当梅尔滤波器组数量分别为8、16、32、64、128时,对应准确率分别为90.32%、92.54%、92.83%、93.11%、93.06%。Inception-CSA模型对鸟鸣声的准确率最高为93.11%(
由
为验证基于Inception结构的模型相比于单种大小卷积核的卷积神经网络模型具有更好的效果,还构建相同规模的单种大小卷积核的卷积神经网络模型进行对比试验,结果表明基于Inception结构的网络模型分类效果要更好。在Inception结构中添加协调注意力后构成Inception-CA模型,该模型利用特征提取模块在关注多尺度局部高维特征的同时,还能利用全局关注权重来强化提取到的音频特征。试验结果显示,在Inception模块中加入协调注意力后,模型的分类精度提升了1.2个百分点,这表明协调注意力获取到的全局权重能对模型提取到的特征起到增强作用。Inception-CA模型与Inception-CSA模型的试验结果对比显示,函数使模型分类精度提升1.9个百分点,表明函数在鸟鸣声特征提取过程中具有有效性。总之,Inception-CSA模型能在特征提取的过程中结合多尺度局部特征与全局关注权重,从而更容易学习与获取到鸟鸣声的特征,最终实现较高的分类准确率。
本研究在原生Inception模块和协调注意力的基础上提出基于Inception-CSA模型的鸟鸣声分类方法。与基于单一感受野的卷积神经网络模型相比,Inception-CSA模型基于多感受野的卷积神经网络,分别在特征图中提取不同尺度的局部时频域特征,对于不同大小卷积核提取出来的特征图在特征图通道上进行拼接,同时利用改进后的协调注意力在特征图中获取到全局上的特征权重,然后将提取得到的特征图与特征权重进行矩阵乘法得到一个新的特征图,并用于之后的池化下采样与分类操作。这使得网络既能够感知特征图中不同尺度下的鸟鸣声时频域特征,又捕获了特征图的全局注意力权重,从而使网络获取丰富的鸟鸣声特征信息。其中,改进后的协调注意力(CSA)采用函数作为激活函数。函数的值域和周期性对相差较大的特征值进行约束,能简化鸟鸣声的特征差异。同时函数能保留经过傅里叶变换的鸟鸣声特征图中的正弦波特征。
本研究采集华南区域自然环境中常见的10种鸟类的鸣叫声,并构建出鸟鸣声分类数据集,提出的基于Inception-CSA模型的鸟鸣声分类方法在该数据集上的准确率为93.11%,和现有方法相比有较大的提升。并且在训练过程中,Inception-CSA模型收敛迅速,最终收敛至1个确定的值,表明该模型具有较强的鲁棒性。试验结果表明,即使同种鸟鸣声及不同种类鸟鸣声存在较大差异,模型依旧具有较高的分类精度,并且泛化性强。
本研究提出Inception-CSA神经网络模型用于鸟鸣声分类任务,并在自建鸟鸣声分类数据集上进行分类评测。相比于经典分类网络,本研究提出的模型参数量较少并且分类精度更高。在原生Inception的基础上利用协调注意力对卷积层进行改进,使模型既能够捕获多感受野提取的鸟鸣声特征,又能够获取鸟鸣声特征图全局注意力权重,从而增强鸟鸣声特征。在后续的研究中,我们会继续采集自然环境中的鸟鸣声数据以扩建鸟鸣声分类的数据集,致力于探究分类精度更高的网络模型。
参考文献 References
安文雨,涂婧林,侯东瑞,等.国土空间生态修复与乡村振兴: 共现与融合[J].华中农业大学学报,2022,41(3): 1-10.AN W Y,TU J Y,HOU D R,et al.Ecological restoration of territorial space and rural revitalization:co-occurrence and integration [J].Journal of Huazhong Agricultural University,2022,41(3):1-10(in Chinese with English abstract). [百度学术]
ANAND R,SHANTHI T,DINESH C,et al.AI based birds sound classification using convolutional neural networks[J/OL].IOP conference series: earth and environmental science,2021,785(1): 012015[2022-09-19].https://iopscience.iop.org/article/10.1088/1755-1315/785/1/012015/meta.DOI: 10.1088/1755-1315/785/1/012015. [百度学术]
BARDELI R,WOLFF D,KURTH F,et al.Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J].Pattern recognition letters,2010,31(12): 1524-1534. [百度学术]
WIMMER J,TOWSEY M,ROE P,et al.Sampling environmental acoustic recordings to determine bird species richness[J].Ecological applications,2013,23(6): 1419-1428. [百度学术]
刘志华,陈文洁,陈爱斌.基于自注意力机制时频谱同源特征融合的鸟鸣声分类[J].计算机应用,2022,42(4): 1260-1268.LIU Z H,CHEN W J,CHEN A B.Homologous spectrogram feature fusion with self-attention mechanism for bird sound classification[J].Journal of computer applications,2022,42(4):1260-1268(in Chinese with English abstract). [百度学术]
BRIGGS F,LAKSHMINARAYANAN B,NEAL L,et al.Acoustic classification of multiple simultaneous bird species: a multi-instance multi-label approach[J].The journal of the Acoustical Society of America,2012,131(6): 4640-4650. [百度学术]
QIAO Y,QIAN K,ZHAO Z.Learning higher representations from bioacoustics: a sequence-to-sequence deep learning approach for bird sound classification[C]//27th International Conference,ICONIP 2020,November 18-22,2020,Bangkok,Thailand.Cham: Springer,2020: 130-138. [百度学术]
ACEVEDO M A,CORRADA-BRAVO C J,CORRADA-BRAVO H,et al.Automated classification of bird and amphibian calls using machine learning:a comparison of methods[J].Ecological informatics,2009,4(4): 206-214. [百度学术]
魏静明,李应.利用抗噪纹理特征的快速鸟鸣声识别[J].电子学报,2015,43(1):185-190.WEI J M,LI Y.Rapid bird sound recognition using anti-noise texture features[J].Acta electronica sinica,2015,43(1):185-190(in Chinese with English abstract). [百度学术]
LEE C H,HSU S B,SHIH J L,et al.Continuous birdsong recognition using Gaussian mixture modeling of image shape features[J].IEEE transactions on multimedia,2012,15(2): 454-464. [百度学术]
张赛花,赵兆,许志勇,等.基于Mel子带参数化特征的自动鸟鸣识别[J].计算机应用,2017,37(4):1111-1115.ZHANG S H,ZHAO Z,XU Z Y,et al.Automatic bird vocalization identification based on Mel-subband parameterized feature[J].Journal of computer applications,2017,37(4):1111-1115(in Chinese with English abstract). [百度学术]
JANČOVIČ P,KÖKÜER M,RUSSELL M.Bird species recognition from field recordings using HMM-based modelling of frequency tracks[C]//2014 IEEE International Conference on Acoustics,Speech and Signal Processing,May 04-09,2014,Florence,Italy.New York:IEEE,2014:8252-8256. [百度学术]
HINTON G,DENG L,YU D,et al.Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J].IEEE Signal processing magazine,2012,29(6): 82-97. [百度学术]
ZHANG X,CHEN A,ZHOU G,et al.Spectrogram-frame linear network and continuous frame sequence for bird sound classification[J/OL].Ecological informatics,2019,54:101009[2022-09-19].https://doi.org/10.1016/j.ecoinf.2019.101009. [百度学术]
SPRENGEL E,JAGGI M,KILCHER Y,et al.Audio based bird species identification using deep learning techniques[C]//Conference and Labs of the Evaluation Forum (CLEF) 2016,September 5-8,2016,Évora,Portugal.[S.l.]:LifeCLEF,2016:547-559. [百度学术]
JOLY A,GOËAU H,GLOTIN H,et al.Lifeclef 2017 lab overview: multimedia species identification challenges[C]//International Conference of the Cross-Language Evaluation Forum for European Languages,Sept 11-14,2017,Dublin,Ireland.Cham: Springer,2017:255-274. [百度学术]
SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,June 07-12,2015,New York,USA.New York:IEEE,2015:1-9[2022-09-19]. [百度学术]
HOU Q,ZHOU D,FENG J.Coordinate attention for efficient mobile network design[DB/OL].arXiv,2021:2103.02907[2022-09-19].https://doi.org/10.48550/arXiv.2103.02907. [百度学术]
LIM M,LEE D,PARK H,et al.Convolutional neural network based audio event classification[J].KSII transactions on internet and information systems (TIIS),2018,12(6): 2748-2760. [百度学术]
HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[DB/OL].arXiv,2015:1409.1556[2022-09-19].https://doi.org/10.48550/arXiv.1409.1556. [百度学术]
SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[DB/OL].arXiv,2015:1512.03385[2022-09-19].https://doi.org/10.48550/arXiv.1512.03385. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90. [百度学术]