999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Mel頻譜值和深度學習網絡的鳥聲識別算法?

2023-09-15 12:36:24李大鵬周曉彥王基豪王麗麗
應用聲學 2023年4期
關鍵詞:特征實驗信息

李大鵬 周曉彥 王基豪 王麗麗 葉 如

(南京信息工程大學電子與信息工程學院 南京 210044)

0 引言

鳥類是生態系統的重要組成部分。對鳥類活動及其分布的監測,為了解一個地區的生物多樣性變化和氣候變化提供了重要的依據[1-2]。鳥鳴聲是區分鳥類的重要特征。鳥鳴聲識別也是目前鳥類物種識別普遍采用的方式之一。通過鳥聲識別實現鳥類監測具有高效、穩定、范圍廣的優點,具有巨大的應用價值。

鳥鳴聲識別的關鍵在于減少自然環境下噪聲的影響,提取合適的鳴聲特征,匹配分類器進行識別。目前,鳥聲識別的分類方法大致有3 種:(1) 基于模板匹配的分類方法。最常見的是動態時間規整(Dynamic time warping,DTW)算法。例如,徐淑正等[3]使用基于音長、Mel 頻率倒譜系數(Melfrequency cepstral coefficients,MFCC)、線性預測系數(Linear prediction coefficient,LPCC)和時頻域紋理特征的DTW算法并結合多種分類器進行鳥聲識別。此類算法時間復雜度較高,容易受到噪聲干擾。(2) 基于傳統機器學習的分類方法。此類方法多采用手工提取特征,利用支持向量機(Support vector machine,SVM)[4]、隨機森林(Random forest,RF)[3]等分類器進行識別。例如,張賽花[4]提取了一種Mel 子帶參數化特征,使用SVM 對野外11種鳥鳴聲進行分類識別,結果表明該方法對11類鳥聲查全率、查準率和F1-score 均高于89%。目前該類算法正確率的提高多依賴于對特征的優化與選擇,其主要適應于小樣本數據集,在樣本充足的情況下識別效果低于深度學習的方法。(3) 基于深度學習的方法。深度學習網絡具有很好的自動學習特征的能力,近年來在鳥類物種識別中得到了廣泛的應用并取得了良好的效果。例如,Cakir等[5]提出了基于卷積遞歸神經網絡(Convolutional recurrent neural networks,CRNN)的方法實現鳴聲的高維特征及短時幀間的相關性特征提取,對Freesound數據中的鳥鳴聲進行分類實驗,正確率達到88.5%。馮郁茜[6]提出了基于雙模態特征融合的鳥類物種分類算法,融合卷積網絡提取的語圖特征和長短時記憶結構提取的鳴聲時序序列特征,自適應完成鳥鳴聲的物種識別。Naranchimeg等[7]利用卷積神經網絡(Convolutional neural networks,CNN)提取語圖特征并且提出跨模態結合特征,提高了分類識別的性能。謝將劍等[8]采用3種不同語譜圖作為輸入特征并進行特征融合,利用VGG16 網絡進行鳥類物種識別,實驗表明特征融合模型具有更好的識別效果。Puget[9]將通過短時傅里葉變換(Short time Fourier transform,STFT)生成的STFT 語譜圖經過網格化處理后作為Transformer 神經網絡的輸入,并通過Xeno-Canto 鳥聲數據庫中397類鳥聲識別,測試后準確率達到77.55%。邱志斌等[10]將Mel 語譜圖輸入自搭建的24 層CNN 模型中,并通過反復執行卷積、池化操作及微調內部參數,在40類鳥類鳴聲中識別準確率能達到96.1%。Liu 等[11]提出了一種將雙向長短期記憶網絡(Bidirectional long-short term memory,BiLSTM)和DenseNet 卷積神經網絡級聯組合的鳥聲分類模型,將Mel 語譜圖作為輸入,在北京百鳥數據庫中20 種鳥類聲頻中平均準確率能達到92.2%。上述文獻[5-11]基于深度學習的方法主要以語譜圖作為模型的輸入,通過CNN、RNN 等網絡進一步提取高等級特征進行分類識別,取得了良好的識別效果。但上述文章均未考慮噪聲對于網絡性能的影響。鳥鳴信號在自然環境中獲取,往往包含大量噪聲,為了增強對含噪鳥鳴聲特征的學習能力,本文受深度殘差收縮網絡(Deep residual shrinkage networks,DRSN)[12]、卷積塊注意力模塊(Convolutional block attention module,CBAM)[13]、通道注意力(Efficient channel attention,ECANet)[14]的啟發,結合擴張卷積[15]和殘差思想[16],設計了基于DRSN 和擴張卷積的鳥聲識別網絡,以提高模型在自然場景下鳥聲識別的分類精度。本文的主要工作如下:

(1) 提取鳥鳴聲信號的對數Mel 特征及其一階和二階差分系數組成log-Mel 特征向量作為網絡模型的輸入。

(2) 設計了更加高效的深度殘差收縮模塊。結合ECANet 網絡的思想對DRSN 進行改進,即通過一維卷積替代DRSN 模型注意力機制中的兩層全鏈接,降低參數量的同時增強對含噪鳥鳴聲的特征學習能力。

(3) 基于擴張卷積、殘差連接和結合空間注意力機制構建局部特征提取模塊,將提取到的局部特征輸入BiLSTM,考慮時間依賴性關系進一步提取全局特征。

(4) 在北京百鳥數據birdsdata 鳥聲庫上進行實驗,分析本文不同網絡的作用并與其他基于深度學習網絡的鳥聲識別算法進行對比,最后研究本文方法在不同信噪比數據下的識別效果。

1 基于Mel頻譜值和深度學習網絡的鳥聲識別算法

本文所提出的鳥聲識別算法總體框架如圖1所示。首先,對于輸入的鳥鳴聲信號進行預加重、分幀、加窗,通過STFT 和Mel 濾波操作得到MFCC 并計算得到其一階差分、二階差分系數組成3 維log-Mel特征向量;其次,將特征向量輸入一個卷積單元進行特征提取,通過池化層縮小特征圖大小,并輸入深度殘差收縮模塊減弱噪聲干擾;然后,通過殘差連接和3 個擴張卷積單元結合空間注意力機制(Spatial attention module,SAM)組成擴張卷積注意力模塊(DilatedSAM)進一步提取高等級空間局部特征;最后,輸入BiLSTM 層來捕獲時間序列特征,再經過全連接、softmax層實現鳥鳴聲的分類識別。

圖1 鳥聲識別網絡總體結構Fig.1 General structure of the bird sound recognition network

1.1 對數Mel特征(log-Mel)

靜態特征僅描述了幀級聲頻的能譜包絡,而聲頻具有一定的動態信息。在語聲情感識別領域的相關文獻[17-18]將靜態特征和動態信息相結合取得了較好的識別效果,因此本文提取鳥鳴聲信號的log-Mel特征并計算其一階差分和二階差分系數,將靜態和動態信息相結合組成3 維log-Mel 特征向量。處理過程如圖2所示。

圖2 log-Mel 特征提取過程Fig.2 log-Mel feature extraction process

(1) 將鳥鳴聲通過高通濾波器進行預加重處理,高通濾波器表示為

其中,μ的取值范圍為0.9~1,本文取0.94;

(2) 對預加重后的鳥鳴聲信號進行分幀、漢明窗加窗,其中幀長為25 ms、幀移為10 ms;

(3) 對每一幀進行離散傅里葉變換(Discrete Fourier transform,DFT)后得到各幀的頻譜,并對頻譜取模平方得到對應的功率譜,將時域信號轉換為頻域上的能量分布;

(4) 將功率譜輸入到Mel 濾波器組中得到能量值,對于第i個濾波器(0

(5) 為了更好地體現時域連續性,可在靜態特征增加前后幀動態信息,可由yi計算一階差分和二階差分

其中,N=2,計算得到信號的動態信息,與靜態特征yi組成3 維log-Mel 特征向量X∈Rt×f×k,其中,t表示時間幀個數,f表示Mel 濾波器的個數,k表示特征的通道數,這里t=200、f=40、f=3。

1.2 DRSN

在實際環境中采集到的鳥鳴聲數據,往往存在大量的背景噪聲,影響模型識別的準確率。為解決此問題,本文提出一種改進的DRSN,從而減弱環境噪聲對識別結果的影響。文獻[11]為解決滾動軸承故障診斷中的高噪聲問題,將信號去噪中經常使用的軟閾值函數引入深度殘差神經網絡中,并利用通道注意力機制[19]自動確定噪聲閾值,提出了一種能夠自適應軟閾值的DRSN。本文為了進一步降低DRSN 網絡的參數量,利用一維卷積替代DRSN 模型注意力機制中的兩層全鏈接,其具體結構如圖3所示。

圖3 改進的深度殘差收縮單元Fig.3 Improved depth residual shrinkage unit

對于輸入的三維特征圖X(M×N×C)首先通過取絕對值和全局平均池化操作將特征信息進行壓縮得到維度為1×1×C的向量α,計算公式如下:

其次通過一維卷積得到每個通道的注意力參數,同時在兩層全連接網絡后應用sigmoid 函數,使注意力參數縮放到(0,1),其計算公式如下:

其中,z為一維卷積的輸出,βC為注意力參數。

最后注意力參數βC乘以向量α,得到最終閾值τc,從而確保閾值為正同時不會太大。

綜上所述,軟閾值可以表示為

其中,τC為特征矩陣對應通道的閾值;M、N、C分別為特征圖X的寬度、高度和通道,⊙為矩陣的哈達瑪積。

圖3 中○~為軟閾值操作,即將每個通道特征圖參數在-τC≤X≤τC的特征設為0,其他特征參數向0收縮。具體計算公式為

其中,X為輸入特征參數,Y為輸出特征參數,τC為閾值。

在經典的信號去噪算法中,設置合適的閾值往往需要大量經驗,殘差收縮單元通過注意力機制實現了不同通道閾值的自動確定,避免了人工設置的麻煩。為了進一步減少確定閾值所需的計算量、降低模型復雜度,本文借鑒ECANet 網絡的方法,用一維卷積替代殘差收縮單元中兩層全連接網絡,實現跨通道信息的交互,并通過選擇一維卷積核大小確定局部跨通道交互的覆蓋范圍。

對于給定的通道維度C,一維卷積核大小K計算公式如下:

對于參數γ和b采用ECA-Net 網絡中的設定,將γ和b分別設置為2和1。

1.3 擴張卷積殘差注意力結構

為了進一步有效提取鳥鳴聲特征,減少池化帶來的信息丟失,同時希望網絡能夠聚焦于關鍵幀信息,本文結合擴張卷積和CBAM網絡中的空間注意力機制及殘差的思想,提出了擴張卷積殘差注意力結構。傳統的CNN主要由卷積層和池化層組成,其中,卷積層用來提取局部特征;池化層用來對特征圖進行下采樣減小特征圖尺寸,間接提高下層卷積感知的范圍。然而池化層在減小特征圖尺寸的過程中,可能會造成一些信息的丟失,對于此問題,在本模塊中采用擴張卷積來代替傳統的CNN,在特征提取過程中不丟失信息和增加計算量的情況下獲得更大的感受野。擴張卷積的結構比較簡單,通過在標準卷積中增加空洞的方式,實現感受野的擴大。如圖4 所示,在標準卷積行列權值中插入r-1 個值為0的權值,γ為擴張率,其感受野的計算公式如下:

圖4 標準卷積與擴張卷積示意圖Fig.4 Schematic diagram of standard convolution and dilation convolution

其中,j表示卷積層序號,lj為第j個卷積層的感受野大小,fj表示該層卷積核尺寸,si表示卷積步長大小。

擴張卷積殘差注意力網絡主要的特征提取部分由擴張卷積層(DiltedCNN)、批量歸一化層(Batch normalization,BN)和RELU層組成擴張卷積單元。由于擴張卷積層的存在,可以在不使用池化層的情況下獲得更大的感受野,提取局部特征。BN 層對特征進行歸一化處理,提高結構的性能和穩定性。

1.4 BiLSTM

LSTM 模型是一種改進的時間遞歸神經網絡,解決了循環神經網絡梯度爆炸和梯度消失的問題[20]。LSTM 在時間序列信息處理中得到了廣泛的應用,尤其在聲頻領域[5,21]。LSTM 可以選擇性地學習長期信息序列信息,擁有3 個”門”對信息進行控制,即輸入門、輸出門和遺忘門,遺忘門根據輸入和前次輸出來幫助模型遺忘一些無用的信息。

鳥鳴聲信號是一種時序信號,具有動態特性,而LSTM 內部的循環機制使其具有對時序序列的記憶能力,能綜合考慮時序序列前后幀特征之間的聯系。本文使用BiLSTM,結合前向信息和后向信息,其中,前向層捕獲序列的歷史信息;后向層捕獲序列的未來信息。然后將前向層和后向層的隱藏狀態連接起來,得到單個序列的隱藏狀態,作為BiLSTM隱藏層的輸出。

2 實驗設置與分析

2.1 鳥聲數據庫

為了驗證模型的有效性,本文選用的鳥類鳴聲聲頻文件均來自Birdsdata 手工標注自然聲音標準大數據集[22],該數據集由百鳥數據科技有限責任公司發布,其公開部分共收集了中國常見鳥種20 種,該數據集共有進行過2 s 標準化切割的44.1 kHz、wav聲頻文件14311個,各類鳥鳴聲文件數量如表1所示。

表1 北京百鳥數據庫Table 1 Birdsdata

由于數據庫中灰山鶉數量過少,實驗中刪除該鳥類,采用19種鳥類,共計14282個聲頻文件。

2.2 實驗設置

本文網絡模型的搭建采用谷歌公司發布的基于TensorFlow 2.4.0的Keras2.4.3深度學習框架,硬件環境租用MistGPU平臺的NVIDIA RTX 2080Ti顯卡。模型訓練的參數如表2所示。

表2 訓練參數Table 2 Train parameters

網絡中所有卷積層卷積核個數K均設為128,padding 設為same 卷積模式,BiLSTM 層的單元大小設置為128。

為了避免網絡發生過擬合問題,文章采用了3種方法:(1) 每個卷積層后均添加BN 層,提高網絡的泛化能力。(2) 在全連接層之前采用dropout 技巧,并設為0.5。(3) 對于每個卷積層采用L2 正則化技巧,正則化參數設為0.0001。

為評估模型性能,本文將準確率(Accuracy)和F1-score 作為自身模型和其他對比模型的評價指標。F1-score 得分由精確率(Precision)和召回率(Recall)兩項指標加權得到,具體計算公式如下:

查準率(精準率):

查全率(召回率):

正確率(準確率):

其中,TP 為正確地預測為正例,TN 為正確地預測為反例,FP 為錯誤地預測為正例,FN 為錯誤地預測為反例。

實驗協議采用五折交叉驗證的方式,即將數據集分成5 份,輪流將其中4 份作為訓練數據,1 份作為測試數據進行實驗。

2.3 實驗與分析

本文實驗采用北京百鳥數據庫,為驗證本文算法的有效性,實驗共分為3 個部分。首先對比一維靜態log-Mel特征和3維log-Mel特征在本文模型上的識別效果,同時對比近年來相關論文所提算法;其次在不同強度的高斯白噪聲背景下進行實驗,驗證本文算法在噪聲環境下的識別效果;最后對本文模型進行消融實驗,分析各個模塊對模型識別結果的影響。

2.3.1 消融實驗

為了驗證深度殘差收縮模塊、擴張卷積和空間注意力模塊的有效性,進行了消融實驗,輸入特征均為三維log-Mel 頻譜值。實驗中將普通卷積加BiLSTM 模型(CNN+BiLSTM)作為基準模型,分別對比基于擴張卷積的殘差塊加BiLSTM 模型(dilatedCNN+BiLSTM)、基于擴張卷積和空間注意力的殘差塊加BiLSTM 模型(DilatedSAM+BiLSTM)和DRSN 加于擴張卷積和空間注意力的殘差塊加BiLSTM模型(DSRN+DilatedSAM+BiLSTM)。

如表3 所示,將基線模型(CNN+BiLSTM)中普通卷積換成擴張卷積并增加殘差技巧,識別正確率提高0.63%,在此基礎上增加空間注意力機制,識別精度有少幅提升;原始數據均在自然環境中采集,包含大量背景噪聲,增加DRSN 后,識別正確率提高了0.87%。實驗結果:(1) 說明殘差結構可以在學習當前層鳥鳴聲特征的同時避免丟失之前的信息,提高信息的復用率,引入了殘差技巧和擴張卷積可以提高網絡的識別效果;(2) 由于數據集本身在自然場景中獲取包含一定噪聲,因此在添加DRSN 后識別正確率得到較大提高。

表3 消融實驗結果Table 3 Results of ablation experiments (單位:%)

2.3.2 噪聲實驗

鳥鳴信號往往包含大量環境噪聲,為了驗證模型在噪聲環境下的識別效果,本文設置了噪聲實驗,通過在原始數據庫中添加高斯白噪聲進行實驗,來判斷模型在噪聲環境下的有效性。在實驗中向數據庫中分別加入不同強度的高斯白噪聲,使原始信號與高斯白噪聲的信噪比為-5 dB、-2 dB、0 dB、2 dB、5 dB和10 dB,并對比了log-Mel+CRNN[5]模型和3 維log-Mel+DSRN+DilatedSAM+BiLSTM的識別效果,同時為了驗證本文引入的DSRN 模塊的有效性,實驗也對比了在本文模型基礎上去除DSRN模塊的識別效果。

表4 為不同信噪比下各個模型的識別正確率。從中可以看出:(1) 隨著噪聲強度的提高,3 種方法識別精度都在降低。(2) 相比文獻[5]采用的CRNN方式,本文設計的基于擴張卷積和注意機制的殘差連接模塊(DilatedSAM) 可以有效地在噪聲環境下提取關鍵特征,在不同強度的背景噪聲下均優于CRNN。(3) 由于DSRN中軟閾值操作的存在,模型可以有效將噪聲特征值降低或置0,因此該網絡對于噪聲有著良好的抑制作用,增加DSRN 模塊可以有效提高模型在噪聲環境下的識別效果。

表4 噪聲實驗結果Table 4 Results of noise experiments (單位:%)

2.3.3 特征和其他模型對比實驗

為了驗證所提方法的有效性,本文進行了不同特征的對比實驗,具體特征為:一維靜態MFCC特征、包含動態信息的三維MFCC 特征、一維靜態log-Mel 特征、包含動態信息的三維log-Mel 特征。同時與其他學者的方法進行對比,log-Mel+CNN[7]和log-Mel+CRNN[5]采用一維靜態log-Mel 頻譜值作為輸入特征,分別通過CNN 和CNN+GRU 模型進行識別;Mel 語譜圖+VGG16 提取鳥聲信號的log-Mel特征并將其轉化成尺寸為256×256語譜圖圖片,采用經典VGG16網絡進行識別。

表5 和表6 為不同特征和算法識別正確率,從中可以看出:(1) 上述4 種特征在不同網絡上的識別結果差距較小,由log-Mel 特征經過離散余弦變換得到的MFCC特征,在深度學習網絡上的識別結果稍低于log-Mel 特征,這可能是離散余弦變換操作造成了部分信息的丟失;結合動態信息的3 維特征相較于僅包含靜態信息的特征在不同模型上的提升并不明顯,主要是由于深度學習網絡可以有效地從靜態特征中獲取有效信息。(2) 本文所提算法識別效果相較于其他算法有著明顯優勢,識別正確率和F1-score得分分別可以達到96.65%和96.54%。(3) 由于DSRN 對于噪聲信息的印制、殘差技巧對于信息的復用和通過擴張卷積減少池化操作帶來的信息丟失問題,本文所提的方法相較于其他網絡獲得了更好的識別效果。

表5 特征對比實驗結果Table 5 Results of feature comparison experiments (單位:%)

表6 其他模型對比實驗結果Table 6 Results of other model comparison experiments (單位:%)

3 結論

本文結合一些深度學習方法,提出了一種新的網絡結構實現對噪聲環境下鳥鳴聲的識別,研究了如何從log-Mel 頻譜值中有效學習局部信息和全局信息。首先結合注意力機制的方法實現對噪聲軟閾值的自動確定,提出了一種改進的DRSN;然后為了進一步提取有效特征,設計了一個基于擴張卷積和空間注意力機制的殘差連接模塊以獲取更有效的局部特征;最后通過BiLSTM,從局部特征中學習前后的依賴關系,獲取全局特征。以北京百鳥數據庫20 類鳥聲為實驗對象結果表明:DRSN 中軟閾值操作可以有效降低噪聲干擾,相較于其他模型具備明顯優勢。因此本文模型在自然場景下具有良好的應用價值,可以有效降低環境中噪聲干擾,提高識別正確率。在未來的研究中還會進一步探討DRSN模塊堆疊數量與對于不同強度噪聲的抑制效果,從而將本文模型更好地應用于自然環境下的鳥聲識別中。

猜你喜歡
特征實驗信息
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美精品一区在线看| 中国一级毛片免费观看| 日韩免费毛片| 黄色一及毛片| 大乳丰满人妻中文字幕日本| 久久精品日日躁夜夜躁欧美| 人妻一区二区三区无码精品一区| 亚洲精品制服丝袜二区| 亚洲欧洲综合| 色妺妺在线视频喷水| 亚洲国产日韩在线成人蜜芽| 伊人色婷婷| 天天综合网站| 激情综合网激情综合| 亚洲欧美国产高清va在线播放| m男亚洲一区中文字幕| 超清无码熟妇人妻AV在线绿巨人| 亚洲天堂日韩av电影| 不卡无码h在线观看| 国产成人综合欧美精品久久| 国产69囗曝护士吞精在线视频| 国产欧美日韩91| 美女黄网十八禁免费看| 久热中文字幕在线| 午夜视频免费一区二区在线看| 日韩在线永久免费播放| 欧洲精品视频在线观看| 91网在线| 在线免费看片a| 国产在线一区二区视频| 国产黑人在线| 欧美成人精品高清在线下载| 国产精品所毛片视频| www.youjizz.com久久| 国产一区二区三区免费观看| 久久一本精品久久久ー99| jijzzizz老师出水喷水喷出| 成人午夜久久| 亚洲色图狠狠干| 蜜桃视频一区二区| 欧美另类一区| 亚洲国产天堂久久综合| av一区二区人妻无码| 免费国产好深啊好涨好硬视频| 亚洲人成人伊人成综合网无码| 欧美成人看片一区二区三区| 亚洲 欧美 中文 AⅤ在线视频| 中文字幕久久亚洲一区| 久久综合一个色综合网| 在线播放真实国产乱子伦| 亚洲日韩AV无码精品| 午夜三级在线| 国产不卡网| 日韩激情成人| 天堂在线www网亚洲| 久热中文字幕在线| 亚洲第一精品福利| 国产va在线| 亚洲精选高清无码| 在线欧美国产| 国产精品视频系列专区| 一级毛片免费观看久| 成人伊人色一区二区三区| 2019年国产精品自拍不卡| 在线五月婷婷| 亚洲AV无码乱码在线观看代蜜桃| 国产在线观看第二页| 国产丝袜啪啪| 欧洲日本亚洲中文字幕| A级全黄试看30分钟小视频| 免费视频在线2021入口| 国产屁屁影院| 日韩黄色大片免费看| 2022精品国偷自产免费观看| 性视频一区| 中国毛片网| 大陆精大陆国产国语精品1024| 国产99欧美精品久久精品久久| a级毛片毛片免费观看久潮| 亚洲欧美自拍一区| 青青草久久伊人| 91免费国产在线观看尤物|