999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙二流卷積和多特征融合的D-S聲音分類

2022-01-01 00:00:00吳佳賽高振斌
計算機應用研究 2022年3期

摘 要:針對現有模型聲音分類精度不足的問題,提出了一種基于多特征雙二流網絡的D-S融合模型。首先,提出了四種組合特征來更全面有效地表征聲音。其次,提出雙二流網絡結構來更好地訓練模型。第一和二流網絡采用多分辨率多通道特征送入二階密集卷積網絡(2-DenseNet),其中2-DenseNet被分成了兩個密集塊。第三和四流網絡采用單分辨率單通道的特征拼接送入四層CNN。然后利用D-S證據理論對softmax層的輸出結果進行融合,得到D-S-Net模型。實驗結果表明,基于UrbanSound8k數據集,經數據增強后該模型的準確率達96.36%,較基線提高了25.34%,并驗證了在噪聲環境下的魯棒性,在20 dB信噪比下具有90.34%的識別率,在低信噪比下的性能得到了很好的提升。

關鍵詞:聲音分類;特征融合;密集卷積網絡;D-S融合;雙二流網絡

中圖分類號:TP391.42 文獻標志碼:A

文章編號:1001-3695(2022)03-008-0693-06

doi:10.19734/j.issn.1001-3695.2021.08.0342

作者簡介:吳佳賽(1997-),男,河北石家莊人,碩士研究生,主要研究方向為深度學習、實時信號處理;高振斌(1973-),男(通信作者),天津人,教授,博士,主要研究方向為實時信號處理(gaozhenbin@hebut.edu.cn).

D-S sound classification based on double two stream convolution and multi-feature fusion

Wu Jiasai,Gao Zhenbin?

(School of Electronic Information Engineering,Hebei University of Technology,Tianjin 300401,China)

Abstract:In order to solve the problem of insufficient accuracy of sound classification,this paper proposed a Dempster-Shafer(D-S) fusion model based on multi-feature double two stream network.Firstly,this paper proposed four combined features to represent sound more comprehensively and effectively.Secondly,this paper proposed a better training model based on double two stream network architecture.By using multi-resolution and multi-channel features,the first and second stream network feed into second-order dense convolution network(2-DenseNet),in which 2-DenseNet divided into two dense blocks.By using the feature splicing of single resolution and single channel,the third and fourth stream networks fed into the four-layer CNN network.Then it fused output results of softmax based on D-S evidence theory to obtain the D-S-Net model.The experimental results show that based on the UrbanSound8k data set,the accuracy of the model is 96.34% after data enhancement,which is 25.34% higher than the baseline,which verifies the robustness in noise environment.It has a recognition rate of 90.34% at 20 dB signal to noise ratio(SNR),the performance is greatly improved at low SNR.

Key words:sound classification;feature fusion;dense convolution network;D-S fusion;double two stream network

0 引言

基于深度學習的模型比傳統分類模型更具魯棒性,因此不僅在各種分類問題中應用廣泛,越來越多的學者也將其應用到環境聲音分類當中,并廣泛應用于噪聲檢測1、自動駕駛、地震預警2,3、聲景評價4,5、視聽監控等領域。

環境聲音分類法通常由聲學特征和分類模型兩個基本組成部分。大量的研究工作表明,組合特征在環境聲音分類任務中的表現優于僅使用一種特征6~8。因此,一個適合的特征聚合方法是健全聲音分類系統的重要組成部分。在分類模型中,傳統的機器學習分類模型如支持向量機9、高斯混合模型10在過去幾十年里被廣泛應用到聲音分類模型中,但傳統分類模型對大數據集處理能力不足、對時間和頻率信息捕捉不充分7,而基于深度神經網絡的分類模型可以彌補這些缺點11,在解決復雜的分類問題上被證明比傳統的分類器更有效。因此,本文將融合特征送入深度神經網絡分類器中進行訓練。

文獻[12]分析了哪種聽覺特征更適合環境聲音識別系統。實驗結果表明,信號處理特征要優于頻譜圖特征,將MFCC和GFCC融合的MGCC特征具有更好的性能。文獻[13]提出了一種基于耳蝸譜圖的紋理特征,將聲音信號通過伽馬通濾波器組得到譜圖后進行曲波變換,并采用改進完全局部二值模式提取曲波子帶的紋理特征生成直方圖,將直方圖級聯作為最終特征。實驗結果表明,該特征在強噪聲下具有很好的魯棒性。目前ESC特征方法可分為平穩方法和非平穩方法。MFCC特征充分考慮了人耳的聽覺特性,文獻[14]指出,平穩特性下MFCC用來描述環境聲音具有良好的識別性能,但針對環境聲音信號的非平穩特性在建模中存在局限性。非平穩特征從小波變換、稀疏表示和譜圖中提取特征,由于環境聲音的混雜性和易變性,很難找出一組適合所有聲音的特征,但正因如此,在特征提取方面具有很大的改進空間。

語音分類(人作為發聲源)和音樂分類的準確率目前已經達到了相當高的水平,甚至超過了人類聽覺感知的能力。然而,環境聲音分類由于其非平穩性和環境噪聲的強干擾,在多個方面面臨許多困難。隨著深度學習的發展,特別是卷積神經網絡模型在分類任務當中的應用,已逐步取代傳統的分類模型,其在圖像領域被廣泛應用,近些年被應用到聲音分類中。同時,一些工作建議使用合并的神經網絡來解決不能捕獲較長時間上下文信息15~18的能力。文獻[1]提出了一種結合RACNN和LMCNN的雙流CNN模型用于聲音分類,使用“加法”將雙流特征映射融合到softmax分類器以輸出分類結果。實驗結果表明,該方法結合了音頻信號的時域和頻域特征,彌補了單輸入模型不足的問題。文獻[6]以端到端的方式從不同的音頻通道中提取特征送入多通道卷積神經網絡中,使用四個不同層數的密集卷積塊進行特征提取,具有從當前層到后續所有層的直接連接方式。結果表明,該方法比基線系統提高10%,并具有較低的復雜度。文獻[19]提出了一個增強的CNN模型,利用CNN和集成分類器的后期融合訓練模型,結果表明,與單個CNN模型或集成分類器相比,后期融合模型具有更高的分類精度,相比CNN模型的平均精度提高10%。文獻[20]提出了一種高分辨率的卷積神經網絡,采用橫向構造的方法生成具有語義信息的自上而下的高分辨率特征圖,采用深度可分卷積提高網絡性能。結果表明,該算法大大減少了訓練參數,其計算復雜度低,在多個指標上均有良好表現。文獻[21]采用反復堆疊的遞減型卷積核提取不同尺寸的局部特征,利用動態衰減的學習率訓練模型。

通過總結前人的經驗可以發現,CNN在聲音分類上具有很好的性能,但大多數學者只是針對CNN的網絡結構進行改進,以提高模型的分類精度,在特征提取方面的改進較少。文獻[7]指出前期融合特征比單一特征的識別效果要好?;诖?,本文對特征和網絡結構進行了改進,通過提取音頻有效的融合特征和適合的CNN架構來優化聲音分類模型。

綜上所述,對目前聲音分類的研究而言,如何有效提高音頻分類的準確性和泛化程度仍存在重大挑戰。本文在對特征和網絡結構進行改進的前提下,同時針對目前研究缺乏對整體的評價指標——識別精度、抗噪聲性能等,將進行系統的比較研究。

1 方法

1.1 組合特征

直接將音頻信號送入神經網絡的效果是十分差的,因為原始音頻信號具有非常高的空間特性且冗余度高,導致網絡模型理解其含義比較困難。特征提取的目的是為了選取出具有代表性的數據來表示音頻信號,而本文采用組合特征來更全面有效地表征聲音信號。

1.1.1 MFCC特征的改進

作為語音識別和音頻分類中應用最廣泛的特征提取方案7,MFCC特征充分模擬了人耳的聽覺特性,可將非線性頻率轉換為線性的梅爾頻率,在眾多聲音分類中取得了不錯的效果。但研究發現,由于MFCC采用離散余弦變換來提取系數特征,會導致音頻信號結構信息部分缺失22,所以本文在進行組合特征前,首先對MFCC特征進行了改進,使用離散小波變化替代離散余弦變換,并使用融合特征對MFCC特征進行補償,效果比單一的MFCC更好。

改進特征——IMFCC提取可以通過以下步驟來表示:

a)音頻信號預處理。包括預加重、采樣、量化、分幀、加窗,將模擬音頻信號轉換為數字音頻幀序列。預加重權重系數pew設為0.937 5,預加重公式如式(1)所示。分幀時對首幀前和尾幀后分別填充半個窗長的當前幀音頻序列數,填充方式為鏡像填充,幀長公式如式(2)所示,鏡像填充公式如式(3)所示。第i幀的音頻序列表示為nframes,i,flipud()為倒置音頻序列。

b)音頻幀序列的時域和頻域處理。包括快速傅里葉變換、濾波器組、對數譜、離散小波變化。經離散小波變換后取近似系數作為特征,即低頻特征。

c)提取音頻幀序列的時變信息。對于多分辨率的IMFCC的提取,使用近似系數前q個通道的值,進一步提取其一階導數,最終得到2×q維特征。對于單分辨率的IMFCC的提取,使用近似系數前w個通道的值,為了獲取音頻幀序列的時變信息,進一步提取其一階導數和二階導數,最終得到3×w維特征。

d)使用二維特征向量[2×q,173]或[3×w,173]來表示IMFCC特征,并與其他特征進行融合。

1.1.2 LM-CS-CQT特征

不同環境聲對不同時間尺度的靈敏度不同23,因此本文采用不同的濾波器組數量,通過librosa庫以log_mel24、chroma_stft25、CQT26生成三種多分辨率的三通道特征。

對于每一種特征使用多個濾波器組,濾波器組數量均設為64、128、256,將生成的特征譜圖在頻率維度上進行拼接,得到單個特征圖的大小為(1,448,173)。將三種特征譜圖進行組合,組合特征圖大小為(3,448,173)。3為特征的通道數,448為特征的維數,173為聲音信號的幀數。

1.1.3 IMF-GF-CS-CQT特征

以IMFCC、GFCC、chroma_stft、CQT生成多分辨率的四通道特征,對于每一種特征使用多個濾波器組,其中IMFCC的通道值設為32、64、128,其余三種特征的濾波器組數量均為64、128、256。組合特征圖大小為(4,448,173)。

1.1.4 LMCST特征

以log_mel、chroma_stft、spectral_contrast、tonnetz 生成四種單分辨率單通道特征,即特征采用單一的濾波器組,并在單通道上進行拼接。四種特征的濾波器組分別設為80、12、7、6,得到的特征圖大小為(1,105,173)。

1.1.5 IMGFCST特征

以IMFCC、GFCC、chroma_stft、spectral_contrast、tonnetz生成五種單分辨率單通道特征。特征采用單一的濾波器組,五種特征的濾波器組數量分別設為20、20、12、7、6,得到的特征圖大小為(1,105,173)。圖1為四種組合特征的可視化譜圖。

1.2 網絡結構

在現實環境中,環境種類數量雜且易受外界因素的干擾,采用一種神經網絡進行訓練得到的模型魯棒性不強,而決策融合算法是一種高層次的特征融合,即利用數據集的不同多維特征訓練不同的分類器并采用合適的融合技術進行融合。因此本文將1.1節提取的四種融合特征分別送入四個分類器網絡,LM-CS-CQT和IMF-GF-CS-CQT特征送入2-DenseNet網絡,LMCST和IMGFCST特征送入四層CNN中。最后,將四種網絡在softmax層的輸出利用D-S證據理論進行融合。系統框架如圖2所示。

1.2.1 2-DenseNet網絡結構

研究者指出,如果卷積網絡在靠近輸入的層和靠近輸出的層之間包含更短的連接,則它們可以更深入、更準確、更有效地進行訓練。

DenseNet的這種結構最主要的特點是當前層的輸入來自前面所有層的輸出,而并非前一層的輸出。這樣做的好處是充分利用了特征信息,并鼓勵了特征重用,可以具有非常窄的層,使層與層之間的連接更短,這可以堪稱利用了特征的集體智慧。其看似利用了冗余信息,但可以大大降低模型參數的數量,并減輕梯度消失問題。在2-DenseNet網絡結構中,對于網絡中的每一層,使用當前層前兩層的特征圖用做輸入,這樣既可以彌補特征信息不足,又可以保證特征圖的通道數不至于很深,很適合訓練聲音分類的模型。因此本文采用2-DenseNet網絡訓練模型。式(4)為N階密集卷積網絡的連接方式,式(5)為2階密集卷積網絡的連接方式。

其中:Xl表示第l層接收到的特征圖,X0,X1,…,Xl-1為l個特征圖的融合,融合方式為線性組合;Hl(·)包括卷積核大小為(1,1)(3,3)的卷積操作、批量歸一化、線性整流激活函數。加入卷積核大小為(1,1)卷積的目的是為了在保留特征圖原始尺寸的前提下,在不同的通道內進行線性組合,并調控通道深度,盡可能降維,使輸入特征圖的數量減少,使計算復雜度降低。

將每個特征圖求Hl(·)再進行相加運算比較,融合后進行一次Hl(·)運算,在不影響性能的前提下使得網絡結構更加簡單,而求多次Hl(·)運算再相加可能會阻礙網絡中的信息流動。另外,使用Hl(·)運算進行特征圖的組合時,需保證特征圖的大小是一致的,使用池化操作后不能滿足這一點。因此,本文將網絡劃分為多個密集連接的密集網絡塊,在每個密集塊后加入過渡層,過渡層包括卷積、池化操作,其目的是將特征圖進行下采樣。同時為了保證輸入特征圖的數量盡可能減少,降低特征圖的深度,使其最大程度地保持在二階范圍內。

LM-CS-CQT和IMF-GF-CS-CQT特征中使用的網絡結構是一樣的,不同之處在于初始特征。2-DenseNet網絡模型的具體結構如下:

a)網絡共分為兩個密集網絡塊,每個密集網絡塊均含兩層。

b)輸入的音頻特征圖先經過一次卷積核大小為(7,7),濾波器個數為16的卷積運算,批量歸一化后進行最大池化操作,大小為(2,2),步長為(2,2),激活函數為ReLU,然后送入第一個密集網絡塊。

c)密集網絡塊中的每層均使用Hl(·)運算,即conv(1,1)-BN-ReLU-conv(3,3)-BN-ReLU,并使用相同填充,以保證每個特征圖的尺寸相同,便于組合。

d)在第一個密集塊后加入過渡層,即conv(1,1)-MaxPooling(2,2),使用最大池化下采樣后降低了特征圖的冗余信息。

e)在第二個密集塊后使用全局平均池化代替全連接層,保證最后通道數為10,最后接上softmax分類器進行分類。

全局平均池化即把池化窗口放大到整個特征圖尺寸的大小,每個通道的特征圖池化后變成一個像素點,極大地減少了網絡的參數,最終所有通道變成10個像素點。二次降低輸入特征圖數量的操作包括Hl(·)運算和過渡層,降低特征圖深度后計算(3,3)卷積可達到提高計算效率的目的。2-DenseNet網絡結構如圖3所示。

1.2.2 4層CNN結構

由于LMCST和IMGFCST特征為單分辨率單通道特征,為了防止過擬合現象,所以無須使用密集卷積網絡去訓練。本文提出的四層CNN包含四個卷積層和兩個全連接層,其框架如圖4所示,模型架構如下:

a)第一層使用32個濾波器,卷積核大小為(3,3),步長為(2,2),padding設為1,并批量歸一化,激活函數為ReLU。

b)第二、三、四層分別使用32、64、64個濾波器,其余配置和第一層相同。

c)第五、六層為全連接層,根據UrbanSound8k數據集的聲音類別總數,最后的輸出為10個單元,使用softmax分類器作為激活函數。

d)在第二、四、五層后使用0.5的退出概率來防止過度擬合。

CNN結構如圖4所示。在訓練階段,2-DenseNet和四層CNN的學習率均設為0.001,動量為0.9,批量大小為64,采用交叉墑作為損失函數。

1.2.3 D-S融合算法

D-S理論27是一種處理不確定性問題的完整理論。在本文中的應用是處理四種網絡結構在softmax層對應每種聲音事件可能發生的概率融合。式(6)為融合規則。

其中:qi對應UrbanSound8k數據集中聲音事件類型;式(7)為歸一化系數η;[m1⊕m2⊕m3⊕m4](A)為將待識別聲音信號識別成A事件的融合概率。[m1⊕m2⊕m3⊕m4](A)要比單個網絡在softmax層識別為A事件的概率更加準確一些。對于本文聲音事件的識別,因為q1,q2,…,q10為互相獨立的事件,所以在求[m1⊕m2⊕m3⊕m4](qi)時,B、C、D、E均為qi,η中的B、C、D、E為q1,q2,…,q10的疊加。故變為式(8)(9):

根據四種網絡預測的softmax層得到的10個概率值代入[m1⊕m2⊕m3⊕m4](qi),求出10種聲音類似的融合概率后,找出融合后的最大概率即為最終的判別結果。

1.3 數據增強算法

進行數據增強有兩個目的:a)由于UrbanSound8k數據集中含有多個1 s內的音頻文件,這些音頻文件因其信息量不豐富導致在訓練模型時學習率不足;b)在訓練過程中由于數據信息量較少,很容易出現對數據的過度擬合。

在UrbanSound8k數據集上對所提出的環境聲音分類模型進行訓練與評估。該數據集由8 732個共計7.3 h的音頻片段組成,每個音頻片段的最大持續時間為4 s,共10個類別,分別為空調聲(Ac)、汽車喇叭聲(Ch)、兒童玩耍聲(Cp)、狗吠聲(Db) 、鉆孔聲(Dr) 、發動機引擎聲(Ei)、槍聲(Gs)、手提鉆聲(Jh)、警報聲(Si)、街頭音樂聲(Sm)。圖5為等于4 s和小于4 s的音頻片段樣本個數分布圖。

該數據集為標準數據集,共10個分組,每個分組里的數據分類是打亂的。其中遠遠小于4 s的音頻片段由于沒有包含足夠多的信息,導致訓練的模型精確度不夠。以前的學者忽略其信息或只是在其后添加零元素,使其長度增加為4 s,但這并不會增加音頻片段的有用信息。因此,在Dong等人1的研究基礎上,本文采用音頻長度補償算法來彌補有用信息的缺失,具體的方法為:

a)對于小于2 s的音頻片段,復制整個音頻片段,并將其倒放,直到樣本長度達到4 s。復制的聲音最終在某個隨機點被截斷。式(10)為保留原始音頻序列,式(10)~(13)為具體算法。

b)對于大于2 s且小于4 s的音頻片段,隨機選取一個數據段,并將其倒放,使其一次達到4 s。式(14)(15)為具體算法。

c)對于大于或等于4 s的音頻片段,選取前4 s的序列。式(16)為具體算法。

以上截取點均為隨機截取,故此方法稱為隨機倒放填充法。X為原始音頻序列,Y為輸出音頻序列,Xlen為原始音頻序列長度,88 200為4 s音頻序列的長度,Xb:b+(·)作為其隨機補充元素,b1為(0,Xlen-88200%X0)中的一個隨機整數,b2為(0,2×Xlen-88200)中的一個隨機整數, φ(·)代表兩個序列的拼接,/代表求整商操作,%代表取余操作。

1.4 噪聲添加

由于目前大多數據集只提供干凈音頻樣本9,無法驗證模型的抗噪聲性能,所以本文采用NoiseX-92噪聲庫里的白噪聲,考慮不同信噪比下模型的抗噪聲性能。

將信噪比為50 dB、40 dB、30 dB、20 dB、10 dB的噪聲分別添加到增強后的UrbanSound8k數據集中,增強后的UrbanSound8k數據集均為4 s音頻片段,因此白噪聲也采用前4 s的噪聲片段。根據式(17)可求得加入噪聲的功率大小

Pnosie與比例系數k。n為噪聲序列幀的個數,采樣率為22 050,故n為88 200。

2 實驗與分析

2.1 數據集與實驗

本文模型在UrbanSound8k數據集上進行了驗證。所有聲音片段轉換為頻率為22 050 Hz的單聲道聲音文件。利用數據增強將所有樣本變為4 s的音頻片段,并采用鏡像對稱分幀方法將聲音片段分割成173幀,重疊率為75%。按照1.1節給出的特征,利用Python的librosa庫提取log_mel、chroma_stft、spectral_contrast、tonnetz、CQT特征,手動提取IMFCC和GFCC特征,將對應的融合特征輸入到所對應的網絡中。

對于每一個實驗,均使用Python中的PyTroch框架進行仿真,且均使用經過數據增強后的UrbanSound8k數據集,對所提模型進行十次交叉驗證。本文的主要貢獻是組合特征、2-DenseNet和四層CNN結構。因此,本文首先分析了組合特征訓練四種網絡的效率,其次探究了組合特征與網絡結構的適應性,將單分辨率單通道特征送入2-DenseNet網絡進行訓練,將多分辨率多通道特征送入四層CNN訓練。同時研究了卷積層數對基于兩種網絡結構的聲音分類系統性能的影響。此外,對特征融合方法的分類性能進行了分析,將log_mel、IMFCC、GFCC、chroma_stft、spectral_contrast、tonnetz六種特征拼接形成單分辨率單通道LMIMGFCST特征送入四層CNN中訓練。另外,對數據增強中的隨機填充和倒放以及D-S融合策略的效果分別進行了驗證。最后,驗證了模型的魯棒性,分別以信噪比為50 dB、40 dB、30 dB、20 dB、10 dB的NoiseX-92噪聲庫里的白噪聲加入到增強后的UrbanSound8k數據集中來進行實驗測試。

2.2 結果與分析

2.2.1 四種網絡結構的分類精度

為了驗證本文所提四種網絡結構的分類精度,使用增強后的UrbanSound8k數據集對LM-CS-CQT-DenseNet、IMF-GF-CS-CQT-DenseNet、LMCST-CNNet、IMGFCST-CNNet四種網絡結構分別進行分類精度測試。實驗結果如表1所示。

實驗結果表明:a)LMCST特征送入四層CNN中識別精度最高,可達93.81%,比最差模型的分類精度高出6.68%。

b)相比IMFCC和GFCC特征的融合,log_mel與其他特征組合訓練模型的性能要更優一些。通過結果分析,本文提出的四種網絡結構均具有較高的分類精度。LMCST-CNNet的分類精度最高,且CNNet訓練模型的時間更短。同時依據前人的研究成果,相比未組合特征,組合特征大大增強了有效特征的表征能力,比單特征具有更高的分類精度。因此,多特征融合是一種行之有效的方法。

2.2.2 組合特征與網絡結構的適應性

特征與網絡結構具有一定的適應性,并非所有的特征均適合某一網絡結構。本節通過實驗將單分辨率單通道特征送入2-DenseNet網絡中進行訓練,將多分辨率多通道特征送入四層CNN中訓練,與本文提出的LM-CS-CQT-DenseNet、IMF-GF-CS-CQT-DenseNet、LMCST-CNNet和IMGFCST-CNNet進行了對比驗證。實驗結果如表2所示。

實驗結果表明:

a)相比2.2.1節的模型,本節模型的分類精度均有所下降。相比LMCST-CNNet和IMGFCST-CNNet,LMCST-DenseNet和IMGFCST-DenseNet的分類精度下降最嚴重,分別下降10.02%和9.96%。究其原因,DenseNet的網絡結構相比單分辨率單通道特征較復雜,容易導致過擬合現象。

b)一個優秀的模型取決于特征組合和網絡結構的相輔相成。因此,本文所提LM-CS-CQT-DenseNet、IMF-GF-CS-CQT-DenseNet、LMCST-CNNet和IMGFCST-CNNet為最佳組合方案。

2.2.3 卷積層數對網絡結構的影響

根據前人的研究發現,并非卷積層數越深,訓練模型效果越好。因此,適合的卷積層數是訓練模型好壞的關鍵。本節針對兩種網絡結構分別作出了對比性實驗。對于2-DenseNet網絡,基于LM-CS-CQT特征,分別驗證了2、3、5個密集網絡塊對模型的性能影響。對于四層CNN,基于IMGFCST特征,驗證了4、6、8個卷積層對模型性能的影響。實驗結果如表3所示。

實驗結果表明:

a)對于具有不同卷積層的CNN結構,IMGFCST-CNNet的四層CNN模型的分類精度優于六層和八層的CNN模型,分別高出6.50%和11.81%。因此,針對IMGFCST特征,四層的CNN結構是最適合的。

b)對于具有不同密集塊的2-DenseNet結構,含有兩個密集塊的網絡優于三、五個密集塊的網絡結構,分別高出7.02%和10.91%。因此,針對LM-CS-CQT特征,含兩個密集塊的DenseNet是最適合的。

2.2.4 特征融合方法

特征融合同卷積層數類似,并非融合的特征個數越多,分類效果越好?;诖耍竟澩ㄟ^實驗找到最適合聲音分類的融合特征。針對單分辨率單通道特征,對特征融合方法的分類性能進行了分析。將log_mel、IMFCC、GFCC、chroma_stft、spectral_contrast、tonnetz六種特征進行了融合,形成LMIMGFCST新特征,進一步研究了不同特征組合對聲音分類任務的性能影響。LMIMGFCST特征的譜圖大小為(1,185,173)。表4給出了三種組合特征和D-S-Net2在各個聲音類別的分類精度以及十倍交叉驗證下的平均精度。

實驗結果表明:

a)LMCST和IMGFCST的組合特征具有良好的性能,其分類準確率分別達到93.81%和92.28%。在LMCST-CNNet中,車笛聲和槍聲的識別率分別達到99.23%和99.29%。在IMGFCST-CNNet中,手提鉆聲的識別率高達99.55%。該模型在針對特定聲音識別具有十分好的效果。

b)所有特征集的聚合LMIMGFCST在四種模型中表現最差,不僅降低了性能,而且使性能稍有惡化,分類精度僅88.44%,究其原因是由于特征冗余度過高,對聲音分類的效果產生負作用。而D-S-Net2表現最優,進一步證明了D-S理論融合方法的有效性。

2.2.5 數據增強前后對比

數據增強可以增加音頻樣本的有用信息,有效提高訓練模型的能力。基于此,本節對本文數據增強算法的效果進行實驗。針對隨機填充和倒放進行了對比性實驗。在不使用本文提出的隨機倒放填充法時,采用補0方法將音頻樣本變為4 s的統一長度,以滿足模型輸入的要求。表5給出了數據增強前后的對比分類精度。

實驗結果表明:a)隨機填充方法的識別精度相比未數據增強前提高了0.56%;b)隨機倒放填充法的識別精度相比未數據增強前提高了1.21%,而倒放操作使分類精度提高了0.65%。通過結果分析,本文提出的隨機倒放填充法有效地提高了模型的分類精度,而隨機填充和倒放均對模型分類精度的提升產生一定的影響。

2.2.6 D-S融合策略

本次實驗進行了三次D-S融合,將LM-CS-CQT-Net和IMF-GF-CS-CQT-Net進行融合作為D-S-Net1,將LMCST-Net和IMGFCST-Net進行融合作為D-S-Net2,將四種網絡融合作為最終D-S-Net融合模型。將網絡的softmax層的輸出概率通過D-S算法進行融合,即可得到融合模型。實驗結果如表6所示。

實驗結果表明:

a)相比未融合網絡,D-S融合有效提高了模型的分類精度。對于D-S-Net1,比LM-CS-CQT-Net和IMF-GF-CS-CQT-Net的分類精度分別提高了3.21%和5.51%。對于D-S-Net2,比LMCST-Net和IMGFCST-Net的分類精度分別提高了1.69%和3.22%。

b)D-S-Net的分類精度較D-S-Net1和D-S-Net2分別提高了3.72%和0.86%。本文選取四種網絡融合作為最終的網絡模型結構。

圖6為D-S-Net在測試集上的混淆矩陣。可以發現,空調聲、發動機引擎聲、手提鉆聲的分類精度高達100%。而狗吠聲和兒童玩耍聲的識別精度較低,可能的原因是本文所提的組合特征未能很好地表征其有效信息。

表7為本文方法與近幾年所提有效方法的對比結果,在UrbanSound8k數據集上的實驗結果表明了該方法的有效性,比最好的結果高出1.96%的分類精度。Dilated CNN結構存在固有的網格化缺陷,會丟失一些鄰域信息,同時過多的擴張卷積層會使訓練模型的整體結構不足。MGCC-CNN結構僅使用MFCC和GFCC兩種特征進行融合,在一定程度上增加了有用的信息,但尚不完全表征聲音信號,同時僅使用傳統的CNN模型,分類精度不高。FnetDNN結構僅使用MFCC和全局特征向量作為輸入,全局特征向量是通過求每幀的均值得到的,這無疑破壞了原始特征的結構,雖減少了特征維數,但造成了有用信息的缺失。本文提出的D-S-Net結構使用了更有效的特征表示,同時采用了多分辨率多通道特征彌補了音頻樣本對不同時間尺度的靈敏度,通過使用二階密集卷積網絡更好地訓練復雜特征,從而得到性能更好的模型,最后通過D-S融合算法,融合四種網絡結構的預測信息,得到最終結果。本文方法相比其他研究學者的方法,具有更高的分類精度。

2.2.7 模型魯棒性

判斷一個模型的優劣,不僅取決于分類精度,模型的抗噪聲性能也是必不可少的因素。本節將NoiseX-92噪聲庫里的白噪聲分別以信噪比為50 dB、40 dB、30 dB、20 dB、10 dB加入到增強后的UrbanSound8k數據集中來進行實驗測試。通過式(17)求得加入噪聲的比例系數k,實驗結果如表8所示。

實驗結果表明:

a)由于加入了不同的信噪比噪聲,導致各模型的分類精度有所下降。信噪比越低,分類精度越差。

b)與未經D-S融合的四種網絡相比,D-S-Net在噪聲環境下的分類精度更高。

c)在低信噪比下,D-S-Net模型具有很好的魯棒性,在20 dB信噪比下仍具有90.34%的識別率,比先前研究的平均精度提高20.69%,因此該模型可適應信噪比較差的環境。

3 結束語

本文提出了智能語音分類問題的D-S-Net模型,它由四個網絡塊組成,分別由LM-CS-CQT、IMF-GF-CS-CQT、LMCST和IMGFCST四種組合特征訓練四種網絡,其中LM-CS-CQT和IMF-GF-CS-CQT為多分辨率多通道特征,送入2-DenseNet網絡訓練,LMCST和IMGFCST為單分辨率單通道特征,送入四層CNN訓練。其中2-DenseNet被分成了兩個密集塊,每個密集塊共兩層,并通過添加過渡層降低輸入特征圖的數量,以提高計算效率,使用全局平均池化層替代全連接層,極大地減少了網絡的參數。然后,利用D-S證據理論對四個網絡的softmax層的輸出進行融合。另外,在特征提取方面,對MFCC特征進行了改進,使用離散小波變換代替了離散余弦變換,并提出數據增強方法——隨機倒放填充法來增強原始數據集,進一步提高了模型的性能。本文使用數據增強后的UrbanSound8k數據集測試了單個網絡與整個框架網絡的性能,并與近幾年發表的現有模型進行了比較,其最終模型獲得了96.36%的準確率,比基線提高了25.34%。同時,最主要的是該模型在低信噪比環境下極具優勢,適合聲音易受環境背景噪聲干擾的場景。然而,從圖6中可以發現,狗吠聲和兒童玩耍聲的識別率較低。其一可能是還未找到有效的特征來表示兩者聲音。其二是數據集的原因,兩者聲音中大多摻雜著其他聲音,有許多樣本并非單一聲源,但訓練網絡時是按照單一標簽進行學習的,因此,對于原始數據集的改進,也是今后的研究方向。

參考文獻:

[1]Dong Xifeng,Yin Bo,Cong Yanping,et al.Environment sound event classification with a two-stream convolutional neural network[J].Journal of IEEE Access,2020,8:125714-125721.

[2]Wang Jingyuan,Li Chao,Xiong Zhang,et al.Survey of data-centric smart city[J].Journal of Computer Research and Development,2014,51(2):239-259.

[3]何光林,陶斯倩,范紅波.基于噪聲特征的地震動信號目標預警和識別算法研究[J].北京理工大學學報,2014,34(1):64-67.(He Guanglin,Tao Siqian,Fan Hongbo.Research on target early warning and recognition algorithm of ground motion signal based on noise cha-racteristics[J].Journal of Beijing University of Technology,2014,34(1):64-67.)

[4]Salamon J,Jacoby C,Bello J P.A dataset and taxonomy for urban sound research[C]//Proc of the 22nd ACM International Conference on Multimedia.New York:ACM Press,2014:1041-1044.

[5]Mesaros A,Heittola T,Virtanen T.TUT database for acoustic scene classification and sound event detection[C]//Proc of the 24th European Signal Processing Conference.Piscataway,NJ:IEEE Press,2016:1128-1132.

[6]Wang Dezhi,Zhang Lilun,Xu Kele,et al.Acoustic scene classification based on dense convolutional networks incorporating multi-channel features[C]//Proc of the 3rd International Conference on Communication,Image and Signal Processing.2018:306-312.

[7]Su Yu,Zhang Ke,Wang Jingyu,et al.Environment sound classification using a two-stream CNN based on decision-level fusion[J].Journal of Sensors,2019,19(7):article No.1733.

[8]Huang Zilong,Liu Chen,Fei Hongbo,et al.Urban sound classification based on 2-order dense convolutional network using dual features[J].Journal of Applied Acoustics,2020,164:article ID 107243.

[9]Ye Jiaxing,Kobayashi T,Murakawa M.Urban sound event classification based on local and global features aggregation[J].Journal of Applied Acoustics,2016,117:246-256.

[10]Yang Shao,Wang Deliang.Robust speaker identification using auditory features and computational auditory scene analysis[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2008:1589-1592.

[11]Zhang Haomin,McLoughlin I,Song Yan.Robust sound event recognition using convolutional neural networks Brisban[C]//Proc of IEEE International Conference on Acoustics.Piscataway,NJ:IEEE Press,2015:559-563.

[12]張科,蘇雨,王靖宇,等.基于融合特征以及卷積神經網絡的環境聲音分類系統研究[J].西北工業大學學報,2020,38(1):162-169.(Zhang Ke,Su Yu,Wang Jingyu,et al.Research on environmental sound classification system based on fusion features and convolution neural network[J].Journal of Northwest University of Technology,2020,38(1):162-169.)

[13]曾金芳,黃費貞,白冰,等.基于耳蝸譜圖紋理特征的聲音事件識別[J].聲學技術,2020,39(1):69-75.(Zeng Jinfang,Huang Feizhen,Bai Bing,et al.Sound event recognition based on texture features of cochlear spectrum[J].Journal of Acoustic Technology,2020,39(1):69-75.)

[14]王熙,李應.多頻帶譜減法用于生態環境聲音分類[J].計算機工程與應用,2014,50(3):190-193.(Wang Xi,Li Ying.Multi bandspectral subtraction for eco-environmental sound classification[J].Journal of Computer Engineering and Application,2014,50(3):190-193.)

[15]Palaz D,Mathew M,Ronan C.Analysis of CNN-based speech recognition system using raw speech as input[C]//Proc of the 16th Annual Confe-rence of the International Speech Communication Association.2015:11-15.

[16]Mesaros A,Heittola T,Virtanen T.Acoustic scene classification:an overview of DCase 2017 challenge entries[C]//Proc of the 16th International Workshop on Acoustic Signal Enhancement.Piscataway,NJ:IEEE Press,2018:411-415.

[17]Cakir E,Parascandolo G,Heittola T,et al.Convolutional recurrent neural networks for polyphonic sound event detection[J].Journal of IEEE/ACM Trans on Audio Speech amp; Language Processing,2017,25(6):1291-1303.

[18]Adavanne S,Virtanen T.Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network[C]//Proc of Workshop on Detection and Classification of Acoustic Scenesand Events.2017.

[19]Alamir M.A novel acoustic scene classification model using the late fusion of convolutional neural networks and different ensemble classi-fiers[J].Applied Acoustics,2020,172(3):article ID 107829.

[20]Zhang Tao,Liang Jinhua,Ding Biyun.Acoustic scene classification using deep CNN with fine-resolution feature[J].Journal of Expert Systems with Applications,2019,143:article ID 113067.

[21]馮陳定,李少波,姚勇,等.基于改進卷積神經網絡與動態衰減學習率的環境聲音識別算法[J].科學技術與工程,2019,19(1):177-182.(Feng Chending,Li Shaobo,Yao Yong,et al.Ambient sound recognition algorithm based on improved convolutional neural network and dynamic attenuation learning rate[J].Journal of Science Technology and Engineering,2019,19(1):177-182.)

[22]Waldekar S,Saha G.Two-level fusion-based acoustic scene classification[J].Journal of Applied Acoustics,2020,170(5):article ID 107502.

[23]劉慧,李小霞,何宏森.基于多分辨率特征和時頻注意力的環境聲音分類[J].計算機應用研究,2021,38(12):3596-3573.(Liu Hui,Li Xiaoxia,He Hongsen.Ambient sound classification based on multi-resolution features and time-frequency attention[J].Application Research of Computers,2021,38(12) :3596-3573.)

[24]Piczak K J.Environmental sound classification with convolutional neural networks[C]//Proc of the 25th IEEE International Workshop on Machine Learning for Signal Processing.Piscataway,NJ:IEEE Press,2015:1-6.

[25]Shepard,Roger N.Circularity in judgments of relative pitch[J].Journal of the Acoustical Society of America,1964,36(12):2346-2353.

[26]Sch?rkhuber C,Klapuri A.Constant-Q transform toolbox for music processing[J].Journal of IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.

[27]Zhang Jixiang,Wu Chengqin,Ruan Chenzhao,et al.ECG signal classification based on fusion of hybrid CNN and wavelet features by D-S evidence theory[J].Journal of Healthcare Engineering,2021,2021:article ID 4222881.

[28]Piczak K.Environmental sound classification with convolutional neural networks[C]//Proc of the 25th International Workshop on Machine Learning for Signal Processing.Piscataway,NJ:IEEE Press,2015:1-6.

[29]Ye Jiaxing,Kobayashi T,Masahiro M.Urban sound event classification based on local and global features aggregation[J].Journal of Applied Acoustics,2017,117:246-256.

[30]Zhang Zhichao,Xu Shugong,Cao Shan,et al.Deep convolutional neural network with mixup for environmental sound classification[C]//Proc of Chinese Conference on Pattern Recognition and Computer Vision.Berlin:Springer,2018:356-367.

[31]Li Shaobo,Yao Yong,Hu Jie,et al.An ensemble stacked convolutional neural network model for environmental event sound recognition[J].Journal of Applied Sciences,2018,8(7):article No.1152.

[32]Chen Yan,Guo Qian,Liang Xinyan.Environmental sound classification with dilated convolutions[J].Journal of Applied Acoustics,2019,148:123-132.

[33]楊磊,趙紅東.基于輕量級深度神經網絡的環境聲音識別[J].計算機應用,2020,40(11):3172-3177.(Yang Lei,Zhao Hongdong.Ambient sound recognition based on lightweight deep neural network[J].Journal of Computer Applications,2020,40(11):3172-3177.)

主站蜘蛛池模板: 日韩福利在线观看| 国产在线视频欧美亚综合| 日本午夜精品一本在线观看| 亚洲色图欧美一区| 亚洲免费黄色网| 亚洲成人一区在线| 热伊人99re久久精品最新地| 亚洲色成人www在线观看| 午夜一区二区三区| 伊人无码视屏| 精品欧美日韩国产日漫一区不卡| 久久精品免费国产大片| 国产精品视频第一专区| 亚洲天堂久久| 国产H片无码不卡在线视频| 色吊丝av中文字幕| 国产在线麻豆波多野结衣| 91色在线观看| 99久久国产综合精品2023| 亚洲成a人在线播放www| 2020国产精品视频| 婷婷综合在线观看丁香| 日本精品影院| 成人免费一级片| 精品亚洲麻豆1区2区3区| 欧美日韩动态图| 亚洲综合片| 国产高清无码麻豆精品| 毛片一级在线| 国产成人精品一区二区秒拍1o| 久久久噜噜噜久久中文字幕色伊伊 | 91免费片| 波多野结衣第一页| 亚洲日韩精品综合在线一区二区| 国产在线观看成人91| 欧美午夜在线观看| 国产成人综合亚洲网址| 99久久精品久久久久久婷婷| 中文字幕在线永久在线视频2020| 美女高潮全身流白浆福利区| 久久人搡人人玩人妻精品一| 欧美性猛交xxxx乱大交极品| 一区二区影院| 91在线精品免费免费播放| 尤物特级无码毛片免费| 国产精品刺激对白在线| 欧美成人看片一区二区三区| 亚洲无线观看| 亚洲成在人线av品善网好看| 午夜a级毛片| 国产无人区一区二区三区| 午夜三级在线| 亚洲精品在线影院| 亚洲午夜国产精品无卡| 国产极品嫩模在线观看91| 人人澡人人爽欧美一区| 全部免费特黄特色大片视频| 欧美精品在线免费| 国产精品视频999| 日本91在线| 欧美成人综合视频| 欧美亚洲另类在线观看| 欧洲亚洲一区| 亚欧成人无码AV在线播放| 精品無碼一區在線觀看 | 欧美日韩中文国产va另类| 欧美啪啪精品| 久久国产高潮流白浆免费观看| 亚洲高清在线天堂精品| 亚洲AV永久无码精品古装片| 久久精品丝袜高跟鞋| 欧美色香蕉| 亚洲熟女中文字幕男人总站| 91久久国产成人免费观看| 久久99国产视频| 五月丁香在线视频| AV网站中文| 久久亚洲AⅤ无码精品午夜麻豆| 噜噜噜久久| 九九九国产| 久久人体视频| 熟女视频91|