張文濤 瑩瑩 黎恒
摘 要: 針對公路交通聲音事件識別中傳統語音算法識別效率低、魯棒性差的問題,提出一種基于卷積神經網絡的交通聲音事件識別方法。首先通過Gammatone濾波器對聲音數字信號進行子帶濾波,得到音頻信號耳蝸譜圖,然后將其代入卷積神經網絡模型對聲音事件類型進行識別。利用上述方法對公路交通環境下的四種音頻事件做了檢測處理,并與經典的隱馬爾科夫模型和目前廣泛使用的深層神經網絡進行比較。實驗結果表明,使用卷積神經網絡模型能夠更加準確地對交通聲音事件進行識別,且在噪聲環境下具有更好的魯棒性。
關鍵詞: Gammatone濾波器; 卷積神經網絡; 音頻事件識別; 公路交通環境; 聲音數字信號; 子帶濾波
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2018)14?0070?04
Traffic sound event recognition method based on convolutional neural network
ZHANG Wentao1,2, HAN Yingying1,2,3, LI Heng3
(1. School of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China;
2. Key Laboratory of Optoelectronic Information Processing, Guilin 541004, China; 3. Guangxi Transportation Research Institute, Nanning 530000, China)
Abstract: In allusion to the problems of low recognition rate and poor robustness of the traditional acoustic algorithm in road traffic sound event recognition, a traffic sound event recognition method based on convolutional neural network is proposed. The sub?band filtering of sound digital signals is performed by using the Gammatone filter, so as to obtain the cochleogram of audio signals, which is then substituted into the convolutional neural network model for recognition of the sound event type. Four audio events in road traffic environment are detected by using the above method, and the results are compared with those of the classic hidden Markov model and deep neural network widely used at present. The experimental results show that the convolutional neural network model can recognize the traffic sound event more accurately, and has better robustness in noisy environment.
Keywords: Gammatone filter; convolutional neural network; audio event recognition; road traffic environment; sound digital signal; sub?band filtering
0 引 言
隨著我國交通事業高速發展,對道路監控和信息處理分析提出了更高的要求。目前,國內外道路交通事件檢測技術主要以視頻為手段,依賴于視頻采集的質量,技術難度大,生產成本高且受環境因素影響大。聲音是人類信息的重要來源,而且其方便采集,檢測范圍廣。聲音事件識別已應用于環境安全監控、場景分析、證據提取、聲源定位和突發事件檢測等領域,且發揮著重要作用。
目前,對于聲音事件識別一些學者已經做出一些研究[1?3]。McLoughlin等提出基于聲譜圖的前端特征并結合支持向量機(Support Vector Machine,SVM)[1]和深度神經網絡(Deep Neural Network,DNN)對聲音事件進行分類。Kucukbay等提出使用梅爾頻率倒譜系數(Mel?Frequency Cepstral Coefficients,MFCC)[2]和SVM分類器結合5?折交叉驗證方法識別辦公環境中的16種聲音。Diment等提出基于隱馬爾科夫模型(Hidden Markov Model,HMM)的聲音事件檢測系統[3],對辦公環境下的聲學場景和事件進行分類檢測。
以上研究在聲音事件識別中都取得了一定成效。但傳統的SVM算法在大規模訓練樣本和多分類問題上難以實現。DNN模型又存在參數數量膨脹、學習時間過長等問題。且在真實的公路交通環境中存在復雜多變的噪聲,公路隧道中甚至出現聲音反射和回響,對聲音事件識別產生較大干擾。因此針對公路交通環境需要找出一種新的識別方法。Ossama等人首次將卷積神經網絡(Convolutional Neural Network,CNN)應用于語音識別中[4],與DNN模型相比識別率取得明顯改善。本文將卷積神經網絡應用于公路交通聲音事件識別。針對擁堵、事故等公路事件,利用卷積神經網絡對車輛碰撞聲、汽車鳴笛、人員呼救和車門關閉四種聲音進行分類,從而判斷發生的對應事件。
1 基于Gammatone濾波器的耳蝸譜圖提取
人耳可以準確地對公路交通環境聲音事件進行判斷。在人類聽覺系統中,聲音信號經過耳蝸基底膜的頻帶分解作用后,沿聽覺通路進入大腦聽覺中樞神經系統。耳蝸譜圖特征仿照人耳感知聲音的過程,是常用的時頻二維圖像特征表示方法。本文使用Gammatone濾波器組來模擬耳蝸模型,實現子帶濾波,最終得到耳蝸譜圖。Gammatone濾波器是一個標準的耳蝸聽覺濾波器,其時域脈沖響應為[5]:
[g(f,t)=Atn-1e-2πbtcos(2πft+φ)U(t), t≥0] (1)
式中:[A]為濾波器增益;[i]表示第[i]個濾波器;[f]為中心頻率;[φ]為相位,本文取[φi=0];[n]為濾波器階數;[b]是衰減因子,該因子決定相應的濾波器的帶寬[b=1.019ERB(f)],[ERB(f)]是等效矩形帶寬,它與中心頻率[f]的關系為:
[ERB(f)=24.7(4.37f100+1)] (2)
本文采用一組64個4階Gammatone濾波器,其中心頻率在350~4 000 Hz之間。Gammatone濾波器會保留原有的采樣率,因此在時間維度上設置響應頻率為 100 Hz,將產生10 ms的幀移,可用于短時聲音特征提取。當聲音信號通過Gammatone濾波器時,輸出信號的響應[Gm(i)]的表達式如下:
[Gm(i)= g(i,m)]12,i=0,1,2,…,N;m=0,1,2,…,M-1] (3)
式中:[N]為通道數;[M]為采樣后的幀數。
[Gm(i)]構成代表輸入聲音信號頻域上分布變化的矩陣,本文采用耳蝸譜圖來描述信號頻域分布變化。與語譜圖相比,耳蝸譜圖的物理意義更明確,具有更高的低頻分辨率,因此在聲音識別領域更具應用價值[6]。綜上所述,本文采用耳蝸譜作為樣本進行神經網絡模型的訓練與測試。
2 卷積神經網絡
卷積神經網絡[7]最初由Yann LeCun等人提出,應用于簡單的手寫字符識別,逐漸擴展到人臉檢測[8]、動作識別[9]和標志識別[10]等領域。近幾年,卷積神經網絡作為具有優秀深度學習能力的深層網絡結構,被應用于聲音識別領域。
卷積神經網絡是一種多層神經網絡,數據以特征圖的形式輸入網絡,然后依次進行卷積與池化處理,具體過程在相應的卷積層與池化層完成,層與層之間采用局部連接和權值共享的方式。
在卷積層中,輸入的特征圖被一個可學習的卷積核進行卷積。卷積操作公式如下:
[xlk=fi∈Wkxl-1i?Hli,k+blk] (4)
式中:[xlk]代表[l]層的第[k]個特征圖;[Wk]代表[l-1]層的第[k]個特征圖;[Hli,k]表示第[l]層第[i]個特征圖的第[k]個卷積核;[blk]為偏置項;[f]是激活函數;“[?]”代表卷積符號。激活函數一般采用 relu,tanh等飽和非線性函數。所有的輸入特征圖經卷積操作后輸出一定數量的新特征圖。新特征圖的數量由卷積層中卷積濾波器數目決定。
經卷積層后得到的新特征圖進入池化層進行池化操作。一方面使特征圖變小,簡化網絡計算復雜度;另一方面進行特征壓縮,提取主要特征。池化層的一般形式如下:
[xlk=f(βlkdown(xl-1k)+blk)] (5)
式中:[down(·)]代表池化層;[xlk]代表[l]層的第[k]個特征圖;[βlk]與[blk]為偏置項。如果分割成若干個a×a的區域,那輸出圖片的尺寸在不同維度上都是輸入圖片的[1n]。
3 實驗與分析
3.1 實驗性能評價指標
根據CLEAR 2007測評[11],本文使用三個指標評估所提出的方法:準確率(Precision Rate,P)、召回率(Recall Rate,R)和F?值(F?Measure,F)。準確率表明方法的查準率,召回率表明方法的查全率,F?值為準確率和召回率的調和平均值,計算公式分別為:
[P=te, R=tg, F=2PRP+R] (6)
式中:t表示正確檢測的聲音事件數;e表示輸出的聲音事件總數;g表示標注的聲音事件總數。
3.2 實驗數據采集
本實驗在真實公路交通環境下,使用模擬聲級計配合麥克風陣列,分別在20 dB,10 dB,0 dB三種信噪比下對音頻數據進行采集,采樣頻率為8 kHz。表1中總結了每種事件類別的統計數據,共有86 400段,每種聲音片段長度為1~3 s。
按照第1節中提到的方法提取耳蝸譜。抽取每種聲音耳蝸譜中的[34]作為訓練集,剩下的[14]為測試集。并對每種聲音的種類進行標注。本文將撞車聲、汽車鳴笛、人員呼救和車門關閉四種音頻信號作為目標聲音事件,因為這些聲音事件的出現一般意味著發生交通事故或擁堵。其余兩種聲音事件作為干擾聲。
3.3 卷積神經網絡模型建立
為了研究基于卷積神經的交通聲音事件識別模型性能,首先需要建立卷積神經網絡。卷積神經網絡結構確定的過程包括建立模型、訓練模型和測試模型三部分。實驗使用Matlab的Parallel Computing Toolbox工具箱和 Neural Network Toolbox工具箱創建和訓練卷積神經網絡。基于Pascal GP104核心的NVIDIA GTX1080搭建訓練平臺,使用GPU陣列進行計算。
圖1所示為基于卷積神經網絡的聲音事件識別流程圖,包括訓練過程與測試過程。訓練過程中,利用隨機分布函數對卷積核和權重進行隨機初始化,而對偏置進行全0初始化。為了加快訓練過程則使用標準的梯度下降算法調整權值與閾值。
通過網絡前向傳播和反向傳播反復交叉處理的方式來訓練卷積神經網絡,直到代價函數小于0.01為止。
3.4 基于CNN的交通聲音事件識別方法
本文針對公路交通環境下聲音信號的特殊性,選取網絡結構如圖2所示,包含2個卷積層、2個池化層、2個歸一化層和3個全連接層。
1) 輸入層。本文將耳蝸譜圖作為特征圖輸入。輸入之前先對耳蝸譜圖進行預處理,預處理過程包括平滑和裁剪,把耳蝸譜圖處理成32×32的圖像。
2) 卷積層。卷積層為特征提取層。均使用3×3的卷積核對輸入圖像進行卷積,C1卷積核個數為10,卷積移動步長為1,為保證充分提取耳蝸譜圖的特征,激活函數使用tanh函數。
3) 池化層。卷積層后加入池化層可降低體征維數,避免過擬合。本文采用最大池化方式,池化域大小均為2×2。
4) 歸一化層。在下一個卷積層前加入歸一化層,對局部做減和除歸一化,迫使相鄰特征進行局部競爭。保證性能的穩定性,并提取耳蝸譜的低階和高階統計特征。
5) 輸出層。通過Softmax回歸算法將特征映射到目標的四個分類。Softmax是Logistic回歸在多分類問題上的推廣。在Softmax回歸函數中[y=j]的概率為:
[p(y=jx;θ)=eθTjxl=1keθTjx] (7)
式中:[θ]表示全部的模型參數;[x]為輸入;[y]為輸出;[j]代表類別。
3.5 實驗結果對比與分析
將20 dB,10 dB,0 dB三種不同信噪比下的實驗樣本分別代入第3.4節確定CNN模型進行訓練與測試實驗,并與經典HMM模型[12]和目前得到廣泛應用的DNN模型進行對比。實驗結果如表2~表4所示。
從3個表中可以看出,在3種不同信噪比情況下,對于車輛碰撞聲、汽車鳴笛、人員呼救和車門關閉四種聲音識別,CNN模型與DNN模型的指標均明顯高于HMM模型,且CNN模型的識別率可達到99.3%,召回率可達100%。信噪比發生變化時,CNN模型的平均F?值相比其他兩種模型所受影響最小。在0 dB的情況下,識別率突破90%。由此可以得出,相比于其他兩種模型,卷積神經網絡模型可以更加準確地對公路交通環境下的聲音事件進行識別且魯棒性更好。
4 結 論
本文將卷積神經網絡應用到公路交通環境聲音識別中。先將聲音信號經Gammatone濾波器轉化為耳蝸譜圖,后把耳蝸譜圖輸入卷積神經網絡進行分類識別。并與經典隱馬爾科夫模型和廣泛使用的深層神經網絡進行了對比,基于卷積神經網絡的方法在識別性與魯棒性上有明顯提高。在后續研究中,將繼續優化卷積神經網絡結構,進一步對混合聲音事件進行識別。
參考文獻
[1] MCLOUGHLIN I, ZHANG H, XIE Z, et al. Robust sound event classification using deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(3): 540?552.
[2] KUCUKBAY S E, SERT M. Audio?based event detection in office live environments using optimized MFCC?SVM approach [C]// Proceedings of IEEE International Conference on Semantic Computing. Anaheim: IEEE, 2015: 475?480.
[3] DIMENT A, HEITTOLA T, VIRTANEN T. Sound event detection for office live and office synthetic AASP challenge [J/OL]. [2013?12?01]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.706.807&rep;=rep1&type;=pdf.
[4] ABDEL?HAMID O, MOHAMED A, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NN?HMM model for speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4277?4280.
[5] LU B, DIBAZAR A, BERGER T W. Noise?robust acoustic signature recognition using nonlinear Hebbian learning [J]. Neural networks, 2010, 23(10): 1252?1263.
[6] TJANDRA A, SAKTI S, NEUBIG G, et al. Combination of two?dimensional cochleogram and spectrogram features for deep learning?based ASR [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane: IEEE, 2015: 4525?4529.
[7] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4): 541?551.
[8] 汪濟民,陸建峰.基于卷積神經網絡的人臉性別識別[J].現代電子技術,2015,38(7):81?84.
WANG Jimin, LU Jianfeng. Face gender recognition based on convolutional neural network [J]. Modern electronics technique, 2015, 38(7): 81?84.
[9] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.
[10] 黃琳,張尤賽.應用深層卷積神經網絡的交通標志識別[J].現代電子技術,2015,38(13):101?106.
HUANG Lin,ZHANG Yousai. Traffic signs recognition applying with deep?layer convolution neural network [J]. Modern electronics technique,2015, 38(13): 101?106.
[11] TEMKO A, NADEU C, MACHO D, et al. Acoustic event detection and classification [M]// WAIBEL A, STIEFELHAGEN R. Computers in the human interaction loop. Berlin: Springer, 2009: 61?73.
[12] TEMKO A, MALKIN R, ZIEGER C, et al. CLEAR evaluation of acoustic event detection and classification systems [C]// Proceedings of the 1st international evaluation conference on classification of events, activities and relationships. Berlin: Springer, 2006: 311?322.