基于耳蝸譜圖紋理特征的聲音事件識別

2020-03-23 09:25:18曾金芳黃費貞徐林濤

聲學技術 2020年1期

關鍵詞：特征

曾金芳，黃費貞，白冰，徐林濤

(湘潭大學物理與光電工程學院，湖南湘潭411105)

0 引言

聲音事件識別具有廣泛的應用領域，例如在安全監控[1]、音頻取證[2]、醫療診斷[3-4]、環境聲分類[5-7]、目標識別[8]等方面具有重要的意義。在早期的研究工作中，許多方法借鑒較為成熟的語音識別技術，并取得了豐富的成果[9-13]。Temko 等[9]利用梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient，MFCC)、信號短時能量、頻率濾波帶能量的混合特征，使用基于支持向量機(Support Vector Machine, SVM)的聚類方法，對16 種會議室聲音事件進行分類識別。Chu 等[10]將匹配追蹤(Matching Pursuit, MP)結合MFCC 的方法分析提取環境聲音特征，分別使用 k-最近鄰(k-Nearest Neighbor,KNN)和高斯混合模型(Gaussian Mixture Model,GMM)兩種分類器對環境聲進行識別，取得了較高的識別準確度。Guo 等[12]利用功率峰值瞬時頻譜和時域功率模式的一維組合作為多級感知器型神經網絡系統的輸入進行環境聲識別。Chu 等[13]通過線性預測編碼(Linear Predictive Coding, LPC)提取噪聲環境下的鳥類聲的有效特征。然而，這些特征往往僅單一地集中在時域或頻域中研究，忽略了時頻兩域的相關性。

在聲音的時頻域中，聲譜圖之類的表示方法[14-15]能夠很好地捕捉聲音的能量隨時間頻率的變化，其連通了聲音的時頻兩域，并且提供了非常豐富的視覺信息。當聲音信號被變換為類似圖像的二維(時間-頻率)數據的聲譜圖時，則可利用圖像特征探討聲音的時頻關系。許多研究方法將聲音的聲譜圖作為紋理圖像，并提取譜圖的圖像特征對聲音事件分類[16-17]。Dennis 等[17]通過短時傅里葉變換(Short Time Fourier Transform, STFT)生成聲音信號的聲譜圖，將其映射成單色圖像并分成固定塊，計算每個塊的中心矩，并將各中心矩連接構成頻譜圖像特征(Spectral Image Feature，SIF)。文獻[17]在文獻[16]的基礎上，提出了基于子帶功率分布(Sub-band Power Distribution，SPD)圖像作為一種新的二維圖像，使用與SIF 相同的方法從SPD 中提取圖像特征，使用KNN 的特征分類方法。

但是，聲譜圖不是自然圖像，而是將聲音信號通過時頻轉換，在時頻空間形成了廣義圖像，它表示不同時間、不同頻率下信號的能量分布。譜圖和自然圖像之間的差異在現有方法中尚未充分探索，因此，可以在這些方法的基礎上尋求新的方法捕捉譜圖的紋理信息。聲譜圖是一種連接時域和頻域的聲音能量隨時間頻率分布的可視化表達方式，通過將聲譜圖的時頻信息建模為圖像的像素點，利用圖像特征來研究聲音能量與時間、頻率之間的聯系。在各種方法生成的譜圖中，發現利用伽馬通(Gammatone)濾波器組生成的耳蝸譜圖[18]提供了比利用其他方法生成的譜圖更豐富的紋理信息。鑒于耳蝸譜圖獨特的圖像屬性，本文提出了一種耳蝸譜圖紋理特征的聲音事件識別方法。首先，將聲音信號通過Gammatone 濾波器組，導出原始聲音樣本的灰度耳蝸譜圖；其次，對譜圖進行曲波變換(Curvelet)變換，得到不同尺度、不同方向的Curvelet 子帶，采用改進完全局部二值模式(Improved Completed Local Binary Pattern, ICLBP)從Curvelet 子帶中提取紋理信息且用分塊統計直方圖作為特征，將各特征級聯作為一種新的聲音事件特征。最后，使用SVM 作為分類器對16 種聲音事件在不同噪聲及不同信噪比下進行識別。算法的總體流程框架如圖1 所示。

圖1 算法的流程框架圖Fig.1 Flow framework of the algorithm

1 預處理

1.1 耳蝸譜圖獲取

Gammatone 濾波器的脈沖響應是Gamma 分布函數與以特定頻率為中心的正弦曲線的乘積，其近似于人類耳蝸聽覺系統的響應[19]，其時域脈沖響應的典型表達式為

其中：A 是濾波器增益；α 是濾波器階數；通常取α =4；b 是衰減因子， b =1.019* BER( f )， BER( f )為濾波器的等效矩形帶寬(Equivalent Rectangular Bandwidth, ERB)。

濾波器的ERB 近似對應于人類聽覺系統中濾波器的臨界頻帶位置，其值為

式中，濾波器中心頻率f 的最低頻率 fmin= 50 Hz，最高頻率fmax由聲音信號的采樣頻率決定。這里采用一組64 個4 階Gammatone 濾波器，各濾波器的中心頻率按ERB 標度，從fmin到fmax之間等間隔分布，各頻帶濾波器疊加組成64 通道的Gammatone濾波器組。各濾波器中心頻率依次為： f2= 50.0 Hz,f2=69.8 Hz, ? ??, f64=20.6 kHz ，對應的ERB 依次為BER( f1)=30.1 Hz,BER( f2)=32.2 Hz,…,BER( f3)=2 245.7 Hz。

將原始的聲音樣本通過濾波器組并將輸出響應表示成耳蝸譜圖G( f , t )。為確保不同聲音片段的相對音量均衡，通過式(3)將聲譜圖歸一化為[0,1]范圍內以獲得灰度耳蝸譜圖。

圖2 是一段歸一化之后的嬰兒哭聲的STFT 灰度聲譜圖和灰度耳蝸譜圖。通過對比可以看出，耳蝸譜圖具有比STFT 聲譜圖更清晰的分辨效果，聲音的高頻分量更加明顯，能更好地反映聲音能量隨時間、頻率的分布。

1.2 Curvelet 變換

Curvelet 變換考慮了尺度、角度、位置信息，使其在表達圖像中的曲線時明顯優于小波變換。同時，Curvelet 變換克服了小波變換的局限性，具有比小波變換更寬的幾何特征。Curvelet 變換之后得到的系數具有多尺度、多方向特點，能夠更好地凸顯圖像像素間的變化。考慮到耳蝸譜圖表征聲音信息的有限性，而Curvelet 變換的多尺度分析能力，將譜圖分解為不同尺度層，各尺度層分別表示譜圖不同頻率的信息。這樣，可以獲取關于譜圖的更多細節信息。

圖2 嬰兒哭聲的STFT 聲譜圖和耳蝸譜圖Fig.2 STFT spectrogram and cochleagram of baby crying

設f ( m, n) 表示圖像信號，則其基于Wrapping的離散Curvelet 變換可表示為

式中：φj,l,k1,k2(m , n)表示Curvelet 基函數；參數j 表示Curvelet 函數的尺度；參數l 表示Curvelet 函數的方向；參數( k1, k2)表示空間位置。

將從聲音信號中提取的灰度耳蝸譜圖進行Curvelet 分解，分解為不同尺度、不同方向的Curvelet 子帶，各尺度分別表示譜圖的不同頻率信息。對于尺度j，隨著j 的增大，尺度由最佳向最粗變化，此時空域或時域分辨率增加，而頻域分辨率減小。方向l 的取值必須是4 的整數倍。經試驗，

當j= 4、l= 8時，實驗中取得最好的識別效果。

2 改進的ICLBP 特征

2.1 完全局部二值模式

由于聲譜圖是聲音信號的時間頻率特性的圖形表達，因此許多圖像處理的方法也可以應用于聲音事件識別中。在局部二值模式(Local Binary Pattern,LBP)的基礎上，Guo 等[20]提出了一種新的圖像紋理特征描述符-完全局部二值模式(Completed Local Binary Pattern, CLBP)。CLBP 的局部紋理描述子可分為符號模式(CLBP Sign, CLBP_S)，記為SCLBP，以及幅度模式(CLBP Magnitude, CLBP_M)記為MCLBP。與LBP 相比，CLBP 對圖像的單調變化具有魯棒性，因為它保留了LBP 對圖像中心像素與鄰域像素的相對強度進行編碼的方法來提取圖像的差值符號特征CLBP_S。此外，它還將鄰域像素的相對強度進行編碼作為圖像的差值幅度特征CLBP_M。SCLBP和MCLBP的計算方法分別為

式(5)～(8)中：SCLBP,P,R稱作差值符號模式；MCLBP,P,R稱作差值幅度模式；gp是周邊領域上規則間隔的像素的灰度值；gc是中心像素的灰度值；P 是周邊鄰域像素的個數；R 表示gp與gc之間的距離；c 表示閾值，通常取mp和的均值。

2.2 改進的CLBP_M

CLBP 與傳統LBP 相比，盡管提取的圖像信息更為豐富，但 CLBP 是傳統 LBP(CLBP_S)與CLBP_M 的組合，如果直接使用CLBP 的編碼方式提取圖像的特征，則所提取的特征維數也相應增加，且通常高維的數據特征不僅對識別結果產生不利影響，反而會減慢后續的識別速度。為了避免提取的特征維數過高，本文對CLBP_M 進行改進，改進的CLBP_M(ICLBP_M)為

ICLBP_M 的編碼方式是將中心對稱的兩幅度差值相減后再與閾值比較。為使閾值c1保持原閾值c 的性質且適合改進的CLBP_M，c1的選取為

這樣，經過ICLBP_M 編碼后，編碼圖像的灰度級由原來的0～2P減少到0～2P /2。

考慮到數據特征維數及編碼圖像中起主要作用的CLBP_S 碼只占少數部分，因此，使用式(11)的均勻CLBP_S(Uniform CLBP Sign, UCLBP_S)編碼方式，記為MUCLBP：

式中：P 是周邊鄰域像素的個數；R 表示gp與gc之間的距離。經式(11)處理后，編碼圖像的灰度級由2P減少到 P( P?1 ) + 3。

對得到的UCLBP_S 編碼圖像和ICLBP_M 編碼圖像進行分塊，并從每塊中采用式(12)分別提取UCLBP_S 和ICLBP_M 統計直方圖，以捕獲每塊圖像的局部紋理信息。

其中：

由于聲音信號隨時間變化很大，所以，編碼圖像不容易沿著時間軸劃分。因此，對編碼圖像沿著頻率軸劃分，使得提取的統計直方圖不隨時間變化。并將每塊的統計直方圖特征級聯起來作為聲音事件的最終的特征描述符。

3 實驗與分析

3.1 ICLBP_M 聲音識別算法流程

(1) 預處理：將聲音信號分為訓練樣本和測試樣本，樣本的幀長設置為25 ms，幀移設置為10 ms，采用64 通道Gammatone 濾波器組，濾波器階數設置為4。將聲音信號通過Gammatone 濾波器組以獲得耳蝸譜圖，采用式(3)將譜圖歸一化后量化為0～255 灰度級的灰度圖像。對耳蝸譜圖進行尺寸歸一化，尺寸歸一化后的圖像大小為64×64。隨后，將灰度耳蝸譜圖進行Curvelet 分解，得到多尺度、多方向的Curvelet 子帶。當尺度j=4、方向l=8 時，Gammatone 灰度圖像經Curvelet 分解得到各尺度各方向的Curvelet 子帶個數為26，其中第1 尺度的方向數為1，第2、3 尺度設定的方向數分別為8、16，第4 尺度的方向數為1。

(2) 特征提?。簩urvelet 子帶進行UCLBP_S和ICLBP_M 編碼，獲取UCLBP_S 和ICLBP_M編碼圖像，并分別將編碼圖像沿頻率軸均勻地不重疊劃分為7 塊，提取每塊編碼圖像的統計直方圖特征，將各統計直方圖特征級聯，作為聲音事件最終的特征描述符UCLBP_S/ICLBP_M，用于分類識別?？紤]到特征向量維數，實驗中鄰域個數P=8，半徑R=1，這樣，對于單個聲音樣本，提取的UCLBP_S 特征和ICLBP_M 特征的維數分別為 10 738 維和 2 912 維，最終級聯特征UCLBP_S/ICLBP_M 的維數為13 650 維。

(3) 分類識別：提取的UCLBP_S/ICLBP_M 特征使用SVM 分類器，對16 種聲音事件進行識別。SVM 是建立在統計學習理論基礎上的結構風險最小化的近似實現，它的思想是通過建立一個分類超平面作為決策曲面，使得正例和反例之間的隔離邊緣被最大化[21]。實驗中SVM 使用的是LIBSVM 工具箱，核函數采用線性核函數，使用“一對一”的分類策略，通過粒子群優化算法得到最佳懲罰因子c=1.02、核參數g=0.01，迭代次數為200 次。

3.2 參數設置

MFCC 方法：使用32 通道Mel 濾波器組，提取每幀13 維離散余弦變換系數及一階、二階導數組成39 維特征。各幀的特征級聯組成MFCC 特征的維數為7 722 維。

OMP+MFCC 方法：稀疏度設置為20，從重建聲音中提取MFCC 特征，然后形成OMP+MFCC 的復合特征，維數為7 722 維。

SIF 方法：將STFT 頻譜圖映射為單色圖像，劃分為9×9 塊，然后計算每個塊的二階和三階中心矩以形成特征向量。將各塊的特征向量級聯形成486 維的特征向量。

SPD 方法：將子帶功率分布圖劃分為9×9 塊，然后逐塊提取二階和三階中心矩作為特征，維數為486 維。

3.3 聲音樣本

實驗中所用到的環境聲音數據均從http://www.freesound.org 網站下載[22]，總共包括16類聲音事件，每類聲音事件20 個樣本，具體如表1所示。所有聲音均采用量化精度為16 位、采樣率為44.1 kHz 的單通道“.wav”格式，聲音樣本長度為2 s。為了保證實驗的真實性，每類聲音樣本均無重復，且聲音的訓練樣本和測試樣本均無重復。從每類樣本中隨機選取10 個純凈樣本作為訓練樣本，剩余10 個樣本添加不同噪聲作為測試樣本。實驗時在純凈聲音中加入信噪比分別為0、5、10、20 dB的4 種噪聲。用到的噪聲均來源于NOISEX-92 噪聲庫，分別為factory 噪聲、babble 噪聲、volvo 噪聲、white 噪聲。

表1 聲音事件樣本集Table 1 Sample set of sound events

3.4 仿真實驗及分析

3.4.1 無噪聲條件下不同特征比較

在無噪聲環境中，把UCLBP_S/ICLBP_M 特征與SPD、OMP+MFCC、MFCC 和CLBP_S_M 共5種特征進行對比。對5 種聲音特征分別進行SVM 訓練與識別。訓練樣本和測試樣本的抽取方法以及后續實驗樣本抽取均與3.3 節相同。由于訓練樣本和測試樣本都是隨機抽取的，所以，為避免在識別時某次的識別率出現過高或過低的情況，對每種特征分別進行100 次識別實驗，取平均值作為最終識別率。在無噪聲環境下，不同特征的識別結果如表2所示。

表2 無噪聲環境下不同特征識別結果對比Table 2 Comparison of recognition results with different features in a noise-free environment

由表2 可知，SIF 特征識別率偏低，其他5 種特征提取方法對環境聲音的識別率均達到90%以上。其中，UCLBP_S/ICLBP_M、CLBP_S_M 特征對環境聲音事件識別率達到98.43%和97.61%。UCLBP_S/ICLBP_M 與 CLBP_S_M 特征相比，識別率相差不大，但CLBP_M 特征的維數為256 維，而改進的ICLBP_M 特征的維數為16 維，ICLBP_M特征的維數與CLBP_M 特征的維數相比降低了93.7%，且 UCLBP_S/ICLBP_M 特征的維數與CLBP_S_M 特征的維數相比降低了76.2%。

3.4.2 不同噪聲、不同信噪比條件下不同特征比較由于UCLBP_S/ICLBP_M 和 CLBP_S_M 特征的識別效果接近，所以后續只給出UCLBP_S/ICLBP_M 和其他4 種特征的識別效果對比。為測試所提方法對噪聲的魯棒性，隨機選取10個測試樣本，分別添加0、5、10、20 dB 信噪比的4 種噪聲以模擬真實的環境噪聲，分別對提取的UCLBP_S/ICLBP_M、SPD、SIF、OMP+MFCC、MFCC 5 種特征進行識別，結果如圖3 所示。

從圖3 可以看出，不同噪聲環境不同信噪比條件下5 種特征的識別率差異明顯。相比起來，MFCC特征在不同信噪比條件下識別率最低，且隨著噪聲的增大，MFCC 特征的識別率急劇下降，說明MFCC特征易受噪聲影響，不利于噪聲環境下的聲音事件識別。OMP+MFCC 特征在不同信噪比條件下的識別率稍高于MFCC 特征的識別率，但同樣受噪聲干擾嚴重，效果也不理想。不同信噪比條件下的UCLBP_S/ICLBP_M、SPD、SIF 3 種特征的識別率明顯高于MFCC、OMP+MFCC 特征。在白噪聲環境下，UCLBP_S/ICLBP_M、SPD 特征識別率明顯高于SIF 特征，說明白噪聲對SIF 特征識別率影響較大。在各噪聲環境下，UCLBP_S/ICLBP_M 特征的識別率明顯高于SIF 特征，也優于SPD 特征。當信噪比為10 dB 時，UCLBP_S/ICLBP_M 特征的識別率已接近純凈聲音環境的識別率。

圖4 表示在干擾為babble 噪聲、信噪比為0 dB時，使用UCLBP_S/ICLBP_M 特征得到16 類測試樣本某次的混淆矩陣。從圖4 中可以算出在0 dB babble 噪聲環境下，16 類聲音事件的識別率為77.50%，圖中坐標數字從小到大依次對應表1 中16類環境聲音。從圖4 可以看出，在0 dB babble 噪聲環境下，2-腳步聲、4-玻璃破碎聲、11-槍聲易被檢測錯誤。其中第2 類分別有5 個和4 個測試樣本被誤判為第5 類和第9 類，第4 類分別有2 個和7 個測試樣本被誤判為第15 類和第16 類，第11 類測試樣本全都被誤判為第15 類。在0 dB babble 噪聲環境下，槍聲被誤判為咳嗽聲的可能原因是，babble噪聲的頻率范圍主要集中在低頻段，疊加0 dB babble 噪聲后，低信噪比下，槍聲和咳嗽聲的低頻區域基本被噪聲覆蓋，而兩者的高頻部分的譜圖相似度又接近，從而可能會造成提取的特征十分相近或相等。由于babble 噪聲對咳嗽聲的影響較小，對槍聲的破壞性較大，所以容易造成槍聲被誤判為咳嗽聲。

圖3 5 種特征在4 種噪聲4 種信噪比環境下的識別率Fig.3 Recognition rate of five features in four kinds of noises and four different SNRs

圖4 信噪比為0 時，babble 噪聲測試樣本的混淆矩陣Fig.4 Confusion matrix of the test samples of babble noise under signal to noise ratio is 0

表3 5 種特征在4 種噪聲環境下的平均識別率Table 3 Average recognition rate of five features in four kinds of noises

同時，表3 給出了4 種噪聲環境條件下，UCLBP_S/ICLBP_M 特征與SPD 等其他4 種特征在不同信噪比下的平均識別率。從表3 可知，當信噪比為0 時，UCLBP_S/ICLBP_M 特征的平均識別率達到80%，依然能夠保持較高的識別率。且在4 種信噪比下的平均識別率達到92.03%，比SPD 特征、SIF 特征、OMP+MFCC 特征、MFCC 特征分別高出6.06%、18.04%、40.49%、46.98%。從表3 中的各特征對比說明，UCLBP_S/ICLBP_M 特征是一個性能較好的特征，在不同噪聲環境及不同信噪比條件下，仍然能取得較好的識別結果，具有較優的魯棒性。這是因為Curvelet 變換可以更好表示譜圖中出現的邊緣和其他變化，獲取譜圖中更多的細節信息。此外，使用UCLBP_S 和ICLBP_M 提取特征，串聯得到融合的UCLBP_S/ICLBP_M 特征，降低了特征維數，減少了特征冗余，從而使提取的特征更具有鑒別性。

4 結論

實驗結果表明，本文在Curvelet 子帶上提取UCLBP_S/ICLBP_M 特征，用來表示耳蝸譜圖的紋理特征，能有效識別各種噪聲環境下不同信噪比的聲音事件。在不同噪聲及不同信噪比下，本文方法與現有聲音事件的SPD、SIF 等特征結合SVM 進行比較，可體現本文方法對各噪聲環境下不同信噪比條件下聲音事件的識別率具有一定優勢。下一步工作將繼續采用基于譜圖等方法，研究分析噪聲環境更為復雜的聲音事件，提取較低的特征維數，提高低信噪比條件下聲音事件的識別性能。