摘 要: 為提高低信噪比環境下語音端點檢測的準確率,提出了一種基于Mel倒譜參數相似度和譜熵的端點檢測算法。首先,提取語音幀的的Mel頻率倒譜參數,將前十幀聲信號作為背景噪聲,然后計算每一幀語音和噪聲MFCC的相關系數距離,結合MFCC相似距離與譜熵做綜合判決。實驗結果表明,在低信噪比環境下此方法相對譜熵法能夠提高檢測準確率。
關鍵詞: 語音信號處理; 端點檢測; Mel頻率倒譜參數; 相關系數; 譜熵
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)21?0067?03
0 引 言
端點檢測算法一直是語音信號處理的一個研究熱點,準確的端點檢測可以提高語音識別的準確率,用于語音增強則可以準確地更新噪聲譜。傳統的端點檢測算法采用短時能量、過零率和自相關系數等方法,在低信噪比條件下性能下降明顯。許多新的端點檢測方法相繼被提出,如在語音端點檢測中應用希爾伯特變換[1]、基于譜熵的端點檢測[2]、基于高階統計量的特征[3]等等,然而以上方法在強噪聲環境下仍然不夠理想。Mel倒譜系數能較好地構造人的聽覺模型,譜熵有較好的檢測效果。本文通過對兩種特征綜合加權得到一個表現更穩健的新特征,該方法能在多種噪聲環境下得到較好的效果,提高了譜熵法在低信噪比環境下檢測的準確率。
1 算法描述
1.1 MFCC相似度計算
人耳對低頻信號感知靈敏,對高頻信號則感知模糊,不同頻率范圍內的語音信號會引起人耳基礎膜不同位置的振動[4]。MFCC通過構造帶通濾波器組來模仿人耳的聽覺特性,減少噪聲對語音的干擾。
在提取MFCC特征參數之前,對聲信號做預加重、加窗、分幀等預處理[5]。定義一個有[M]個三角帶通濾波器的濾波器組,將預處理后的頻譜能量乘以三角帶通濾波器,得到每個濾波器的輸出能量:
式中:[Xa(k)]為信號的傅里葉變換;[Hm(k)]為三角帶通濾波器的頻率響應。將每個三角濾波器的輸出[S(m)]取對數,從而得到相應頻帶的對數功率譜。對得到的對數功率譜做DCT變換,得到MFCC[6]:
相似度是用來測量兩個對象之間相似程度的,本文采用了相關系數距離來測度MFCC參數的相似度。假定聲信號前10幀為背景噪聲,求前10幀MFCC參數的平均值,得到背景噪聲的MFCC參數近似初始值。為使當前參數能實時追蹤背景噪聲,對背景噪聲的MFCC參數按下列公式更新[6]:
式中:[C]為前10幀背景噪聲的MFCC均值;[α]為加權因子;[Cn]為當前幀的MFCC參數。求每一幀MFCC參數[Cn]與[Cnoise]的相似距離[d(Cn,Cnoise)],得到MFCC相關系數距離曲線。按下式求解相關系數距離:
1.2 譜熵特征計算
語音抽樣頻率為8 kHz,對語音分幀和加窗,幀長為32 ms,按幀間50%的重疊進行256點的FFT變換[7]。語音的能量主要集中在250~3 500 Hz,將該頻譜范圍內的信號分為13個子帶,根據子帶信噪比的不同調整其在整個譜熵計算中的權值[8]。每個子帶的能量為:
[Si=(GkR2k)] (5)
式中:[Rk]為對應子帶的傅里葉變換的第[k]個幅度值,[Gk]為加權因子,[Gk]的估計公式為[9]:
1.3 兩種特征聯合檢測
熵在信息論中表示信息的有序程度,語音信號的有序程度遠高于噪聲的有序程度[10]。Mel頻率模擬了人耳的聽覺特性,提取語音和噪聲的MFCC并利用它們的相關系數距離進行端點檢測,可以在低信噪比環境下較好地區分語音段和非語音段。這兩種特征冗余度低,本文對兩種特征值分別賦予權重構造出一個新的特征,利用新的特征值進行端點檢測。
當信噪比低于-5 dB時,MFCC相似度檢測方法準確率高于譜熵法,為了獲得盡可能高的準確率,在信噪比低于-5 dB時賦予MFCC相似度特征更高的權值。本文通過計算當前幀各子帶先驗信噪比的和來估計當前幀的信噪比,定義如下:
[SnrSumi=j=1nξ(j)] (11)
基于MFCC相似度與譜熵的新特征定義如下:
[Ti=(4+20/SnrSumi)di+Hi,SnrSumi≤204di+Hi,SnrSumi>20] (12)
2 實驗結果與分析
實驗選用了兩類噪聲,一類是選自NOISEX?92噪聲庫的白噪聲、坦克噪聲,另一類噪聲由短波接收機采集得到,合成的帶噪語音信號信噪比為-10~10 dB。將端點檢測函數的判決結果與源文件進行比較,計算判決的準確率。其中,錯誤幀數等于語音錯判為噪聲的幀數加上噪聲錯判為語音的幀數,準確率為判斷準確的幀數占總幀數的百分比。
圖1中,實線表示一段語音的開始,虛線為該段語音的結尾。(a)為純凈語音,(b)為帶噪語音,(c)為新特征的檢測結果,(d)為譜熵端點檢測結果,(e)為MFCC相似度端點檢測結果。從圖(d)看出,譜熵法未檢測出圖(a)中第5、8、9、12段語音;從圖(e)看出,MFCC相似度未檢測出圖(a)中第4段語音;從圖(c)可以看出本文提出的方法可以得到更高的準確率,漏檢最少。
圖2給出的是在信噪比為-5 dB時短波信道噪聲下,三種算法的檢測效果。由人耳辨別語音并在圖(a)中標示出語音段的位置。隨著信噪比的提高,MFCC相似距離相對譜熵法檢測的準確率有所下降,但二者聯合得到的新特征仍具有較高的準確率。
MFCC相似距離算法性能比較結果
由圖3可以看出,在-10~-5 dB之間,在坦克噪聲、白噪聲及短波信道噪聲下,與譜熵法比較,算法性能有了改善,在0 dB以上所提算法與譜熵法性能接近。當信噪比降低至-5 dB以下時,譜熵法的漏檢逐漸增多,MFCC相似度距離檢測準確率較高。本文所選取的Mel倒譜特征是識別語音有效的特征,與譜熵法進行聯合判決時能得到更高的檢測率,表現出比單純使用譜熵法更好的性能。
3 結 論
本文提出了一種基于MFCC和譜熵的端點檢測算法。Mel頻率很好地模擬了人耳的聽覺特性,提取出的語音和噪聲的MFCC相似度距離可以很好地識別語音段和非語音段,與譜熵法聯合使用時可以得到更高的檢測率。實驗結果表明,該算法性能良好,改善了譜熵法在低信噪比下的表現。
參考文獻
[1] 劉伯森,盧志茂.基于希爾伯特-黃變換的低信噪比語音端點檢測[J].吉林大學學報:工學版,2011,41(3):844?848.
[2] 李曄,張仁志,崔慧娟,等.低信噪比下基于譜熵的語音端點檢測算法[J].清華大學學報:自然科學版,2005,45(10):1397?1400.
[3] NUMER E, GOUBRAN R, MAHMOUND S. Robust voice activity detection using higher?order Statistics in the LPC residual domain [J]. IEEE Transaction on Speech and Audio Processing, 2001, 9(3): 217?231.
[4] 王讓定,柴佩琪.語音倒譜特征的研究[J].計算機工程,2003,29(13):31?33.
[5] 余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設計,2009,30(5):1189?1191.
[6] 王宏志,徐玉超,李美靜.基于Mel頻率倒譜參數相似度的語音端點檢測算法[J].吉林大學學報:工學版,2012,42(5):1331?1335.
[7] 程塨,郭雷,趙天云,等.非平穩噪聲環境下的語音增強算法[J].西北工業大學學報,2010,28(5):664?668.
[8] 王琳,李成榮.一種基于自適應譜熵的端點檢測改進方法[J].計算機仿真,2010,27(12):373?375.
[9] COHEN I, BARUCH B. Speech enhancement for non?stationary noise environments [J]. IEEE Signal Processing,2001, 81(11): 2403?2418.
[10] 徐大為,吳邊,趙建偉,等.一種噪聲環境下的實時語音端點檢測算法[J].計算機工程與應用,2003,24(1):115?117.