呂軍輝
兩種改進的譜減降噪處理算法對比分析
呂軍輝
廣西藝術學院, 廣西 南寧 530022
降噪處理是提高語音通信質量的有效手段,能夠降低噪音所帶來的影響。采用傳統譜減法增強含噪音的語音信號之后,盡管可以較為明顯地消除噪音,而且能夠提升信噪比,但是效果依然有限。本文提出傳統譜減算法中的噪音零均值為高斯分布的假設,對非零項估算法和調節參數法這兩種典型的改進算法進行了實驗分析。實驗結果表明:兩種典型的改進算法都能夠更好地控制噪音,其中非零項估算法信噪比的提升幅度更大,尤其當信噪比處于較低水平時,有更加明顯的增強效果。
譜減法; 降噪處理; 對比
噪音是影響語音通信質量的一大因素,尤其在使用語音處理系統時,過多的噪音會降低系統性能[1]。而降噪處理則是為了提升語音的質量,盡最大程度消除噪音所帶來的影響,使語音的可辨度有明顯提高。降噪處理常用的算法主要有兩種:一是以發聲模型為基礎的算法,二是以估算語音幅度譜為基礎的算法[2]。近些年來,也有少數新算法出現,例如小波變換算法等。以估算語音幅度譜為基礎的降噪處理算法,一直以來都是研究熱點,其中譜減法是該算法里面使用最為廣泛的一種,優勢在于運算量不大,計算時間很短[3]。但譜減法也有部分問題存在,會對降噪處理效果造成較大的影響。相關學者對降噪處理算法改進研究成果大量出現,例如譜減算法中的調節參數法、非零項估算法[4-6]。本文以這兩種改進算法為對比,得出降噪處理的最佳方式。
傳統譜減法的實現前提需要做一個假設,即時間短的平穩語音信號和加性噪音是獨立的,兩者互不干涉。在此情況下,將帶有噪音的語音信號量減去噪音信號量,得出趨向于純凈的語音頻譜。
設()是純凈的語音信號量,()是噪音信號量,()是帶有噪音的語音信號量,關系式如下:
()=()+() (1)
對以上三種信號進行傅里葉變換,分別用()表示(),()表示(),()表示(),則得出下式:
()=()+() (2)
進而得出:
|()|2=|()|2+|()|2+2Re[()*()] (3)
根據上式得出:
(|()|2)=(|()|2)+(|()|2+2{Re[()*()]} (4)
由于()和()都是獨立的,所以()和()也是獨立的,而且()服從零均值高斯分布,因此{Re[()*()]}=0,下式成立:
(|()|2)=(|()|2)+(|()|2(5)
對于單幀短時平穩,下式成立:
|()|2=|()|2+|()|2(6)
因為發聲前后的時間段內,平穩噪音功率譜一般不會有變化,噪音功率譜|()|2可利用發聲之前的寂靜時間段進行估算,因此有:
|()|2=|()|2-|()|2(7)
原始語音估算值用下式計算:
|()|=[|()|2-|()|2]1/2(8)
上式采用分幀計算,若有負值出現,可用0替換。由于分幀會有截斷效應產生,為避免這種情況,可以對進行加窗處理。人耳一般很難感觸到相位的變化,用原來帶噪音的語音信號相位取代估算出來的語音信號相位,由此得出降噪處理之后的語音信號。傳統譜減法基本原理如圖1所示。

圖1 傳統譜減法基本原理圖
在實際應用中,傳統譜減法使用通常會有一定的改進,使算法更加貼近實際需求。以下是兩種較為典型的改進算法:非零項估算法、調節參數法。
在式(4)中,只有假設噪音是零均值的高斯分布,{Re[()*()]}=0才會成立。但實際上噪音通常不會這樣分布,有的并不是零均值,有的也不是高斯分布。出于這種考慮,非零項估算法成為一種不忽略非零項的典型算法,計算步驟如下:
Re[()*()]=|()||()|cos(θ-θ) (9)
式中()=|()|exp(jθ),()=|()|exp(jθ),因此下式成立:
{Re[()*()]}={|()||()|}cos(θ-θ) (10)
若|()|、|()|與cos(θ-θ)互相獨立,以下等式成立:
{Re[()*()]}=(|()||()|)[cos(θ-θ)] (11)
因為(2)≥[()]2成立,所以下面公式也成立:(|()|)=[(|()|2)]1/2和(|()|)=[(|()|2)]1/2。
在上式中,≥0,≤1,所以式(11)可以用下式表示:
{Re[()*()]}=[cos(θ-θ)][(|()|2|()|2)]1/2=[(|()|2|()|2)]1/2(12)
在上式中,設=[cos(θ-θ)],所以0≤≤1,則式(4)可以用下式表示:
(|()|2)=(|()|2)+(|()|2)+2[(|()|2|()|2)]1/2(13)
對于單幀的短時間平穩,有:
|()|2=|()|2+|()|2+2[|()|2|()|2]1/2(14)
根據上式得出:
|()|2=|()|2-(1-22)|()|2-2[|()|2|()|2-(1-22)|()|4]1/2(15)
首先利用發聲之前的寂靜時間段對噪音()的功率譜|()|2進行估計,然后通過原來帶噪音的語音信號()求出功率譜|()|2,可以取[0,1]間的某一個值,按照式(15)得到|()|2,進而求出原始的語音信號估算值,最終得到噪音降低之后的信號。
調節參數法是一種典型的譜減降噪改進算法,公式如下:|()|=[|()|-|()|]1/α(16)

實驗對語音增強前和增強后的信噪比進行計算,驗證非零項估算法的有效性。在實驗中,正常語音和噪音的信號采樣標準用8 kHz,量化則用16 bit,在安靜環境下錄制純凈的語音材料,噪音則選取NOISEX數據庫內的戰斗機噪音,根據一定比例把正常語音和噪音信號進行線性相加,形成五種各不相同的信噪比,分別是:-15 dB、-10 dB、-5 dB、0 dB、5 dB。通過漢明窗分幀含噪音的語音,每一個幀的采樣點為512個,幀與幀之間的采樣點疊加成128個。在不同信噪比環境下,分別使用傳統譜減法和非零項估算法增強語音,取0.4與0.7,實驗結果見表1。

表1 非零項估算法實驗的結果統計
從表1結果可以看出,當使用傳統譜減法對語音進行增強,信噪比有一定幅度提高,并削弱了部分噪音。采用非零項估算法對語音進行增強,相對于傳統法來說,則能夠更好地控制噪音,信噪比的提升幅度更大,尤其當信噪比處于較低水平時,有更加明顯的增強效果。當取0.4時,語音增強效果要比0.7好。因此這一參數對語音增強效果的改善極為重要,可以按照實驗結果進行確定。
為驗證調節參數法的有效性能,本實驗使用與非零項估算法實驗相同的純凈語音,在該語音中疊加高斯白噪音,得出的結果見圖2。在該結果中,取值2,取值1.5,橫軸代表采樣點的數目,縱軸代表歸一化的幅度。根據實驗結果,調節參數法對噪音的控制效果最好。

圖2 調節參數法實驗結果的波形圖
用傳統譜減法增強含噪音的語音信號之后,盡管可以消除一定程度的噪音,而且能夠提升信噪比,但是效果依然有限。本文提出一個假設,即傳統譜減算法中的噪音零均值為高斯分布,對兩種典型的改進算法進行了實驗研究,分別是非零項估算法和調節參數法。根據實驗結果,非零項估算法能夠更好地控制噪音,信噪比的提升幅度更大,尤其當信噪比處于較低水平時,有更加明顯的增強效果。調節參數法也能很好地控制噪音,但是對于效果影響并非很大,且取2值的時候,有較為明顯的物理意義,因此相關研究基本將值定為2。
[1] Kang TG, Shin JW, Kim NS.DNN-based monaural speech enhancement with temporal and spectral variations equalization[J].Digital Signal Processing, 2018,74(8):102-110
[2] Bhowmick A, Chandra M. Speech enhancement using voiced speech probability based wavelet decomposition[J]. Computers and Electrical Engineering, 2017,62(6):706-718
[3] Wood SUN, Rouat J, Dupont S,. Blind Speech Separation and Enhancement With GCC-NMF[J].IEEE/ACM transactions on audio, speech, and language processing, 2017,25(4):745-755
[4] Mossa E.Security enhancement for AES encrypted speech in communications[J].Journal of speech technology, 2017,20(1):163-169
[5] Upadhyay A, Pachori RB. Speech enhancement based on mEMD-VMD method[J].Electronics Letters, 2017,53(7):502-504
[6] Kandagatla R, Subbaiah PV. Speech enhancement using MMSE estimation under phase uncertainty[J]. Journal of speech technology, 2017,20(2):373-385
Comparison and Analysis of Two Improved Spectral Noise Reduction Processing Algorithms
LV Jun-hui
530022,
Noise reduction is an effective means to improve the quality of voice communication, which can reduce the impact of noise. After using the traditional spectral subtraction method to enhance the speech signal with noise, although the noise can be eliminated obviously and the signal-to-noise ratio can be improved, the effect is still limited. In this paper, the hypothesis that the zero mean value of noise in traditional spectral subtraction algorithm is Gauss distribution is proposed. Two typical improved algorithms, non-zero estimation method and adjusting parameter method, are experimentally analyzed. The experimental results show that the two typical improved algorithms can better control the noise, and the non-zero estimation method has a larger increase in the signal-to-noise ratio, especially when the signal-to-noise ratio is at a low level, it has a more obvious enhancement effect.
Spectral subtraction; noise reduction; comparison
TP301.6
A
1000-2324(2019)05-0849-03
10.3969/j.issn.1000-2324.2019.05.024
2018-06-28
2018-09-12
廣西高等學校學位與研究生教育改革項目:創新應用型作曲專業研究生的培養模式研究(JGY2017089)
呂軍輝(1972-),男,本科,副教授,主要研究方向為信號系統應用. E-mail:229325328@qq.com