孫博凱
(哈爾濱理工大學 測控技術與通信工程學院,黑龍江 哈爾濱150080)
譜減法的目的在于將語音短時譜進行估計,事先假設噪聲統計平穩,噪聲的幅度譜值在有語音時段和無語音時段的數學期望值都是相等的。根據語音信號和加性噪聲是相互獨立互不相關這一特性,把有語音時段噪聲幅度值替換成無語音時段的噪聲幅度譜估計值,然后再和帶有噪語音幅度譜值相減,可以估計出語音幅度譜值,后與帶有噪聲的語音相位一并進行傅里葉反變換,最終計算出增強后的語音信號。學者提出了許多關于譜減法的改進方法[1-4],比如在聽覺掩蔽效應和AR-HMM模型的基礎上對譜減法進行改進,這些改進算法能在很大程度上抑制“音樂噪聲”。傳統的譜減算法必須假定語音信號和噪聲信號是統計互不相關的,表明即使在無語期間,噪聲也一樣會影響全部頻帶,噪聲頻譜在實際應用中分布是不規則的,噪聲能量也會互不相同的表現在頻域上。
傳統譜減法基本原理如圖1所示。

圖1 傳統譜減法基本原理Fig.1 Basic block diagram of the conventional spectral subtraction
假定y(n)、s(n)和d(n)分別為第n個取樣點帶噪語音的離散信號、原始純凈語音的離散信號和加性噪聲的離散信號,給定純凈語音信號與噪聲信號是在相互獨立的情況下,則帶噪語音信號為 :

y(n)、s(n)和d(n)加窗處理后各自用yw(n),sw(s)dw(n),來表示,有yw(m)=sw(m)+dw(m), 對其兩邊作傅里葉變換,整理得:

則有帶噪語音信號的功率譜為:

式(3)中:(ω)——Dw(ω)的復共軛函數;(ω)——Sw(ω)的復共軛函數;——語音短時的功率譜。Yw(ω)的 DFT 為


式中,λd(k)——無語時段噪聲Dw(ω)的統計平均值。

噪聲在某一段隨機時間內是平穩的,可以近似認為噪聲在產生前和產生期間的功率譜相等,于是噪聲的估計值可以根據產生前的無語音的幀來獲得。估值可能導致這個差值為負,但功率譜只能取正。于是采用半波整流和全波整流兩種方法。利用半波整流方法處理時,對幅度為正的保持不變,非正的部分為0。對應的表達式:

式(6)是從功率譜角度考慮的,如果從幅度譜角度出發時,幅度譜減為:

半波整流幅度譜減輸入和輸出幅度譜關系特性如圖2所示。

圖2 輸入和輸出幅度譜關系Fig.2 Input and output amplitude spectrum relationship
此方法目的在于對帶有噪聲語音信號幅度譜進行過門限處理,其門限值設定為噪聲均值λd(k)的值,除了那些幅值小于門限值的那些信號,達到了提高語音信號質量的目的。
由于人耳的感知特性對信號相位感知還達不到靈敏的程度,于是把增強后信號的估計值(ω)的相位等同于帶噪語音相位得:

利用全波整流法時,幅度為正的值不變,其他部分取絕對值,表達式為:

余下的處理和半波整流法相同。
傳統譜減法的優勢在于其設計簡單,便于計算,能夠明顯的提高語音信號質量,其不足是處理后的語音信號帶有明顯的“音樂噪聲”,耳聽起來就像流水聲并帶有節奏起伏。“音樂噪聲”的產生會對語音信號一定的負面影響,如對信號的抑制和損傷,同時,對人耳對語音感知的舒適度也會產生影響[5-6]。
噪聲的頻譜特征的表現形式為它是成高斯分布的,幅值變化范圍寬,利用傳統譜減法處理語音時殘留“音樂噪聲”的一個根本原因,會使語音信號出現負值,如果把非正的值都處理為0,致使頻譜上形成尖峰,即產生“音樂噪聲”。這種噪聲每幀在隨機的頻率內出現尖峰的集中表現,有可能對語音信號的抑制作用強于未被處理過的噪聲,更加令人反感,它的產生是傳統譜減法不可避免的,只能減弱,以提高語音的舒適度。
改進算法的原理是將帶噪的語音信號按照頻率劃分成不同的頻帶,并使這些頻帶之間互不交疊,而后根據頻帶內帶有噪聲的語音信號和噪聲的信噪比,選取自適應算法計算得出這個頻帶的過減因子。
帶噪語音在多帶譜減算法語音增強時的功率譜表示為:

bk——第k個頻帶的頻率起點;
bk+1——第k個頻帶的頻率終點;
ak——第k個頻帶過減因子。
ak的值由第k個頻帶的分段帶有噪聲的語音信號與噪聲信號信噪比SNRk來確定,如下式:

式中,SNRk——第k個頻帶信噪比,由下式計算得到:

式中,δk——噪聲過減因子,可調節各個頻帶的噪聲抑制度并且通過它的取值可以觀察出信號能量的分布特點。
Kamath實驗中得出結論:δk的值是常數由下式確定:

式中:fk——第k個頻帶的頻率上限峰值;Fs——采樣頻率。
語音信號能量大多出現在低頻段,為了減少語音失真,我們可以在上面找個一個較小的值,當取到這個值的時候語音的失真程度最低,保證語音清晰度維持在一個理想的水平,同樣的在高頻段也可以找到適當的值并結合人耳感知特性去除在該頻段出現的噪聲。


式(16)內的頻譜乘系數b通常等于0.002。
利用MATLAB軟件來仿真多帶譜減算法進行語音增強實驗,仿真實驗選取一段在實驗室安靜條件下采集的男聲十個阿拉伯數字 (1-10)的標準漢語發音。各自加入選自NoiseX92標準噪聲庫中的白噪聲和粉紅噪聲,噪聲與語音信號的都經過16 kHz的采樣,512點分幀,幀移為256點,實驗是在不同的信噪比條件下進行的,下面開始介紹有代表性仿真實驗的結果。
仿真實驗通過波形圖和語譜圖進行增強效果對比的方式來進行,前者能夠更為直接的觀察增強效果。后者能集中顯示和語音語句特性相關的信息,這樣就具備頻譜圖和波形圖各自的優點。利用語譜圖上得到的信息就可以觀察出噪聲殘留的結構以及時域和頻域的分布特性,功率的大小和語譜圖上的顏色有關,顏色越深代表功率越大,相反顏色越淺代表功率越小。
圖3(c)是信噪比為0的加入白噪聲的帶噪語音,通過傳統譜減法和改進的譜減法對其進行語音增強,實驗結果的波形圖見圖 3(e)、圖 3(g)和語譜圖見圖 3(f)、圖 3(h),從波形圖見圖3(e)可以看到新算法進行語音增強后語音質量明顯提高,表示為殘留的噪聲大量減少。圖3(f)中的離散的點狀紋,是“音樂噪聲”在語譜圖上的表現形式。帶噪語音在進過改進譜減算法增強后,點狀紋明顯減少即“音樂噪聲”明顯減少。
白噪聲的功率譜密度是均勻的分布在整個頻帶上的,它是理想噪聲的一種,在實際應用環境中,我們遇到的噪聲大多為有色噪聲,故在實驗中我們加入粉紅噪聲,比白噪聲更貼進真實環境。圖4中的仿真實驗是通過傳統譜減法和多頻帶譜減法分別處理受到粉紅噪聲干擾的帶噪語音,其信噪比為0,在波形圖和語譜圖的對比下,觀察到多頻帶譜減算法的語音增強效果仍然比傳統譜減法好。

圖3 白噪聲下語音增強實驗(SNR=0)Fig.3 Speech enhancement experiments under white noised (SNR=0)
將多頻帶分解方法應用于傳統譜減語音增強算法,將帶有噪聲的語音信號、估計的噪聲信號按不同頻率上劃分成為不同的頻帶,使這些頻帶之間互不交疊,根據每個頻帶內的分段帶噪語音信號與噪聲信號的信噪比,用自適應算法計算出這個頻帶過減因子,以提升增強語音的性能,能夠更有效的抑制產生殘留的“音樂噪聲”,語音信號的可讀性也有所上升。利用MATLAB實驗仿真驗證了多帶譜減法的增強效果優于傳統譜減法,其表現為在增強過后的語音信號中殘留的“音樂噪聲”明顯降低,較大程度得提升了語音信號的質量。

圖4 粉紅噪聲下語音增強實驗(SNR=0)Fig.4 Speech enhancement experiments under pink noise (SNR=0)
[1]李媛,鐵勇,那順烏力吉,等.基于擴展譜減法的語音增強算法及實現[J].內蒙古大學學報:自然科學版,2008,39(1):97-101.
LI Yuan,TIE Yong,Na-shun-wu-li-ji,et al.Algorithm and realization ofspeech enhancementbased on extended spectral substraction[J].Journal of Inner Mongolia University:Natural Science Edition,2008,39(1):97-101.
[2]錢國清,趙鶴鳴.基于改進譜減算法的語音增強新方法[J].計算機工程與應用,2005, 35(5):42-43.
QIAN Guo-qing,ZHAO He-ming.New speech enhancement algorithm based on the improved spectral subtraction[J].Computer Engineering and Applications,2005,35(5):42-43.
[3]暢通.語音增強算法的研究與實現[D].西安:西安電子科技大學,2007.
[4]常大曉,李萬玉,董介春.基于擴展譜減法語音增強系統的DSP實現 [J].青島大學學報工程技術版,2005,20(4):61-64.
CHANG Da-xiao,LI Wan-yu,DONG Jie-chun.Implementing a speech enhancement system with ESS on DSP[J].Journal of Qingdao University Engineering&Technology Edition,2005,20(4):61-64.
[5]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Trans on Speech and Audio Processing,2001,9(5):504-512.
[6]孟靜.語音增強算法性能的評價研究[D].蘭州:蘭州交通大學,2010.
[7]Jax P,Vary P.Artificial bandwidth extension of speech signals using MMSE estimation based on a hidden Markov model[J].IEEE International Conference on Aeeousties,Speech and Sigllal Proeessing,2003(1):680-683.