蔡文堅,王輔忠,張慧春,盧歡歡
(天津工業大學 理學院,天津 300387)
譜減法對噪聲的估計值存在不可避免的誤差,從而使輸出的語音信號伴隨有“音樂噪聲”。另外譜減法使用含噪語音信號的相位譜代替噪聲信號的相位譜,也嚴重影響了語音信號的輸出質量。近年來,研究人員多次對譜減法進行改進[1-3],但在低信噪比環境下,經譜減法輸出的語音信號質量仍沒有太大改善。
Benzi等提出隨機共振的概念用以解釋冰川周期古氣象問題。近年來隨機共振在信號噪聲處理方面的應用得到了迅速的發展,成為人們在該領域研究的熱點之一。與將噪聲從含噪信號中分離的常見噪聲處理方法不同,隨機共振方法能夠利用噪聲能量來放大微弱信號[4],從而在低信噪比情況下有效提高信號質量。
為了提高在低信噪比環境下輸出語音的質量,本文提出了一種基于隨機共振理論與譜減法的復合型語音增強方法。首先對含噪語音信號進行二次采樣[5,6]隨機共振預處理,將強噪聲的部分能量轉移到語音信號上,再將經預處理的語音信號進行增益平均[7,8]譜減處理。通過模擬仿真實驗,計算并對比復合方法與譜減法降噪處理后語音信號的信噪比增益以及感知語音質量評估測度。
1.1 雙穩態隨機共振理論
非線性雙穩隨機共振系統可以由郎之萬方程進行描述
(1)

(2)

將輸入的微弱信號s(t)與噪聲信號n(t)通過非線性雙穩系統V(x),三者間發生隨機共振現象,產生協同效應,使噪聲的一部分能量轉移到微弱語音信號。
譜減法是當前使用最廣泛的語音增強算法,用y(n)表示待處理的含噪語音輸入信號,其由純凈語音信號x(n)以及加性噪聲d(n)兩部分組成
y(n)=x(n)+d(n)
(3)
對式(3)兩邊同時做離散傅里葉變換可得
Y(ω)=X(ω)+D(ω)
(4)
Y(ω)和D(ω)分別可以表示為
Y(ω)=|Y(ω)|ejφy(ω),D(ω)=|D(ω)|ejφd(ω)
(5)
其中,|Y(ω)|,φy(ω)分別表示含噪語音信號功率譜和相位譜,|D(ω)|,φd(ω)分別表示噪聲信號的功率譜和相位譜。譜減法利用含噪語音無話段信號的平均功率譜來近似估計噪聲信號的功率譜|D(ω)|,然后將這個估計值從含噪信號的功率譜中減去,獲得輸出語音信號的功率譜。另外將噪聲的相位譜φd(ω)用含噪語音信號的相位譜φy(ω)代替,從而得到純凈語音信號譜的估計
(6)

對于隨機共振模型,信噪比是最重要的測度指標之一。為了更客觀地評價輸出語音的質量,往往采用分段信噪比對語音信號的質量進行評估。因此實驗將利用信噪比對隨機共振預處理進行自適應調試,采用分段信噪比、分段信噪比增益及感知語音質量評估(PESQ)[10]等測度數據作為語音質量的主要分析指標。其中分段信噪比的定義為
(7)
式中:N為幀長(設置為15 ms-20 ms),M是信號中的幀數。另外分段信噪比增益的定義如下
SNRIseg=SNRseg-out-SNRseg-in
(8)
式中:SNRseg-out為輸出信噪比,SNRseg-in為輸入信噪比,SNRIseg較SNRseg而言可以更直觀得表現語音增強系統的提升效果。
而主觀聽音測試與感知語音質量評估測度的相關度較高(ρ>0.92),因此實驗將以分段信噪比與感知語音質量評估得分為主要的性能評估指標[12]。
2.2 仿真實驗模型
仿真實驗模型如圖1所示。

圖1 系統模型框架
由于語音信號的頻率較高(0.3 kHz-3.4 kHz),不滿足絕熱近似條件,無法發生隨機共振現象。因此實驗先對含噪語音信號進行二次采樣,設置二次采樣頻率線性壓縮比R=3200,將語音信號頻率壓縮至0 Hz-1 Hz,從而滿足絕熱近似理論;再利用Runge-Kutta方法求解郎之萬方程,并設置系統參數a、b搜索范圍為[0,5],自適應尋優步長為0.02,以隨機共振系統輸出信噪比為衡量指標[11],進行自適應隨機共振預處理,獲取最佳隨機共振輸出效果。

(9)
其中,減法因子k=0.7,i對應語音分析幀的編號。隨后對增益函數進行時域平滑處理以減小波動。
最后對下式使用傅里葉逆變換得到增強后的輸出語音信號
(10)
仿真測試實驗選用的純凈語音樣本來自文獻[7]提供的公共數據庫,比特率和采樣頻率分別為128 kbps和8000 Hz的純凈語音信號,所需高斯白噪聲來自NOISEX-92標準噪聲數據庫。
仿真實驗測試了多組純凈語音樣本,以初始信噪比為-10 dB的“語音樣本1”為例進行分析。對語音樣本1進行二次采樣,并輸出其時域波形圖和頻域幅值譜,如圖2(a)和圖2(b)所示。將高斯白噪聲疊加至二次采樣后的語音信號上,獲得初始信噪比為-10 dB的含噪語音信號,并輸出含噪信號的時域波形圖和頻域幅值譜,如圖2(c)與圖2(d)所示。在時域上純凈語音被強噪聲徹底淹沒,無法觀察出其原有的純凈語音波形,且在整個頻域內均存在噪聲信號能量,而語音信號的能量主要集中在低頻域。

圖2 純凈語音及含噪語音的時域波形圖和頻域幅值譜
利用譜減語音增強系統與隨機共振-譜減法結合的復合語音增強系統分別處理含噪語音信號,并將處理后的時域波形圖與頻域幅值譜歸一化輸出如圖3、圖4所示。

圖3 譜減系統輸出語音的時域波形圖和頻域幅值譜

圖4 復合系統輸出語音的時域波形圖和頻域幅值譜
當初始信噪比為-10 dB時,對比圖3(a)、圖4(a)的時域波形圖發現,通過復合系統的輸出波形則更易觀察出純凈語音的大致波形輪廓。對比圖3(b)、圖4(b)的輸出頻域幅值譜發現,經譜減語音增強系統處理后的輸出信號高頻區噪聲能量依舊很大,而經復合系統處理后,高頻噪聲能量被轉移到低頻語音信號上來,印證了隨機共振將噪聲能量向語音信號轉移的作用。計算兩次輸出語音信噪比發現,經譜減系統處理后的輸出語音信號信噪比為-2.4134 dB,而經復合系統處理后的輸出語音信號信噪比為-0.0031 dB,二者的信噪比差值高達2.4103 dB。
對語音樣本1設置初始信噪比為-1 dB到-15 dB,分別通過譜減系統與復合系統的分段信噪比增益測試和感知語音質量評估測試。如圖5、圖6所示,初始信噪比從-1 dB到-15 dB的語音信號在通過復合系統后輸出語音信號的SNRIseg與PESQ評估得分均優于通過譜減系統的輸出語音信號。觀察信噪比增益曲線,兩者的SNRIseg差值在初始信噪比為-7 dB到-1 dB時比較穩定,約1.58 dB;兩者的SNRIseg差值在初始信噪比為-15 dB到-8 dB范圍內隨初始信噪比的降低而增大,最高達5 dB。此外,觀察感知語音質量評估曲線,隨著初始信噪比降低,經復合系統與經譜減系統處理輸出的語音信號PESQ評估得分均會隨之下降,但復合系統仍可獲得更高的PESQ評估得分。
此外,實驗設置初始信噪比為-5 dB、-10 dB、-15 dB對多組不同的語音樣本進行對比測試,并將所測的SNRIseg與PESQ評估得分數據記錄于表1。對比不同語音樣本不同初始信噪比下兩種方法的SNRIseg和PESQ評估得分發現,復合系統在處理不同語音樣本時均具有更好的效果。在不同初始信噪比下,復合系統對于不同語音樣本均可獲得更高的分段信噪比增益與感知語音質量評估得分。

圖5 譜減系統和復合系統輸出的分段信噪比增益

圖6 譜減系統和復合系統輸出的感知語音質量評估

輸入信號初始信噪比/dB譜減系統分段信噪比增益/dB譜減系統感知語音質量評估得分復合系統分段信噪比增益/dB復合系統感知語音質量評估得分語音樣本2-53.401.455.121.66-107.701.329.971.50-159.771.1514.801.31語音樣本3-54.081.215.381.43-107.501.0210.231.24-159.910.7414.921.05語音樣本4-53.301.474.961.64-107.291.339.931.46-159.711.2014.691.32語音樣本5-53.521.314.881.46-107.801.179.811.28-159.801.0414.591.14
本文基于隨機共振理論與譜減法提出了一種復合型的語音增強方法,利用隨機共振預處理減小噪聲與純凈信號間的相位差,降低譜減法中相位噪聲對語音質量影響,優化了低信噪比環境下譜減語音增強方法的效果并具有較強的普適性。通過與譜減法的對比實驗發現:在低信噪比(<0 dB)情況下,隨機共振與譜減法的復合方法可以得到更高的分段信噪比增益與感知語音質量評估得分,獲得更優的語音增強效果,提高語音信號輸出質量。
[1]Miyazaki R,Saruwatari H,Inoue T,et al.Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7):2080-2094.
[2]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J].Computer Engineering and Design,2013,34(1):235-240(in Chinese).[曹亮,張天騏,高洪興,等.基于聽覺掩蔽效應的多頻帶譜減語音增強方法[J].計算機工程與設計,2013,34(1):235-240.]
[3]Zhang Y,Zhao Y.Real and imaginary modulation spectral subtraction for speech enhancement[J].Speech Communication,2013,55(4):509-522.
[4]LENG Yonggang,LAI Zhihui,FAN Shengbo,et al.Large parameter stochastic resonance of two-dimensional Duffing oscillator and its application on weak signal detection[J].Acta Physica Sinica,2012,61(23):230502(in Chinese).[冷永剛,賴志慧,范勝波,等.二維Duffing振子的大參數隨機共振及微弱信號檢測研究[J].物理學報,2012,61(23):230502.]
[5]MING Tingfeng,LONG Jingbing,ZHANG Yongxiang.Three methods of stochastic resonance in weak periodic signal detection with large parameters[J].Journal of Test and Mea-surement Techol,2014,28(6):476-480(in Chinese).[明廷鋒,龍景兵,張永祥.大參數條件下弱周期信號的3種隨機共振檢測方法[J].測試技術學報,2014,28(6):476-480.]
[6]RENLitong,HUJinhai,XIEShousheng,etal.Vibrationfaultfeatureextractionbasedonstochasticresonancepretreatment[J].JournalofVibrationandShock,2014,33(2):141-146(inChinese).[任立通,胡金海,謝壽生,等.基于隨機共振預處理的振動故障特征提取研究[J].振動與沖擊,2014,33(2):141-146.]
[7]LoizouPC.Speechenhancement:Theoryandpractice[M].CRCPress,2013.
[8]LIANGWeiqian,ZHENGFang,ZHENGJiachun,etal.Sub-bandadaptivenoisereductionalgorithmtoimprovespeechintelligibility[J].JournalofTsinghuaUniversity(ScienceandTechnology),2016,56(11):1173-1178(inChinese).[梁維謙,鄭方,鄭佳春,等.一種改善言語清晰度的子帶自適應降噪算法[J].清華大學學報(自然科學版),2016,56(11):1173-1178.]
[9]El-FattahMAA,DessoukyMI,AbbasAM,etal.SpeechenhancementwithanadaptiveWienerfilter[J].InternationalJournalofSpeechTechnology,2014,17(1):53-64.
[10]PartilaP,KohutM,VoznakM,etal.Amethodologyformea-suringvoicequalityusingPESQandinteractivevoiceresponseintheGSMchanneldesignedbyopenBTS[J].AdvancesinElectricalandElectronicEngineering,2013,11(5):380.
[11]LUHuanhuan,WANGFuzhong,ZHANGHuichun.Detectionofweakspeechsignalsfromstrongnoisebackgroundbasedonadaptivestochasticresonance[J].JournalofBiomedicalEngineering,2016,33(2):357-361(inChinese).[盧歡歡,王輔忠,張慧春.基于自適應隨機共振理論強噪聲背景下的弱語音信號檢測[J].生物醫學工程學雜志,2016,33(2):357-361.]
[12]CAIWenjian.Speechenhancementbasedonstochasticresonanceandspectralsubtractioninlowsignal-to-noiseratio[D].TianjinPolytechnicUniversity,2017(inChinese).[蔡文堅.低信噪比環境下基于隨機共振與譜減法的語音增強[D].天津工業大學,2017.]