










摘要: 針對(duì)語(yǔ)音信號(hào)傳輸過(guò)程中受噪聲和回聲等因素干擾, 導(dǎo)致信號(hào)質(zhì)量和可懂度下降的問(wèn)題, 提出一種基于優(yōu)化的變分模態(tài)分解算法和改進(jìn)小波閾值的語(yǔ)音信號(hào)增強(qiáng)方法. 首先, 采用麻雀搜索算法優(yōu)化模態(tài)分解參數(shù), 并分解語(yǔ)音信號(hào)得到模態(tài)分量; 其次, 根據(jù)模態(tài)分量與原信號(hào)的相關(guān)系數(shù)和中心頻率, 消除高頻噪聲分量, 保留接近原信號(hào)的模態(tài)分量作為純語(yǔ)音, 其他模態(tài)分量作為帶噪語(yǔ)音, 進(jìn)行小波閾值處理; 最后, 重構(gòu)純語(yǔ)音和處理后的噪聲模態(tài)分量, 得到增強(qiáng)的語(yǔ)音信號(hào). 結(jié)果表明: 該方法比單一方法具有更優(yōu)的語(yǔ)音增強(qiáng)效果; 優(yōu)化的變分模態(tài)分解算法和改進(jìn)的閾值與閾值函數(shù)實(shí)現(xiàn)了比傳統(tǒng)方法更好的增強(qiáng)效果, 適用于各種噪聲環(huán)境, 有效提升了語(yǔ)音信號(hào)的質(zhì)量和可懂度.
關(guān)鍵詞: 語(yǔ)音增強(qiáng); 麻雀搜索算法; 變分模態(tài)分解; 小波閾值; 相關(guān)系數(shù)
中圖分類(lèi)號(hào): TN912.35文獻(xiàn)標(biāo)志碼: A文章編號(hào): 1671-5489(2025)02-0608-14
Speech Enhancement Method Based on Improved Wavelet Threshold and Optimized VMD Algorithm
ZHANG Liyan, LIU Zengli, PENG Yi
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China)
收稿日期: 2024-03-04.第一作者簡(jiǎn)介: 張禮艷(1999—), 女, 漢族, 碩士研究生, 從事語(yǔ)音信號(hào)處理的研究, E-mail: 2785751891@qq.com. 通信作者簡(jiǎn)介: 劉增力(1966—
), 男, 漢族, 碩士, 教授, 從事無(wú)線(xiàn)傳感器網(wǎng)絡(luò)、 現(xiàn)代信號(hào)處理及其應(yīng)用、 水聲信號(hào)處理和DSP技術(shù)應(yīng)用的研究, E-mail: 2285383243@qq.com.
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào): 61761025).
Abstract: Aiming at the problem that noise, echo and other factors interfered with the quality and intelligibility of the s
ignal in the process of speech signal transmission, we proposed a speech signal enhancement method based on optimized variational mode decomposition algorithm and impr
oved wavelet threshold. Firstly, the modal decomposition parameters were optimized by using sparrow search algorithm, and the modal components were obtaine
d by resolving the speech signal. Secondly, according to the correlation coefficient and center frequency between the modal component and the original signal, the high
-frequency noise component was eliminated, and the modal component close to the original signal was retained as pure speech, while the other modal components were r
egarded as noisy speech, and the wavelet threshold processing was carried out. Finally, the pure speech and the processed noise modal components were reconstructed t
o obtain the enhanced speech signals. The results show that the method has better speech enhancement effect than a single method, the optimized variational mode decompos
ition algorithm and the improved threshold and threshold function achieve better enhancement effect than the traditional methods, which is suitable for al
l kinds of noise environment, and effectively improve the quality and intelligibility of speech signals.
Keywords: speech enhancement; sparrow search algorithm; variational mode decomposition; wavelet threshold; correlation coefficient
語(yǔ)音增強(qiáng)(SE)是一種處理含有背景噪聲的語(yǔ)音信號(hào), 以恢復(fù)其純凈狀態(tài)的方法. 它在語(yǔ)音識(shí)別、 通信、 特征提取和分類(lèi)、 軍事等領(lǐng)域應(yīng)用廣泛. 通過(guò)譜減法[1]、 Wiener濾波[2]、 最小均方誤差(MMSE)估計(jì)[3]、 子空間算法[4]等SE算法可在不失真的情況下有效抑制噪聲, 但這些方法大多數(shù)利用短時(shí)Fourier變換(STFT)處理語(yǔ)音信號(hào), 在噪聲較復(fù)雜的情況下性能下降嚴(yán)重. 小波分析是處理非平穩(wěn)信號(hào)最有效的方法[5-6], 但在實(shí)際信號(hào)去噪過(guò)程中, 與噪聲相關(guān)的分布模型和統(tǒng)計(jì)特性等參數(shù)通常是未知的. 綜合考慮去噪的穩(wěn)定性、 精度和計(jì)算量, Donoho等[7]提出了閾值去噪方法, 該方法通過(guò)設(shè)置閾值選擇有效小波系數(shù), 實(shí)現(xiàn)了有效的噪聲去噪.
影響小波閾值去噪效果的因素主要包括信號(hào)小波分解層數(shù)、 閾值及閾值函數(shù)的選取, 針對(duì)這些問(wèn)題, 文獻(xiàn)[8]提出了參數(shù)化小波閾值函數(shù)的構(gòu)造方法; 文獻(xiàn)[9]針對(duì)噪聲方差估計(jì)問(wèn)題, 結(jié)合硬、 軟閾值函數(shù)的優(yōu)點(diǎn)提出了一種新方法; 文獻(xiàn)[10]提出了一種新的非線(xiàn)性閾值函數(shù), 用于局部放電信號(hào)的小波去噪; 文獻(xiàn)[11]分析了多種閾值計(jì)算方法, 并提出了適當(dāng)?shù)拈撝涤?jì)算方式; 文獻(xiàn)[12]提出了基于Shannon熵和Tsallis熵的改進(jìn)閾值方法; 文獻(xiàn)[13]考慮了小波分解層數(shù)對(duì)閾值的影響, 提出了一種改進(jìn)的計(jì)算方法和閾值處理函數(shù), 減少了因閾值不準(zhǔn)確導(dǎo)致的偏差.
經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)是一種時(shí)頻分析方法, 它能自適應(yīng)地分解非線(xiàn)性和非平穩(wěn)信號(hào). 但其固有模態(tài)函數(shù)(IMF)分解中常存在模態(tài)混疊, 導(dǎo)致重構(gòu)信號(hào)中混入大量噪聲[14]. 文獻(xiàn)[15]提出了一種包圍經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)方法, 通過(guò)添加輔助噪聲以減輕混疊的影響, 但重構(gòu)的信號(hào)仍有殘余噪聲, 引入了較大誤差. 基于EEMD的理論, Yeh等[16]提出了完全包圍經(jīng)驗(yàn)?zāi)J椒纸猓–EEMD)方法, 由于每個(gè)信號(hào)分解的IMF不同, 因此信號(hào)分解具有隨機(jī)性; 文獻(xiàn)[17]提出的變分模態(tài)分解(VMD)是一種自適應(yīng)非遞歸信號(hào)處理算法, 可更好地解決模態(tài)混疊問(wèn)題; 文獻(xiàn)[18]將VMD與小波算法相結(jié)合進(jìn)行水聲信號(hào)去噪, 但VMD在信號(hào)分解中需預(yù)先設(shè)定IMF個(gè)數(shù)和懲罰因子; 文獻(xiàn)[19]提出了一種基于麻雀搜索算法(SSA)和VMD的增強(qiáng)方法; 文獻(xiàn)[20]以包絡(luò)熵為適應(yīng)度函數(shù), 采用遺傳算法優(yōu)化參數(shù); 文獻(xiàn)[21]以功率譜熵為適應(yīng)度函數(shù), 采用鯨魚(yú)優(yōu)化算法優(yōu)化參數(shù); 文獻(xiàn)[22]提出了自適應(yīng)調(diào)整懲罰因子的譜聚集因子法; 文獻(xiàn)[23]提出了VMD和改進(jìn)閾值策略(ITS)的雷達(dá)語(yǔ)音增強(qiáng)方法; 文獻(xiàn)[24]基于遺傳算法優(yōu)化VMD和小波閾值的礦用電纜局部放電信號(hào)去噪方法; 文獻(xiàn)[25]基于小波閾值去噪、 多元優(yōu)化(MVO)和粒子群優(yōu)化(PSO)混合算法優(yōu)化VMD和相關(guān)系數(shù)(CC)的矢量水聽(tīng)器信號(hào)去噪聯(lián)合算法(MVO-PSO-VMD-CC-WT); 文獻(xiàn)[26]提出了一種基于SSA優(yōu)化VMD的滾珠絲杠副故障狀態(tài)識(shí)別方法; 文獻(xiàn)[27]針對(duì)傳統(tǒng)的語(yǔ)音信號(hào)降噪方法可能濾除部分有效信號(hào)且信噪比可進(jìn)一步提升的問(wèn)題, 提出了一種基于變分模態(tài)分解和小波分析去噪的方法; 文獻(xiàn)[28]針對(duì)傳統(tǒng)語(yǔ)音增強(qiáng)方法存在濾除有效信號(hào)且增強(qiáng)性能較差的問(wèn)題, 提出了一種基于板倉(cāng)-齋藤距離(ISD)優(yōu)化SSA-VMD算法的自適應(yīng)英文語(yǔ)音信號(hào)增強(qiáng)方法; 文獻(xiàn)[29]針對(duì)非連續(xù)和非平穩(wěn)語(yǔ)音信號(hào)中含有噪聲的問(wèn)題, 提出了一種基于參數(shù)優(yōu)化的變分模態(tài)分解去噪算法.
為達(dá)到更好的語(yǔ)音增強(qiáng)效果, 本文提出一種基于SSA優(yōu)化VMD算法和改進(jìn)小波閾值法相結(jié)合的語(yǔ)音信號(hào)增強(qiáng)方法. 首先, 使用SSA優(yōu)化VMD的模態(tài)個(gè)數(shù)k和懲罰參數(shù)α; 其次, 采用優(yōu)化后的VMD算法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行分解, 得到多個(gè)IMF模態(tài)分量; 再次, 根據(jù)各IMF模態(tài)分量與純語(yǔ)音信號(hào)的相關(guān)系數(shù)與中心頻率, 將其分為高頻噪聲分量、 純語(yǔ)音分量和帶噪語(yǔ)音分量, 在此基礎(chǔ)上, 保留純語(yǔ)音分量, 去除高頻噪聲分量, 并對(duì)帶噪語(yǔ)音分量進(jìn)行小波閾值處理; 最后, 重構(gòu)增強(qiáng)后的IMF模態(tài)分量, 得到增強(qiáng)后的信號(hào).
1 SSA優(yōu)化VMD參數(shù)的自適應(yīng)方法
VMD分解信號(hào)前需設(shè)置合適的模態(tài)個(gè)數(shù)k和懲罰參數(shù)α(或模態(tài)頻率帶寬控制參數(shù)), k取值過(guò)大會(huì)導(dǎo)致過(guò)分解, k取值過(guò)小會(huì)導(dǎo)致欠分解; α取值過(guò)大會(huì)導(dǎo)致頻帶信息丟失, α取值過(guò)小會(huì)導(dǎo)致信息冗余. 為更好地確定VMD參數(shù), 本文利用SSA優(yōu)化VMD的分解參數(shù), 從而達(dá)到最好的分解效果.
結(jié)合SSA的預(yù)處理能力和優(yōu)化機(jī)制, 提升VMD在復(fù)雜語(yǔ)音信號(hào)分解中的精度和效率. 通過(guò)SSA為VMD提供優(yōu)化后的關(guān)鍵參數(shù)(如模態(tài)個(gè)數(shù)k和懲罰參數(shù)α等), 確保更合適的信號(hào)分解條件. 這些優(yōu)化參數(shù)有助于提高VMD對(duì)不同頻率成分的分離能力, 使其能更精確地將語(yǔ)音信號(hào)分解為多個(gè)具有不同中心頻率的IMF. 每個(gè)IMF都盡量窄帶寬且保持其自身的中心頻率不變, 通過(guò)Hilbert變換和調(diào)制解調(diào)技術(shù)迭代更新每個(gè)IMF及其對(duì)應(yīng)的中心頻率, 從而實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的有效分解. 結(jié)果表明, SSA優(yōu)化后的VMD可顯著提升語(yǔ)音增強(qiáng)效果, 并在復(fù)雜噪聲環(huán)境中有更高的魯棒性和準(zhǔn)確性.
1.1 VMD算法
VMD旨在將輸入信號(hào)分解為具有特定稀疏性的子信號(hào)IMF, 以重現(xiàn)原始信號(hào). 它確保所有模態(tài)的總和近似原始信號(hào), 并具有有限帶寬和在線(xiàn)估計(jì)中心頻率. 與經(jīng)驗(yàn)?zāi)B(tài)分解算法不同, VMD是一種非遞歸信號(hào)分解技術(shù). 通過(guò)求解約束變分優(yōu)化問(wèn)題實(shí)現(xiàn), 該問(wèn)題的表達(dá)式[17]為
min{uk},{ωk}∑Kk=1td(t)+jpt·uk(t)
e-jωkt22,s.t. ∑Kk=1uk(t)=f(t),(1)
其中f(t)為原始輸入信號(hào), {uk}={u1,u2,…,uK}表示K個(gè)模態(tài)分量集, {wk}={w1,w2,…,wK}表示K個(gè)模態(tài)分量的中心頻率集,
t為微分算子, d(t)為Dirac函數(shù), ‖·‖22為范數(shù).
為解決式(1)變分約束問(wèn)題, 采用交替方向乘子算法不斷迭代更新模式分量和中心頻率, 當(dāng)滿(mǎn)足方程∑Kk=1(n+1k(w)-
nk(w))/‖nk‖22lt;ε時(shí), 迭代停止, 此時(shí)可得到K個(gè)IMF分量集和中心頻率集, 其中ε為收斂容差(或判別精度).
1.2 麻雀搜索算法
SSA是一種新型群體優(yōu)化算法[30], 借鑒了麻雀的覓食和抗捕食行為. 該算法將麻雀劃分為生產(chǎn)者、 跟隨者和偵察者, 生產(chǎn)者指引覓食方向, 跟隨者跟隨生產(chǎn)者, 有機(jī)會(huì)晉升為新的生產(chǎn)者, 而偵察者在危險(xiǎn)時(shí)發(fā)出警報(bào), 帶領(lǐng)其他個(gè)體前往安全區(qū)域. 種群中生產(chǎn)者和跟隨者的比例保持不變. 在模擬實(shí)驗(yàn)中通過(guò)虛擬麻雀在多維空間中尋找食物以解決優(yōu)化問(wèn)題, 麻雀的位置表示為向量, 每個(gè)位置對(duì)應(yīng)一只麻雀的適應(yīng)度值. 假設(shè)第i只麻雀在k維搜索空間中的位置為X, 則所有麻雀的適應(yīng)度值可由向量FX表示, FX中每行的值表示個(gè)體的適應(yīng)度值. 根據(jù)向量X和FX, 在每次迭代期間, 生產(chǎn)者的位置更新為
Xt+1i,j=Xti,j·exp-iα×itermax,R2lt;ST,
Xti,j+Q·L,R2≥ST,(2)
其中: t表示當(dāng)前迭代, j=1,2,…,d, Xti,j表示迭代t時(shí)刻第i只麻雀第j維度的值; itermax為具有最大迭代次數(shù)的常數(shù); α∈(0,1]為一個(gè)隨機(jī)數(shù); R2(R2∈[0,1])和ST(ST∈[0.5,1.0])
分別表示報(bào)警值和安全閾值; Q為服從正態(tài)分布的隨機(jī)數(shù); L表示1×d的矩陣, 其中每個(gè)元素均為1.
跟隨者的位置更新規(guī)則為
Xt+1i,j=Q·expXtworst-Xti,ji2,igt;n2,
Xt+1P+Xti,j-Xt+1P·A+·L,i≤n2,(3)
其中XP為生產(chǎn)者占據(jù)的最佳位置, Xtworst表示t時(shí)刻下跟隨者的最差位置, A表示一個(gè)1×d的矩陣.
偵察者的位置迭代更新規(guī)則為
Xt+1i,j=Xtbest+β·Xti,j-Xtbest,figt;fg,
Xti,j+K·Xti,j-Xtworstfi-fW+ε,fi=fg,(4)
其中Xtbest為t時(shí)刻下的全局最優(yōu)位置, β為服從(0,1)的隨機(jī)因子, fi為麻雀的適應(yīng)度值, fg和fW分別為全局最佳和最差適應(yīng)度值, K∈[-1,1]為一個(gè)隨機(jī)數(shù), ε為最小常數(shù)以避免零除法誤差.
1.3 最小包絡(luò)熵
在VMD參數(shù)k和α的優(yōu)化過(guò)程中, 適應(yīng)度函數(shù)的選擇將影響優(yōu)化結(jié)果. 本文選擇最小包絡(luò)熵作為適應(yīng)度值, 以反映信號(hào)的稀疏特性, 若IMF中包含的噪聲較多, 特征信息較少時(shí), 則包絡(luò)熵值較大, 反之, 則包絡(luò)熵值較小. 零均值信號(hào)x(j)的包絡(luò)熵Ep表達(dá)式為
Ep=-∑nj=1pjlg pj,pj=a(j)∑nj=1a(j),(5)
其中pj為a(j)的歸一化形式, a(j)為信號(hào)x(j)經(jīng)Hilbert解調(diào)后得到的包絡(luò)信號(hào).
1.4 改進(jìn)SSA-VMD算法
文獻(xiàn)[31]測(cè)試了6種典型智能優(yōu)化算法的性能, 通過(guò)(CEC)標(biāo)準(zhǔn)測(cè)試函數(shù)比較了蝙蝠算法、 灰狼優(yōu)化算法、 蜻蜓算法、 鯨魚(yú)優(yōu)化算法、 草蜢優(yōu)化算法和SSA在收斂速度、 穩(wěn)定性和精度方面的性能. 結(jié)果表明, SSA性能最佳. 故本文以最小包絡(luò)熵作為適應(yīng)度函數(shù), 采用SSA優(yōu)化VMD參數(shù),
SSA優(yōu)化VMD參數(shù)流程如圖1所示, 包括如下步驟:
步驟1) 設(shè)置SSA參數(shù), 并初始化麻雀種群, 假設(shè)麻雀種群規(guī)模為n, 搜索空間為k維, 迭代次數(shù)為t, 第i只麻雀在k維空間中的位置表示為Xi(t)={Xi1(t),Xi2(t),…,Xik(t)}, i=1,2,…,n, t=1,2,…,tmax; 將每只麻雀的位置Xi作為懲罰因子[α1,α2,…,αk];
步驟2) 調(diào)用最小包絡(luò)熵作為適應(yīng)度函數(shù), 對(duì)初始狀態(tài)進(jìn)行評(píng)估, 得到初始化后的最小包絡(luò)熵和對(duì)應(yīng)的最佳參數(shù); 將麻雀的當(dāng)前位置作為參數(shù)組合, 即Xi=[xk,xα];
步驟3) 以初始化的參數(shù)組合為基礎(chǔ)更新麻雀的位置和速度;
步驟4) 根據(jù)式(4)不斷更新麻雀位置, 若新位置的適應(yīng)度值比前一位置好, 則麻雀會(huì)向新位置移動(dòng), 否則, 麻雀位置保持不變;
步驟5) 計(jì)算麻雀在新位置的對(duì)應(yīng)包絡(luò)熵值, 記錄最佳位置, 若此時(shí)的包絡(luò)熵值更優(yōu), 則替換舊的最佳位置;
步驟6) 循環(huán)迭代更新麻雀的位置和速度, 重復(fù)步驟4)和5);
步驟7) 循環(huán)迭代至迭代數(shù)到達(dá)預(yù)定最大值, 跳出循環(huán), 輸入最小包絡(luò)熵值和對(duì)應(yīng)的最佳參數(shù)組合.
2 改進(jìn)小波閾值去噪
2.1 小波閾值去噪
通過(guò)離散小波變換將含噪信號(hào)的原始信號(hào)和噪聲信號(hào)的系數(shù)分離. 這些系數(shù)在小波變換后具有不同的統(tǒng)計(jì)特性, 通常原始信號(hào)的系數(shù)較大、 頻率較低、 能量較高, 具有明顯的周期性, 而噪聲信號(hào)的系數(shù)則相反. 基于這些特性, 可選擇適合的閾值以區(qū)分原始信號(hào)和噪聲信號(hào)的系數(shù). 若分解的小波系數(shù)低于閾值, 則判定為噪聲信號(hào), 可丟棄這部分系數(shù); 若分解的小波系數(shù)高于閾值, 則認(rèn)定為原始信號(hào), 并進(jìn)行相應(yīng)處理. 最后, 通過(guò)逆小波變換將處理后的系數(shù)重構(gòu), 得到去噪后的信號(hào). 其步驟如下:
步驟1) 利用適當(dāng)?shù)男〔ɑ瘮?shù)對(duì)輸入的含噪信號(hào)進(jìn)行分解, 提取近似系數(shù)和細(xì)節(jié)系數(shù);
步驟2) 選擇適當(dāng)?shù)拈撝岛烷撝岛瘮?shù)對(duì)小波系數(shù)進(jìn)行閾值處理;
步驟3) 使用逆小波變換(IDWT)重構(gòu)閾值化系數(shù), 得到去噪信號(hào).
2.2 改進(jìn)小波閾值函數(shù)
基于語(yǔ)音信號(hào)的特殊性, 需在保留原始語(yǔ)音信號(hào)特征的同時(shí)最大限度地去除噪聲. 由于語(yǔ)音信號(hào)中的清音部分和白噪聲相似, 具有高頻、 低能量和缺乏明顯周期性的特點(diǎn), 因此小波閾值去噪在實(shí)現(xiàn)有效去噪的同時(shí)需考慮兩個(gè)條件:
1) 對(duì)閾值的準(zhǔn)確估計(jì).
Donoho等[7]基于高斯噪聲模型, 并使用獨(dú)立正態(tài)變量決策理論推導(dǎo)出統(tǒng)一閾值λ=σ2ln N, 但該方法未考慮小波變換的分解層數(shù)對(duì)閾值的影響. 在小波變換中, 隨著分解層數(shù)的增加, 小波細(xì)節(jié)系數(shù)中的噪聲會(huì)逐漸減小, 導(dǎo)致用傳統(tǒng)小波閾值無(wú)法準(zhǔn)確判斷噪聲的存在. 本文采用改進(jìn)的小波閾值替代傳統(tǒng)小波閾值, 引入系數(shù)ξ, 使閾值隨分解層數(shù)的增加而減小, 定義系數(shù)ξ[13]為
ξ=1ln(i2+1),(6)
其中i為小波變換的分解層數(shù)目. 最終得到最新的小波閾值
λ=ξ·σ2ln N,(7)
其中N為信號(hào)長(zhǎng)度, σ=median[ωi(k)]/0.674 5為噪聲的標(biāo)準(zhǔn)方差.
2) 對(duì)閾值函數(shù)的選擇.
常用的閾值函數(shù)包括硬閾值函數(shù)和軟閾值函數(shù).
(i) 硬閾值函數(shù):
Wi=ωi,ωi≥λ,0,ωilt;λ.(8)
(ii) 軟閾值函數(shù):
Wi=sgn(ωi)(ωi-λ),ωi≥λ,0,ωilt;λ.(9)
在傳統(tǒng)的小波閾值去噪方法中, 硬閾值去噪存在信號(hào)振蕩, 軟閾值去噪存在恒定偏差問(wèn)題. 為克服硬、 軟閾值函數(shù)的不足, 本文根據(jù)文獻(xiàn)[5]提出一種介于硬、 軟閾值函數(shù)之間的改進(jìn)閾值處理函數(shù).
新的閾值函數(shù)可表示為
Wi=sgn(ω)ωi-λem·ωi2-λ2
,ωi≥λ,0,ωilt;λ,(10)
中mgt;0. 首先, 當(dāng)ωi→λ時(shí), Wi→0, 由于在ωi=λ處閾值函數(shù)是連續(xù)的, 因此解決了硬閾值函數(shù)的不連續(xù)性; 當(dāng)ωi→∞時(shí), Wi→ωi, 由于在ωi逐漸增大時(shí), Wi逐漸趨向于ωi, 因此解決了軟閾值函數(shù)存在恒定偏差的問(wèn)題. 其次, 當(dāng)ωigt;λ時(shí), 若m→0, 則為軟閾值函數(shù); 若m→∞, 則為硬閾值函數(shù), 因此可通過(guò)調(diào)節(jié)系數(shù)m, 使新閾值函數(shù)在硬、 軟閾值函數(shù)之間進(jìn)行轉(zhuǎn)換. 傳統(tǒng)閾值函數(shù)與改進(jìn)小波閾值函數(shù)的對(duì)比結(jié)果如圖2所示. 由圖2可見(jiàn), 改進(jìn)后的閾值處理函數(shù)可連續(xù)求導(dǎo), 從而解決了傳統(tǒng)硬閾值函數(shù)的不連續(xù)性, 同時(shí)也避免了傳統(tǒng)軟閾值函數(shù)帶來(lái)的恒定偏差, 使處理后的小波系數(shù)更接近真實(shí)值.
3 改進(jìn)SSA-VMD-WT語(yǔ)音增強(qiáng)算法
SSA-VMD-WT算法在語(yǔ)音增強(qiáng)領(lǐng)域融合了SSA、 VMD算法和小波變換(WT)的特性, 為處理非平穩(wěn)和復(fù)雜的語(yǔ)音信號(hào)提供了一種新方法. 在理論上, SSA作為一種基于群體智能的優(yōu)化算法, 能高效優(yōu)化VMD過(guò)程中的關(guān)鍵參數(shù), 從而實(shí)現(xiàn)對(duì)原始語(yǔ)音信號(hào)的精細(xì)分解; VMD算法通過(guò)將語(yǔ)音信號(hào)分解為多個(gè)具有不同中心頻率的IMF, 有助于分離噪聲與有用語(yǔ)音成分; WT利用其多分辨率分析能力, 可在不同尺度上捕捉語(yǔ)音信號(hào)的時(shí)間-頻率特征, 特別適用于處理非平穩(wěn)的語(yǔ)音信號(hào). 在實(shí)際應(yīng)用中, 這種組合方法在提高語(yǔ)音清晰度、 抑制背景噪聲以及提升語(yǔ)音識(shí)別準(zhǔn)確率方面具有顯著優(yōu)勢(shì), 尤其在低信噪比環(huán)境中效果更明顯.
3.1 相關(guān)系數(shù)和中心頻率
3.1.1 相關(guān)系數(shù)
時(shí)域互相關(guān)準(zhǔn)則是衡量?jī)蓚€(gè)信號(hào)相關(guān)程度的有效指標(biāo), 其表達(dá)式為
rIMF,s=∑ki=1(IMFi-IMF)(si-s)∑ki=1(IMFi-IMF)2∑ki=1(si-s)2,(11)
其中IMF表示模態(tài)分量, s表示原信號(hào), IMF 和s分別表示IMF和s的均值, k表示長(zhǎng)度. 根據(jù)各IMF模態(tài)分量與原語(yǔ)音信號(hào)的相關(guān)系數(shù)大小, 可對(duì)各模態(tài)分量分類(lèi)處理. 其相關(guān)系數(shù)越大, 表明相關(guān)程度越高; 相關(guān)系數(shù)越小, 表明相關(guān)程度越低.
3.1.2 中心頻率
在聲學(xué)中, 中心頻率描述了聲譜中能量分布的主導(dǎo)頻率, 即聲音信號(hào)在頻率域上的中心位置. 通過(guò)對(duì)聲譜頻率進(jìn)行加權(quán)計(jì)算, 中心頻率反映了聲譜中能量集中的位置, 其計(jì)算公式為
Fcenter=∑ki=1IMFi×A2i∑ki=1A2i,(12)
其中IMFi為第i個(gè)頻率分量, Ai為第i個(gè)頻率分量的幅度. 該加權(quán)平均的中心頻率可表示信號(hào)的主要頻率成分, 或在某些應(yīng)用中用于特征提取和分析.
3.2 改進(jìn)SSA-VMD-WT去噪算法
本文采用SSA對(duì)VMD分解參數(shù)進(jìn)行優(yōu)化, 并改進(jìn)小波閾值處理方法. 基于傳統(tǒng)小波閾值, 考慮小波分解層數(shù)及硬、 軟閾值函數(shù)的不足, 對(duì)閾值及閾值函數(shù)進(jìn)行改進(jìn), 提出一種SSA-VMD-WT的語(yǔ)音信號(hào)增強(qiáng)方法, 包括如下步驟.
步驟1) 基于VMD-SSA獲得最優(yōu)組合參數(shù)[k,α], 用最優(yōu)組合參數(shù)[k,α]的VMD對(duì)語(yǔ)音信號(hào)進(jìn)行分解, 得到分解后語(yǔ)音信號(hào)的各IMF模態(tài)分量;
步驟2) 根據(jù)式(11),(12)計(jì)算各IMF模態(tài)分量與語(yǔ)音信號(hào)的相關(guān)系數(shù)和中心頻率, 選取最小相關(guān)系數(shù)對(duì)應(yīng)的分量作為高頻噪聲分量并丟棄; 選取能量最高且中心頻率接近原信號(hào)的IMF模態(tài)分量作為純語(yǔ)音分量并保留;
步驟3) 將步驟2)中剩余IMF模態(tài)分量作為帶噪語(yǔ)音分量, 根據(jù)改進(jìn)小波閾值及閾值函數(shù)對(duì)其進(jìn)行小波閾值處理;
步驟4) 將純語(yǔ)音信號(hào)模態(tài)分量與小波閾值處理后的模態(tài)分量進(jìn)行重構(gòu), 得到增強(qiáng)后的語(yǔ)音信號(hào).
SSA-VMD-WT去噪算法流程如圖3所示.
4 仿真實(shí)驗(yàn)與分析
為驗(yàn)證改進(jìn)的SSA-VMD-WT語(yǔ)音增強(qiáng)算法的有效性, 設(shè)計(jì)兩個(gè)實(shí)驗(yàn). 首先, 使用簡(jiǎn)單模擬信號(hào)驗(yàn)證方法的有效性; 其次, 分析其在語(yǔ)音信號(hào)增強(qiáng)上的效果, 并與主流方法進(jìn)行對(duì)比實(shí)驗(yàn). 所有實(shí)驗(yàn)均在MATLAB程序中完成.
4.1 仿真信號(hào)實(shí)驗(yàn)
將已知的高斯白噪聲加入純凈的模擬信號(hào)中, 模擬含噪信號(hào)為
f(n)=s(n)+gs(n),(13)
其中f(n)為被破壞的觀測(cè)信號(hào), s(n)為無(wú)噪聲源信號(hào).
本文算法和對(duì)比算法對(duì)加入5 dB高斯白噪聲仿真信號(hào)的處理結(jié)果如圖4所示. 由圖4可見(jiàn): 改進(jìn)的小波閾值法(圖4(E))優(yōu)于傳統(tǒng)小波閾值法(圖4(C),(D))的去噪效果, 處理后的信號(hào)更接近原始仿真信號(hào); SSA-VMD-WT算法(圖4(F))優(yōu)于小波閾值法(圖4(C)~(E))的去噪效果, 處理后的信號(hào)更接近原始仿真信號(hào), 表明本文改進(jìn)算法可更有效地去除噪聲, 使處理后的信號(hào)更接近原始仿真信號(hào).
4.2 實(shí)際語(yǔ)音信號(hào)增強(qiáng)
4.2.1 仿真結(jié)果
為驗(yàn)證本文方法的有效性和實(shí)用性, 選取一段發(fā)音為“藍(lán)天, 白云, 碧綠的大海”的語(yǔ)音信號(hào)加入信噪比為5 dB高斯白噪聲, 采用SSA-VMD-WT方法對(duì)含噪語(yǔ)音信號(hào)進(jìn)行處理.
首先, 基于SSA-VMD 算法優(yōu)化VMD分解參數(shù), 得到優(yōu)化后的參數(shù)組合[10,2 439], 其最小包絡(luò)熵為9.784 8, 結(jié)果如圖5所示.
其次, 根據(jù)最優(yōu)組合參數(shù)[k,α]的VMD對(duì)含噪語(yǔ)音信號(hào)進(jìn)行分解, 并計(jì)算每個(gè)IMF分量的相關(guān)系數(shù), 結(jié)果如圖6所示. 分解后語(yǔ)音信號(hào)的各IMF模態(tài)分量及其相應(yīng)的頻譜如圖7所示.
由圖6可見(jiàn), IMF10的相關(guān)系數(shù)較低且能量較小, 將其視為高頻噪聲分量并丟棄. 將IMF3~I(xiàn)MF9視為帶噪語(yǔ)音分量, 經(jīng)改進(jìn)小波閾值去噪后, 得到去噪后的IMF分量.
由圖7可見(jiàn), IMF1和IMF2具有最高能量且中心頻率最接近于主頻. 因此, 選擇IMF1和IMF2作為純語(yǔ)音分量直接保留.
最后, 重構(gòu)純語(yǔ)音信號(hào)模態(tài)分量與處理后的模態(tài)分量, 得到增強(qiáng)后的語(yǔ)音信號(hào), 結(jié)果如圖8所示.
4.2.2 不同方法對(duì)比
1) 去噪效果比較.
不同算法增強(qiáng)后的語(yǔ)音信號(hào)及其語(yǔ)譜如圖9所示. 由圖9可見(jiàn), 改進(jìn)的SSA-VMD-WT算法(圖9(F))優(yōu)于EMD-WT,EEMD-WT和CEEMDAN-WT算法(圖9(C)~(E))的去噪效果, 其頻譜和語(yǔ)譜更接近圖9(A)的純凈信號(hào), 因此本文算法可更好地增強(qiáng)語(yǔ)音信號(hào).
2) 去噪性能指標(biāo)比較.
為定量比較SSA-VMD-WT算法的有效性和優(yōu)越性, 用信噪比(SNR)、 均方根誤差(RMSE)及短時(shí)客觀可懂度(STOI)評(píng)估算法的去噪性能. 令x(n)表示源信號(hào), y(n)表示去噪信號(hào), N表示信號(hào)的長(zhǎng)度.
SNR描述了信號(hào)和噪聲之間的比率, 其值越大, 去噪效果越好. SNR的表達(dá)式為SNR=10lg∑Nn=1x2(n)∑Nn=1[y(n)-x(n)]2.(14)
RMSE可用于通過(guò)反映重構(gòu)信號(hào)與原始信號(hào)平方偏差的平均值的平方根測(cè)量去噪信號(hào)與真實(shí)信號(hào)之間的差異. 該值越小, 去噪后的信號(hào)越接近真實(shí)信號(hào), 去噪效果越好. RMSE表達(dá)式為RMSE=1N∑Nn=1[y(n)-x(n)]2.(15)
STOI是一個(gè)客觀的語(yǔ)音可懂度評(píng)估指標(biāo), 它通過(guò)計(jì)算語(yǔ)音信號(hào)時(shí)域和頻域特征之間的相關(guān)性預(yù)測(cè)語(yǔ)音的可理解度, STOI值為0~1, 越接近1表示兩個(gè)信號(hào)之間的相關(guān)性越高, 即短時(shí)客觀可懂度越好. STOI的表達(dá)式為
STOI=∑Nn=1(x(n)·y(n))/∑Nn=1x2(n)·∑Nn=1y2(n).(16)
分別采用SSA-VMD-WT算法與幾種傳統(tǒng)語(yǔ)音增強(qiáng)算法對(duì)含有5種不同分貝噪聲的含噪語(yǔ)音信號(hào)進(jìn)行增強(qiáng). 語(yǔ)音增強(qiáng)性能指標(biāo)列于表1. 由表1可見(jiàn): 在不同分貝噪聲下, 本文提出的改進(jìn)閾值法與其他方法相比, 其具有較高的SNR、 較低的RMSE及STOI值更接近1, 因此其增強(qiáng)效果更好; 在此基礎(chǔ)上引入SSA-VMD算法又取得了比其更好的效果, 進(jìn)一步證明SSA-VMD-WT算法具有較好的語(yǔ)音增強(qiáng)效果.
用改進(jìn)的語(yǔ)音增強(qiáng)算法對(duì)含有5種不同分貝噪聲的含噪語(yǔ)音信號(hào)進(jìn)行增強(qiáng), 語(yǔ)音增強(qiáng)性能指標(biāo)列于表2.
由表2可見(jiàn), 在不同分貝噪聲下, 本文提出的改進(jìn)閾值法與EMD,EEMD,CEEMDAN,SSA-VMD算法結(jié)合與傳統(tǒng)硬軟閾值結(jié)合相比, 均具有較高的SNR、 較低的RMSE及STOI更接近1, 其中EEMD-WT算法和CEEMDAN-WT算法的增強(qiáng)效果相似, 均略?xún)?yōu)于EMD-WT算法, SSA-VMD-WT算法優(yōu)于其他算法, 從而證明了SSA-VMD-WT算法的有效性和實(shí)用性.
不同算法的RMSE性能指標(biāo)對(duì)比結(jié)果如圖10所示. 由圖10可見(jiàn): EMD,EEMD,CEEMDAN,VMD算法結(jié)合本文改進(jìn)的閾值法, 在-5~15 dB噪聲下均具有較低的RMSE, 表明本文改進(jìn)的閾值法比傳統(tǒng)閾值法更有效; 引入VMD算法比EMD,EEMD,CEEMDAN算法具有更好的效果, 且引入SSA-VMD算法比VMD算法又具有更優(yōu)的效果, 進(jìn)一步證明了本文算法對(duì)語(yǔ)音增強(qiáng)的有效性.
綜上, 本文提出了一種SSA-VMD-WT的語(yǔ)音增強(qiáng)算法, 通過(guò)引入SSA遺傳算法確定模態(tài)分量數(shù)和二次懲罰因子的最優(yōu)值, 以達(dá)到VMD的最佳效果. 同時(shí), 針對(duì)傳統(tǒng)小波閾值處理方法的缺陷, 對(duì)其進(jìn)行改進(jìn). 通過(guò)將VMD和小波閾值法有效結(jié)合, 進(jìn)一步提高了語(yǔ)音信號(hào)的增強(qiáng)效果. 通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該方法的有效性, 將SSA-VMD-WT算法與EMD-WT,EEMD-WT,CEEMDAN-WT算法等多種算法進(jìn)行比較. 結(jié)果表明, SSA-VMD-WT算法的增強(qiáng)效果和定量的性能指標(biāo)均優(yōu)于其他算法, 具有顯著優(yōu)勢(shì).
參考文獻(xiàn)
[1]BOLL S F. Suppression of Acoustic Noise in Speech Using Spectral Subtraction[J].IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
[2]CHEN J D, BENESTY J, HUANG Y T, et al. New Insights into the Noise Reduction Wiener Filter[J].IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218-1234.
[3]PALIWAL K, SCHWERIN B, WJCICKI K. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Modulation Magnitude Estimator[J].Speech Communication, 2012, 54(2): 282-305.
[4]LI C W, LEI S F. Signal Subspace Approach for Speech Enhancement in Nonstationary Noises[C]//2007 International Symposium on Communications and Information Technologies. Sydney:[s.n.], 2007: 1580-1585.
[5]INDRA J, KIRUBA SHANKAR R, KASTHURI N, et al. A Modified Tunable: Q Wavelet Transform Approach for Tamil Speech Enhancement[J].IETE Journal of Research, 2022, 68(4): 2661-2674.
[6]KUWAEK P, JES'KO W. Speech Enhancement Based on Enhanced Empirical Wavelet Transform and Teager Energy Operator[J].Electronics, 2023, 12(14): 3167-3175.
[7]DONOHO D L, JOHNSTONE I M, KERKYACHARIAN G, et al. Density Estimation by Wavelet Thresholding[J].The Annals of Statistics, 1996, 24(2): 508-539.
[8]ZHANG X, LI J L, XING J C, et al. A Particle Swarm Optimization Technique-Based Parametric Wavelet Thresholding Function for Signal Denoising[J].Circuits, Systems, and Signal Processing, 2017, 36(1): 247-269.
[9]LIU H, WANG W D, XIANG C L, et al. A De-noising Method Using the Improved Wavelet Threshold Function Based on Noise Variance Estimation[J].Mechanical Systems and Signal Processing, 2018, 99: 30-46.
[10]RAY P, MAITRA A K, BASURAY A. A New Threshold Function for De-noising Partial Discharge Signal Based on Wavelet Transform[C]//2013 International Conference on Signal Processing, Image Processing amp; Pattern Recognition. Coimbatore, India:[s.n.], 2013: 185-189.
[11]BHOWMICK A, CHANDRA M. Speech Enhancement Using Voiced Speech Probability Based Wavelet Decomposition[J].Computers amp; Electrical Engineering, 2017, 62: 706-718.
[12]BEENAMOL M, PRABAVATHY S, MOHANALIN J. Wavelet Based Seismic Signal De-noising Using Shannon and Tsallis Entropy[J].Computers amp; Mathematics with Applications, 2012, 64(11): 3580-3593.
[13]XIE B, XIONG Z Q, WANG Z J, et al. Gamma Spectrum Denoising Method Based on Improved Wavelet Threshold[J].Nuclear Engineering and Technology, 2020, 52(8): 1771-1776.
[14]LI Y, CHENG G, LIU C, et al. Study on Planetary Gear Fault Diagnosis Based on Variational Mode Decomposition and Deep Neural Networks[J].Measurement, 2018, 130: 94-104.
[15]WU Z H, HUANG N E. Ensemble Empirical Mode Decomposition: A Noise-Assisted Data Analysis Method[J].Advances in Adaptive Data Analysis, 2009, 1(1): 1-41.
[16]YEH J R, SHIEH J S, HUANG N E. Complementary Ensemble Empirical Mode Decomposition: A Novel Noise Enhanced Data Analysis Method[J].Advances in Adaptive Data Analysis, 2010, 2(2): 135-156.
[17]DRAGOMIRETSKIY K, ZOSSO D. Variational Mode Decomposition[J].IEEE Transactions on Signal Processing, 2013, 62(3): 531-544.
[18]HU H P, ZHANG L M, YAN H C, et al. Denoising and Baseline Drift Removal Method of MEMS Hydrophone Signal Based on VMD and Wavelet Threshold Processing[J].IEEE Access, 2019, 7: 59913-59922.
[19]XU L, CAI D S, SHEN W, et al. Denoising Method for Fiber Optic Gyro Measurement Signal of Face Slab Deflection of Concrete Face Rockfill Dam Based on Sparrow Search Algorithm and Variational Modal Decomposition[J].Sensors and Actuators A: Physical, 2021, 331: 112913-112925.
[20]BIAN J. Fault Diagnosis of Bearing Combining Parameter Optimized Variational Mode Decomposition Based on Genetic Algorithm with 1.5-Dimensional Spectrum[J].Journal of Propulsion Technology, 2017, 38: 1619-1624
.[21]YAN H C, XU T, WANG P, et al. MEMS Hydrophone Signal Denoising and Baseline Drift Removal Algorithm Based on Parameter-Optimized Variational Mode Decomposition and Correlation Coefficient[J].Sensors, 2019, 19(21): 4622-1-4622-21.
[22]WANG Z J, YANG N N, LI N P, et al. A New Fault Diagnosis Method Based on Adaptive Spectrum Mode Extraction[J].Structural Health Monitoring, 2021, 20(6): 3354-3370.
[23]CHEN F M, WANG J Q, LI C T. 94 GHz Asymmetric Antenna Radar for Speech Signal Detection and Enhancement via Variational Mode Decomposition and Improved Threshold Strategy[J].IEEE Access, 2022, 10: 97930-97944.
[24]WANG Y W, CHEN P, ZHAO Y M, et al. A Denoising Method for Mining Cable PD Signal Based on Genetic Algorithm Optimization of VMD and Wavelet Threshold[J].Sensors, 2022, 22(23): 9386-1-9386-12.
[25]HU H P, AO Y, YAN H C, et al. Signal Denoising Based on Wavelet Threshold Denoising and Optimized Variational Mode Decomposition[J].Journal of Sensors, 2021, 2021: 5599096-1-5599096-23.
[26]左乾君. 基于SSA-VMD的滾珠絲杠副故障診斷方法研究[D].襄陽(yáng): 湖北文理學(xué)院, 2023. (ZUO Q J. Research on Fault Diagnosis Method of Ball Screw Pair Based on SSA-VMD[D].Xiangyang: Hubei University of Arts and Sciences, 2023.)
[27]陸振宇, 盧亞敏, 夏志巍, 等. 基于變分模態(tài)分解和小波分析的語(yǔ)音信號(hào)去噪方法[J].現(xiàn)代電子技術(shù), 2018, 41(13): 47-51. (LU Z Y, LU Y M, XIA Z W, et al. Speech Signal Denoising Method Based on Variational Mode Decomposition and Wavelet Analysis[J].Modern Electronic Technique, 2018, 41(13): 47-51.)
[28]高楠, 毛露露, 梁利利. 基于ISD優(yōu)化SSA-VMD算法的自適應(yīng)英文語(yǔ)音增強(qiáng)[J].計(jì)算技術(shù)與自動(dòng)化, 2024, 43(4): 86-90. (GAO N, MAO L L, LIANG L L. Adaptive English Speech Enhancement Based on ISD Optimization of SSA-VMD Algorithm [J].Computing Technology and Automation, 2024, 43(4): 86-90.)
[29]李宏, 李定文, 朱海琦, 等. 一種優(yōu)化的VMD算法及其在語(yǔ)音信號(hào)去噪中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 59(5): 1219-1227. (LI H, LI D W, ZHU H Q, et al. An Optimized VMD Algorithm and Its Application in Speech Signal Denoising[J].Journal of Jilin University (Science Edition), 2021, 59(5): 1219-1227.)
[30]XUE J K, SHEN B. A Novel Swarm Intelligence Optimization Approach: Sparrow Search Algorithm[J].Systems Science amp; Control Engineering, 2020, 8(1): 22-34.
[31]LI Y L, WANG S Q, CHEN Q R, et al. Comparative Study of Several New Swarm Intelligence Optimization Algorithms[J].Computer Engineering and Applications, 2020, 56(22): 1-12.
(責(zé)任編輯: 王 健)
吉林大學(xué)學(xué)報(bào)(理學(xué)版)2025年2期