中圖分類號:TN912.35 文獻標志碼:A
0 引言
語音增強是指當語音信號被多類型的噪聲干擾甚至淹沒后,從噪聲背景中提取有用的語音信號,抑制、降低噪聲干擾的技術。該技術作為語音信號處理的核心任務之一,在實時通信、智能助聽、人機交互等領域具有重要價值。語音增強技術不僅能夠提升語音通信的質量[1-2],改善智能助聽設備的用戶體驗[3],還能推動人機交互系統的智能化發展[4]。然而,盡管語音增強技術在過去幾十年中取得了顯著進展,但在復雜噪聲環境下實現有效的語音增強仍面臨嚴峻挑戰。
在實際應用場景中,噪聲通常呈現結構化與非平穩性共存的特點。傳統方法如譜減法[5-6]、維納(Wiener)濾波算法[7-8]、基于統計模型的方法[9]、最小均方誤差算法(Minimum Mean Square Error,MMSE)\"和基于小波分解的語音增強算法[\"在平穩噪聲環境中表現良好,但在非平穩噪聲和低信噪比環境下,由于噪聲估計的準確性下降,這些傳統方法的增強性能顯著降低。近年來,基于深度學習的語音增強模型[12]在性能上取得了顯著突破。深度神經網絡(DeepNueral Network,DNN)[13-14]等模型通過大規模數據訓練,能夠學習從帶噪語音到純凈語音的復雜映射關系,從而在語音增強方面表現出色。例如,韓偉等[15提出了一種結合深度神經網絡和約束維納濾波的聯合優化方法,通過直接訓練帶噪語音的幅度譜,顯著提升了語音增強的性能。然而,深度學習模型雖然在性能上具有優勢,但其高計算復雜度和高數據依賴性限制了在資源受限設備(如嵌入式系統、可穿戴設備)中的部署。
傳統的NMF[16]方法因其低計算復雜度和良好的可解釋性,在語音增強領域得到了廣泛應用。Mohammadiha等[17]通過引入貝葉斯框架和隱馬爾可夫模型(HiddenMarkov Model,HMM),提出了基于貝葉斯NMF(Bayes Nonnegative Matrix Factorization,BNMF)的語音增強方法,該方法能夠在未知噪聲類型的情況下實現噪聲分類和語音增強。另外,為了進一步提升語音增強模型的泛化能力和計算效率,張開生等[18]提出了一種基于雙重約束非負矩陣分解和改進正交匹配追蹤(Orthogonal MatchingPursuit,OMP)算法的語音增強方法,該方法通過引入時間約束和稀疏度約束,顯著提升增強性能。
在復雜噪聲環境下,為實現更高效的語音增強,本文提出了一種融合LinNMF與OMLSA的級聯式語音增強框架。該框架首先利用LinNMF對帶噪語音的時頻表示進行分解。在分解過程中,通過定義和優化目標函數,實現對基矩陣和編碼矩陣的估計,從而更精確地建模語音和噪聲的譜結構特性。隨后,將NMF分解得到的語音成分作為先驗信息輸人OMLSA算法,通過貝葉斯最小均方誤差準則優化對數譜幅度估計,同時結合噪聲功率譜的動態更新機制,有效抑制殘留噪聲成分。該聯合算法無須依賴大規模數據進行模型訓練,計算效率高且具有良好的可解釋性。在工業檢測、車載通信以及助聽設備等領域,該算法都展現了巨大的應用潛力,能夠有效滿足實際場景中的語音增強需求。
1基于LinNMF和OMLSA的語音增強
1.1 算法流程
本方案采用高效的級聯式架構,通過前端和后端協同優化實現卓越的語音增強效果。前端采用LinNMF技術進行噪聲建模:以廣義 β 散度( (β=0.5) 作為動態誤差度量,自適應平衡高低能量成分權重,從而更精準地捕捉語音信號中的關鍵特征。結合預定義基函數矩陣 ψ-j 對字典生成進行約束,不僅提高了語音成分分解的物理可解釋性,還確保了分解結果與語音信號的實際物理特性相符。同時,前端引入稀疏約束和L2正則化雙重優化機制,有效抑制噪聲編碼活性,提升基函數組合的聲學泛化能力。后端改進OMLSA算法通過改進的最小控制遞歸平均算法(Iterative Minimum Control Recursive Averaging,IMCRA)的動態噪聲估計技術能夠準確地估計噪聲水平,為后續的語音增強提供可靠的噪聲信息。同時,該算法引人了多層級聯合判據(包括局部信噪比、全局信噪比等),構建了語音存在/語音不存在(H1/HO)雙模增益函數。這種雙模增益函數能夠在臨界帶譜域內實現殘留噪聲的精細化抑制,同時有效保護語音信號中的諧波成分,避免過度處理導致語音失真。
LinNMF與OMLSA的語音增強算法流程如圖1所示。首先,對帶噪語音信號進行分幀加窗處理,通過LinNMF分解得到時頻矩陣 Y 。其次,利用基函數約束和 β 散度優化目標函數生成增益矩陣 DX ,將增益矩陣 DX 作為OMLSA的輸入,通過IMCRA噪聲估計和多層級聯合判據計算語音存在概率,進而構建雙模增益函數。最后,通過逆短時傅里葉變換(InverseShort-TimeFourierTransform,ISTFT)和重疊相加得到增強后的語音輸出。這一流程展示了LinNMF與OMLSA在語音增強中的協同作用,通過前端噪聲建模和后端精細抑制,實現對語音信號的高效增強。
圖1基于LinNMF與OMLSA的語音增強算法流程

1.2 協同優勢
LinNMF和OMLSA通過前后端協同,形成互補的噪聲抑制機制:LinNMF負責結構化噪聲分離,OMLSA處理非平穩殘留噪聲。在前端,LinNMF利用時頻基函數分解技術,將語音信號分解為一組基函數和對應的系數,從而剝離穩態噪聲和周期性聲源。這種分解方式可大幅降低后端OMLSA進行噪聲估計時的復雜度。
后端的OMLSA算法主要針對非平穩殘留噪聲,通過動態譜追蹤技術實時監測噪聲的頻譜變化。同時,結合基于維納濾波理論的多判據聯合優化方法,綜合考慮語音存在概率、信噪比等關鍵因素,精確調整增益函數。此外,OMLSA采用臨界帶譜減策略,在臨界帶寬內對頻譜進行精細調整,從而在語音保真度和降噪強度之間達到最佳平衡。
這種兩級架構通過“結構化分解 $$ 非結構化凈化”的分層處理機制,先利用LinNMF對信號進行結構化分解,去除主要的穩態和周期性噪聲成分,再通過OMLSA對殘留的非平穩噪聲進行精細處理。在計算復雜度可控的前提下,該架構顯著提升了對復合噪聲場景的魯棒性,有效避免了傳統單級增強方法中常見的細節丟失或噪聲殘留問題,在語音增強方面展現了顯著的技術優勢。
2線性非負矩陣分解
LinNMF旨在將非負觀測矩陣 Y∈R+n×T ,分解成2個非負矩陣的乘積: Y≈DX 。其中, D∈R+n×m 為字典矩陣, X∈R+m×T 為系數矩陣。與傳統的NMF不同,LinNMF引入結構化基函數約束,使得 D 的每一列 dj∈R+ 由預定義基函數矩陣 ψj∈R+m×m 的線性組合生成: dj=ψjaj 。其中, aj∈R+p×1 為線性組合系數向量,為原子基函數矩陣(如諧波基),滿足式(1)。

傳統基于Kullback-Leibler(KL)散度的NMF方法在語音信號建模中依賴幅度譜的統計近似,通過最小化觀測譜與基矩陣和編碼矩陣乘積之間的KL散度實現分解。該方法雖然能有效捕捉語音信號的諧波結構和能量分布特性,但由于KL散度對低能量成分敏感,在低信噪比條件下容易導致噪聲殘留且對混響、非平穩噪聲等復雜聲學環境的適應性較差。為提升模型魯棒性,研究者引入稀疏約束(如L1范數或Jeffreys先驗)優化編碼矩陣分布,將信號分離問題轉化為帶正則項的約束優化模型,其目標函數可表述為最小化KL散度與稀疏懲罰項的加權和。理論表明,稀疏約束通過促進編碼矩陣的局部激活特性,能夠有效抑制噪聲主導的冗余基函數,同時增強語音成分的判別性表達。實驗驗證,在時變噪聲環境下,稀疏正則化NMF模型相比傳統方法可提升部分信號失真比(Signal-to-DistortionRatio,SDR)且計算復雜度仍保持多項式量級??赏ㄟ^進一步結合深度生成模型來增強基字典的泛化能力,從而在更復雜的聲學場景中實現魯棒分離。然而,KL散度( β=1 )作為 β 散度族的特例,其固定的誤差度量機制難以適應多變的噪聲類型。為此,本文提出LinNMF框架,通過廣義 β 散度動態調節誤差度量準則,構建更具適應性的目標
函數:

其中 ΔS 散度的定義如下: Dβ 為廣義 β 散度( β=1 時退化為KL散度 B=2 時為歐氏距離),通過參數 β 靈活平衡高/低能量成分的權重; |X|I 約束激活系數的稀疏性以抑制噪聲干擾, |aj|22 則通過平滑基組合系數增強字典的結構穩定性。該模型融合時頻冗余性分解與多尺度誤差度量機制,在提升噪聲魯棒性的同時,保留了KL散度對語音成分的精細建模能力。
3基于OMLSA的語音增強
OMLSA算法是一種經典的單通道語音增強方法,基于短時傅里葉變換(Short-TimeFourierTransform,STFT)將語音信號分解到時頻域中進行分析處理。該算法的核心在于通過時頻域聯合分析估計噪聲的統計特性,其理論基礎建立在非平穩隨機過程的譜表示理論之上。具體而言,算法首先采用STFT或小波變換將時域信號映射到時頻平面,在時頻域中建立噪聲的統計模型。通過分析時頻系數在不同頻帶上的能量分布,利用魯棒統計方法(如中值絕對偏差、順序統計量)估計噪聲的功率譜密度(PowerSpectralDensity,PSD)和時變方差??紤]到實際環境中噪聲的非平穩性和時變特性,算法進一步引入自適應滑動窗口機制,動態更新噪聲統計參數的估計。這種時頻域分析方法能夠有效克服傳統時域方法對噪聲平穩性假設的依賴,顯著提高在復雜聲學環境下噪聲特性估計的準確性。理論表明,當時頻分辨率滿足不確定性原理的下界時,該估計器能達到克拉美羅界(Cramer-RaoBounds,CRB)所規定的最小方差。通過上述估計,設計出最優增益函數,對帶噪語音信號的頻譜進行調整,從而在抑制噪聲的同時,保留語音的更多有用信息。OMLSA算法在計算增益函數時,綜合考慮了先驗信噪比、后驗信噪比以及語音存在概率等多個因素,有效減少了噪聲殘留現象,使得噪聲抑制效果更優。
在本實驗中,OMLSA算法采用搜索局部最小值技術(Minima Controlled Recursive Averaging,MCRA)進行噪聲功率譜估計。MCRA的核心在于動態跟蹤頻譜在時間軸上的最小值,由于語音信號的能量通常會高于背景噪聲,而噪聲的局部最小值則更接近其真實水平,因此這種方法能夠有效避免語音成分對噪聲估計的干擾,提高其魯棒性。進一步地,實驗中使用了改進的最小控制遞歸平均(ImprovedMinimaControlledRecursiveAveraging,IMCRA)算法。IMCRA算法在MCRA的基礎上進行了優化,結合了時域平滑和遞歸平均策略。時域平滑能夠減少噪聲估計中的瞬時波動,使估計結果更加平滑穩定;而遞歸平均策略則能夠根據當前和歷史的噪聲信息,自適應地更新噪聲估計值。對噪聲估計進行自適應更新,其數學公式為:
λd(k,l)=αd?λd(k,l-1)+(1-αd)?∣Y(k,l)∣2
其中, αd 是平滑因子, ∣Y(k,l)∣2 是當前幀的功率譜。針對非平穩噪聲環境下的語音增強問題,本研究通過引入局部最小值控制因子 Bmin 和閾值 δs 有效抑制突發性噪聲;采用多級平滑架構(幀級)和復合SNR判據(局部SNR/全局SNR)的語音存在概率估計方法,結合閾值函數實現精準的語音活動檢測。該方案通過時頻聯合處理與遞歸參數更新機制,在保證算法實時性的同時顯著提升了系統魯棒性。
局部決策:在頻域窗口內計算后驗SNR的平滑值,依據公式(4)判斷語音存在。

全局決策:在低頻到高頻范圍內 (f1~fu) 計算平均SNR,判斷整體語音活動。
幀級決策:結合前后幀的SNR變化,調整語音概 率P frame o
先驗SNR估計:先驗SNR通過式(5)估計。
η(k,l)=αη?η(k,l-1)+(1-αη)?max(γ(k,
其中, αη 是平滑因子, γ(k,l) 是后驗 SNR,計算方式如式(6)所示。

增益的計算基于估計噪聲功率譜和語音存在概率,當語音存在時,使用OMLSA的最優增益,當語音不存在時,使用最小增益 G-f 。
語音存在(H1)時:增益 GH1 通過最小化對數譜幅度的均方誤差推導得出,如式(7)所示。

其中, v(k,l) 計算方式如公式(8)所示。

語音不存在(HO)時,采用固定增益下限:

最終增益通過加權平均確定,如式(10)所示。
G(k,l)=GH1(k,l)P(H1)?Gf1-P(H1)
改進的OMLSA算法采用雙模態噪聲估計架構,通過建立穩態噪聲譜跟蹤模型和非穩態噪聲動態補償機制,實現對異質噪聲環境的魯棒處理。該算法引入基于臨界帶分析的局部極值保護策略,通過自適應閾值門限約束和語音存在概率優化,有效抑制語音成分在譜減過程中的過消除現象。
4實驗仿真及性能分析
4.1數據集和評價指標
本實驗采用VoiceBank語音庫的訓練語音信號與測試語音信號進行數據分析,語音采樣率為16kHz 。針對訓練語音,對語音庫中的語音樣本進行分幀處理,設置幀長度為256個采樣點,對應每幀時長為 16ms 。通過滑動窗口機制從訓練集中隨機選取100000幀作為分析單元。噪聲選自NOISEX-92數據庫的M109、F16、White和Hf-channel4類,為每幀純凈語音添
隨機信噪比的動態噪聲,確保數據多樣性。
語譜圖特征提取采用STFT技術,參數設置為:256點漢明窗、128采樣點幀移、256點FFT長度。該配置在時頻分辨時取得平衡(頻率分辨率為 62.5Hz ,時間分辨率為 16ms/ 幀)。最終構建的聲學特征集包含100000組帶噪-純凈語音對,每組數據包含時域波形及其對應的語譜圖矩陣,為后續語音增強模型提供多維度訓練數據。
4.2評價指標
在語音信號處理領域,客觀評價指標對于衡量語音質量至關重要。本文采SNR和語音質量感知評估(PerceptualEvaluationofSpeechQuality,PESQ)作為客觀評價指標。PESQ是基于國際電信聯盟的P.862標準構建的語音質量評價體系,綜合了主觀聽覺感知與客觀信號分析,能夠較為準確地反映語音在傳輸過程中的質量變化。其評分區間為-0.5~4.5分,得分越高表明語音保真度越佳,即語音在經過處理或傳輸后與原始語音的相似度越高,聽感也更接近自然語音。SNR是通過時域分析量化語音信號的失真程度,計算語音信號中的有用信號功率與噪聲功率的比值,直觀地反映語音信號的純凈度。較高的SNR值意味著語音信號中的噪聲干擾較小,語音的清晰度和可懂度更高。在語音通信系統中,SNR通常用于評估語音信號在傳輸過程中受到的干擾程度,是衡量語音質量的基礎指標之一。兩者共同構建了語音質量評估的客觀標準體系,能夠從不同角度全面反映語音信號的質量。在實際應用中,結合這2個指標可以更準確地評估語音處理算法的性能以及語音通信系統在不同環境下的表現。
4.3實驗結果和分析
驗證所提方法的有效性并詳細對比不同降噪算法在噪聲抑制與語音頻譜保留方面的性能差異,干凈語音時頻如圖2所示,圖3展示了一段噪聲類型為工廣環境、輸入信噪比為-5dB的帶噪語音經多種方法增強后的時頻圖對比結果。通過分析可知,傳統NMF方法(見圖4)雖然在噪聲抑制方面表現顯著,但其增強后的語音在低頻區域( 1~3kHz )存在明顯的頻譜缺失,導致語音清晰度下降。而改進的LinNMF方法(見圖5)通過引入線性約束優化基矩陣的稀疏性,在保持相近噪聲抑制水平的同時,顯著改善了低頻段的頻譜結構完整性,尤其是在 2~4kHz 范圍內的語音諧波成分得以更完整地保留。
然而,單獨使用LinNMF方法仍存在高頻區域( 4~6kHz 噪聲殘留的問題,這主要源于其全局優化過程中對高頻細節特征的敏感性不足。相比之下,OMLSA方法(見圖6)在高頻段的噪聲抑制效果較好,但其依賴統計模型的特點導致低頻語音能量過度衰減,削弱了語音的自然度。本文提出的LinNMF-OMLSA聯合方法(見圖7)通過分層處理機制,首先利用LinNMF對帶噪語音進行粗粒度降噪以保留主體頻譜結構,再通過OMLSA對高頻殘留噪聲進行自適應精細化抑制。實驗結果表明,該方法在時頻圖中呈現出更均衡的噪聲抑制效果:低頻段( [1~3kHz) 的語音共振峰結構與高頻段( (4~6kHz) 的摩擦音細節均得到有效恢復,同時背景噪聲能量(反映為圖中深色區域)較單一方法降低約 3~5dB 。這種改進證實了聯合方法在時-頻域協同優化方面的優勢,既能避免傳統方法過度降噪導致的語音失真,又可解決單一算法在頻帶處理上出現的不均衡問題。
圖2干凈語音時頻

圖3帶噪語音時頻

圖8—11對比了-5~10 dB 信噪比下,對White、M109、Hf-channel及F16這4種不同類型的噪聲環境,采用NMF、LinNMF、LinNMF-OMLSA這3種方法進行降噪后的信噪比對比情況。在White噪聲環境中,隨著信噪比從-5dB提升至10dB,3種方法的SNR均遞增趨勢,其中LinNMF-OMLSA聯合方法在各信噪比下均表現出優越的降噪效果,在信噪比為 -5dB 時最為突出。對于M109噪聲,在信噪比為
圖4NMF方法降噪后的語音時頻

圖5LinNMF方法降噪后的語音時頻

圖6OMLSA方法降噪后的語音時頻

圖7LinNMF-OMLSA聯合方法降噪后的語音時頻

5dB時的SNR較LinNMF方法提升約 6.4% 。在Hf-channel噪聲環境下,傳統NMF方法SNR最低,聯合方法在信噪比為 10dB 時的SNR較NMF方法提升超52% ,這表明聯合方法在高頻噪聲環境下具有更強的降噪能力。在F16型噪聲的中高信噪比場景中,LinNMF-OMLSA聯合方法同樣展現了突出的性能,這進一步證實了該方法在不同類型噪聲環境下的泛化性和有效性。
表1數據顯示,在不同噪聲環境下,多種語音增強方法的PESQ性能對比中,LinNMF-OMLSA聯合方法優勢顯著。在White噪聲環境下低信噪比(-5dB)時,其PESQ得分為1.8149,高于NMF的1.3972和LinNMF的1.4827,高信噪比( 10dB )時以3.1150分領先;在M109噪聲環境下-5dB信噪比時得分2.4989,超越OMLSA的1.8639和LinNMF的1.8156,5dB信噪比得分3.1012,比LinNMF的2.9165提升 6.3% ;高頻通道噪聲環境 0dB 信噪比得分2.2932,較NMF提升 56.6% ,10dB信噪比得分2.8716,較傳統NMF提升 37.9% ;F16噪聲環境下-5dB信噪比得分2.0487,5dB信噪比得分2.7812,均優于其他方法。該聯合方法融合LinNMF的噪聲建模能力與OMLSA的精細噪聲抑制能力,在-5dB信噪比條件下表現出眾,于頻譜保留與噪聲抑制間達成卓越平衡,適用于白噪聲、機械噪聲、高頻噪聲等多種噪聲類型,顯著提升語音增強效果,為復雜噪聲環境下的語音處理提供有效解決方案。
圖8White型噪聲降噪后SNR圖

圖9M109型噪聲降噪后SNR圖

圖10Hf-channel型噪聲降噪后SNR圖

圖11F16型噪聲降噪后SNR圖

表1不同噪聲環境下各方法的PESQ性能

5結語
本文針對傳統基于NMF的語音增強方法在低信噪比( SNRlt;0dB )和清音段頻譜結構缺失時易導致的語音失真問題,提出了一種融合LinNMF與OMLSA的混合增強算法。該算法通過LinNMF對語音信號進行結構化分解,提取語音與噪聲的基向量以實現噪聲源分離,隨后利用OMLSA對殘余非平穩噪聲進行統計建模,通過時頻掩碼優化對數譜幅度。實驗結果表明,在多種噪聲類型(如White ??M109 、Hf-channel 和F16)和不同信噪比條件下,所提方法在SNR和PESQ指標上均展現出顯著優勢。具體而言,在-5dB的低信噪比場景下,聯合方法的PESQ得分較傳統NMF提升高達 29.9% (如White噪聲下從1.3972提升至1.8149),在高信噪比( 10dB )時仍保持顯著優勢(如M109噪聲下PESQ得分達3.3880)。時頻分析進一步表明,該方法能有效保留 1~3kHz 低頻段的語音共振峰結構和 4~6kHz 高頻段的摩擦音細節,同時將背景噪聲能量降低 3~5dB 。此外,聯合方法在突發性非平穩噪聲干擾下,信噪比提升幅度超過 3.5dB ,尤其在Hf-channel噪聲環境中,信噪比提升比例高達52% ,驗證了其在噪聲抑制與語音保真度方面的卓越平衡能力。該研究為工業檢測、車載通信等復雜噪聲環境下的語音增強任務提供了兼具高效性和魯棒性的解決方案。
參考文獻
[1]毛俊紅.物聯網場景下聲音增強技術的應用與優化探索[J].電聲技術,2025(3):173-175.
[2]田斌鵬,董文方,張昆,等.面向旋翼飛機螺旋槳干擾的AM通信語音信號智能增強方法[J].電訊技術,2022(7):947-952.
[3]朱亞濤,陳霏,張雨晨,等.基于循環神經網絡的雙耳助聽器語音增強算法[J].傳感技術學報,2021(9):1165-1172.
[4]黃小燕,向成洪.基于人機智能交互的英語網絡學習平臺語音通信增強研究[J].自動化與儀器儀表,2022(9) :71-74.
[5]BOLL S.Suppression of acoustic noise in speechusing spectral subtraction[J].IEEE TransactionsonAcoustics,Speech,and Signal Processing,1979(2):113-120.
[6]周坤,陳文杰,陳偉海,等.基于三次樣條插值的擴展譜減語音增強算法[J].北京航空航天大學學報,2023(10) :2826-2834.
[7]孫坤倫,夏秀渝,孫文慧.基于聽覺掩蔽效應的改進型維納濾波算法[J].計算機與網絡,2020(13):68-71.
[8]張青,吳進.基于多窗譜估計的改進維納濾波語音增強[J].計算機應用與軟件,2017(3):67-70,118.
[9]孔德廷.一種改進的基于對數譜估計的語音增強算法[J].聲學技術,2020(2):208-213.
[10]EPHRAIM Y,MALAH D. Speech enhancementusing a minimum-mean square error short-time spectralamplitude estimator[J]. IEEE Transactions on Acoustics,Speech,and Signal Processing,1984(6) :1109-1121.
[11]BHOWMICKA, CHANDRAM.Speechenhancement using voiced speech probability basedwavelet decomposition[J].Computersamp; ElectricalEngineering,2017,62:706-718.
[12]劉旭.基于深度學習的語音增強算法研究[D].桂林:桂林電子科技大學,2023.
[13]李世其,周雨玟,鄭旋燁,等.復雜噪聲環境下服務機器人語音增強算法研究[J].傳感器與微系統,2025(4) :35-39.
[14]柏浩鈞,張天騏,劉鑒興,等.聯合精確比值掩蔽與深度神經網絡的單通道語音增強方法[J].聲學學報,2022(3) :394-404.
[15]韓偉,張雄偉,周星宇,等.聯合優化深度神經網絡和約束維納濾波的單通道語音增強方法[J].計算機應用研究,2017(3):706-709,713.
[16]鮑長春,白志剛.基于非負矩陣分解的語音增強方法綜述[J].信號處理,2020(6):791-803.
[17]MOHAMMADIHA N,SMARAGDIS P,LEIJON A.Supervised and unsupervised speech enhancement usingnonnegative matrix factorization[J]. IEEE Transactionson Audio,Speech,and Language Processing,2013(10) :2140-2151.
[18]張開生,趙小芬.雙重約束非負矩陣分解與改進正交匹配追蹤算法的語音增強[J].河南科技大學學報(自然科學版),2021(1):54-60.
(編輯 王雪芬)
Speech enhancement algorithm based on LinNMF and OMLSA
LI Jiaxin, WANG Xiaoxue, ZHANG Bin, YANG Qiong (Xi’an Polytechnic University,Xi'an 71O6OO,China)
Abstract:Aiming at the problem that traditional single methods are dificult to balance the suppression of structured and non-stationary noise in speech enhancement tasksunder complex noise environments,thispaper proposes a cascaded speech enhancement framework that fuses Linear Non-negative Matrix Factorization (LinNMF)andOptimally Modified Log-Spectral Amplitude Estimation(OMLSA). This method uses LinNMF toperform low-rank decompositionon the speech signal,extracts the basis vectors of speechand structured noise to achieve noise source separation;then uses OMLSA to perform statistical modeling on the residual non-stationary noise,and optimizes the log-spectral amplitudethrough time-frequency masking.Simulation experiments on complex noise with low signal-tonoise ratio (SNR lt;0 dB)show that,compared with using NMF or OMLSA alone,the proposed joint method can improvethesignal-to-noiseratio(SNR)bymore than 3.5,andissuitable for fieldssuchas industrial detection, vehicle-mounted communication,and hearing aid devices.
Key words:speech enhancement;Linear Non-negative Matrix Factorization(LinNMF);Optimally Modified LogSpectral Amplitude Estimation (OMLSA); structured noise separation