吳慶賀,吳海鋒,沈 勇,曾 玉
(云南民族大學電氣信息工程學院,昆明650504)(通信作者電子郵箱whf5469@gmail.com)
語音是語言的聲學表現,是人類交流信息最自然和最方便的形式。在很多工業環境中,大型設備的作業往往需要多人協同操作,比如一人根據作業環境發出指令,一人根據指令進行操作,而語音通信就成為相互協作中有效的溝通方式。然而,語音不可避免受到環境噪聲的干擾,特別當大型設備的動力系統和作業系統所產生的聲音強度遠遠大于語音強度時,相互通信的有效性就會產生影響,嚴重時還會產生通信失效,導致協同作業的失敗。語音增強是通過減輕或抑制背景噪聲來相對提高語音功率的一種技術,由于它能減小噪聲對通信雙方所產生的干擾,因此廣泛應用于噪聲環境的語音通信場景[1-3]。
早期的語音通信設備常采用單麥克風設計,因此其語音增強也基于單麥技術[1-5]。單麥語音增強由于只使用一個麥克風,缺少參考信號,導致直接從帶噪語音中估計的語音與真實語音差異較大,語音增強效果受到影響[4]。為了更準確地估計語音,一種可行的方法是用自回歸(AutoRegression,AR)對語音進行狀態空間模型(State Space Model,SSM)建模,再用卡爾曼濾波解決該AR模型(AR-Kalman)[5-7]。該方法的性能往往與AR系數的階次相關,只有較高的階次才能準確恢復語音,但這又會使得語音增強的計算復雜度增高。多麥克風技術是在語音設備的不同位置配備多個麥克風,相當于產生了多個通道的語音信號[8-9]。相較于單麥技術,多麥語音增強更容易消噪,因此也得到了更廣泛的應用[5,10-11]。較早的多麥語音增強采用雙麥克風設計,兩個麥克風所收集的噪聲信號近似相等,收集的語音信號具有不同的衰減,因此兩者進行相減就可以將噪聲相消(Noise Cancel,NC)[12-14]。這種NC算法簡單,易于實施,但若系統本身存在的噪聲功率較大,相消后的殘余噪聲仍然會極大地干擾語音信號。近年來,由于深度神經網絡的興起,深度學習也被嘗試用于多麥的語音增強中[8],但是深度學習需要對不同的環境噪聲進行大規模的數據訓練,而且深度網絡的訓練參數數目往往極其龐大,這些都使得實施成本變得昂貴。另外,若將工業噪聲也看成一個源信號,多麥語音增強也可以是一個盲源分離的“雞尾酒會”問題[15-17]。盲源分離算法中具有代表性的是獨立成分分析(Independent Component Analysis,ICA)[15-18],但ICA需要計算四階統計量,要求盡可能多的觀測值,即使運算速度較快的FastICA[15-18]也需經多次循環迭代才能收斂,其實時性能難以滿足即時語音通信的要求[9]。
針對以上傳統語音增強應用于工業噪聲環境下的問題,本文提出了一種采用多麥的卡爾曼算法(Multi-Microphone Kalman Algorithm,MMKA)來進行語音增強。與傳統的ARKalman相比,其狀態方程采用較為簡單的差分方程來減少AR系數數目,同時利用多麥技術,在狀態空間方程中構建了混合矩陣。該算法的實時性和復雜度優于ICA類算法和傳統的AR卡爾曼濾波。另外,為了進一步降低計算復雜度,本文還根據多麥技術構建混合矩陣,采用最小二乘方法進行語言增強(Least Square Speech Enhancement,LSSE)。實驗中,本文采用公開數據庫中的一組純凈語音信號和來自兩組不同環境的工廠噪聲信號,模擬了多麥技術下多通道的帶噪語音。實驗結果表明,本文的MMKA的輸出語噪比(增強后的語音與殘留噪聲之比)優于傳統AR卡爾曼濾波約2 dB,而運行時間僅不到其2%。同時,MMKA還能夠滿足實時性要求,其延遲時間為毫秒級別,而FastICA和AR-Kalman卻存在約平均半秒的延遲。另外,當考慮低復雜度的語音增強算法時,本文提出的低復雜度的LSSE運行時間與傳統NC算法相當,但輸出語噪比卻優于其約1 dB。
早期的通信設備多采用單麥克風對語音的采集,由于缺少參考信號,因此需要對語音信號建模。較流行的方法是通過AR建模,得到狀態空間方程[5,7],表示為:

其中:X k=[Sk Nk]為第k時刻的狀態矢量,Sk為純凈語音信號,Nk為環境噪聲信號(k=1,2,…,K);φk=[ρkυk]T為狀態高斯白噪聲矢量,ρk為純凈語音信號AR模型所含噪聲,υk為環境噪聲信號AR模型所含噪聲;μk為測量過程噪聲;A為AR模型系數相關矩陣;H1、H2分別為狀態方程和測量方程系數矩陣。
根據式(1)、(2),卡爾曼濾波求解該AR狀態空間模型[5],完成語音增強;然而,對Sk和Nk進行AR建模時需要分別對信號分幀,這會直接影響矩陣A維度大小,從而影響卡爾曼濾波的復雜度與延遲時間。若模型階數取得過大,矩陣A的維度增大,計算復雜度增加;若階數過小,AR建模信號又會與真實值偏差過大。
為提高語音傳輸的質量,語音設備可配備多個麥克風。相比單麥語音,多麥克風可采集多個通道的語音信號,相當于有更多的觀測值,以減小降噪和去噪的難度。較早的多麥語音增強采用雙麥克風設計來實現噪聲相消[10-12],若兩個麥克風采集的語音信號間所存在延遲僅可以避免造成符號間的干擾,則可表示為:

其中:y1k和y2k分別為主麥克風和參考麥克風接收的帶噪語音信號,h1和h2分別為主麥克風和參考麥克風對應的語音信號衰減系數,N1k和N2k分別為主麥克風和參考麥克風接收到的環境噪聲信號,w1k和w2k分別為主麥克風和參考麥克風接收到的高斯白噪聲。
雙麥克風的配備使得Sk經過了h1和h2的不同衰減,而N1k和N2k又近似相等,因此若不考慮延遲,兩麥克風相減信號y1k-y2k理論上僅剩純凈語音信號。然而實際應用過程中,當環境噪聲信號功率遠大于語音信號時,N1k-N2k會遠大于Sk,同時還會存在白噪聲殘余信號w1k-w2k。
另外,若將n個麥克風接收的語音信號看成多源信號的混合疊加,則式(3)、式(4)可以表示為:

其中:Y k=[y1ky2k…yNk]T,N為麥克風總數;B為混合矩陣,由各語音信號和環境噪聲到各麥克風的衰減系數構成;w k為高斯白噪聲矢量。從式(5)求解Sk是一典型的盲源分離問題[17-18],求解該問題的一種代表性算法是ICA類算法,而其中快速ICA算法(也稱為FastICA)的計算速度和魯棒性都比較高,表示為:

其中:W為分離矩陣,z為Y k白化后所得到的,g(?)為負熵的魯棒近似函數的導數,g'(?)為g(?)的導數。從式(6)可以看到,FastICA算法需要計算負熵函數,其一般為四階統計量,而且其分離矩陣W需要循環迭代。因此,將其應用于實時性較高的語言通信系統中,會出現計算復雜度高和收斂速度慢的缺點。同時,多麥克風的帶噪語音信號不含有關于源信號排序信息,分離的噪聲和語言信號的順序也是不確定的[17-18]。
在工業環境中,語音是人們在協同工作中完成溝通的常用方式,然而各種復雜生產環境產生的噪聲極易對語言信號的通信造成干擾,例如機械設備的動力系統或傳動系統產生的噪聲。這些噪聲遠比普通生活場景中的噪聲強度高,其信號功率也通常大于語音信號功率,而語音增強可以有效降低噪聲對語言通信造成的不利影響。

多麥技術配備多個麥克風來增強語音,如圖1所示,第k時刻的語言源信號Sk和噪聲源信號Nk分別經a1,a2,…,a N和b1,b2,…,bN的衰減到達麥克風1,麥克風2,…,麥克風N,并與白噪聲w k疊加形成含有白噪聲的帶噪語音信號Y k=[y1ky2k…y Nk]T。若令則Y k由式(5)來表示,而語音增強的問題就是從觀測的語音信號Y k中盡可能得到純凈語音信號Sk。由于語音通信的實時性要求,采用的語音增強算法應該具有處理速度快和延遲時間少的特點,另外,為了滿足可應用于工程實踐的要求,算法還應該具有較低的計算復雜度,以保證較低的系統實現成本。下面主要從以上要求來介紹本文的語音增強算法。

圖1 多麥克風的帶噪語音增強問題Fig.1 Multi-microphone noisy speech enhancement problem
由于語音信號本身的非平穩性,可以利用狀態空間模型來表示語音信號不同時刻的相關性[7];同時,卡爾曼濾波是一種通過狀態空間模型和貝葉斯準則來估計隱藏狀態的一種算法[7],因此建立有效的SSM方程就可以采用卡爾曼算法來對語音增強。SSM方程通常可以表示為:

其中:h(?)為狀態函數,f(?)為測量函數,ωk是狀態噪聲矢量,μk是觀測噪聲矢量。通過式(5)估計X k,需要知道函數h(?)和f(?),若它們均為線性函數時,可以利用線性卡爾曼濾波法估計X k;若為非線性函數,可以利用擴展卡爾曼、粒子濾波或積分卡爾曼等非線性濾波[7]。但是,無論采用何種方法估計X k,必須知道這兩個方程。
3.1.1 狀態方程
下面,先來構造狀態方程(7)。對語音信號Sk進行歸一化,令:

若ω1k∈ [Sl,Sr],則將[Sl,Sr]分成 2L個區間l1,l2,…,l2L,分 別 統 計ω1k落 在 各 個 區 間 的 概 率P(ω1k∈li)(i=1,2,…,2L)。當采樣周期Δt較小時,其概率分布圖近似于高斯分布。圖2(a)給出了來自IEEE語音庫中一個語音信號的P(ω1k∈li)概率分布,其中Δt=0.5 ms。由圖2(a)可以看出,該語音信號ω1k值越小,發生的概率越大,分布曲線近似于零均值的高斯分布。接著,計算ω1k的自相關函數R1(τ),其中τ=k1-k2,k1、k2∈ {1,2,…,K},其波形近似單位沖擊響應函數δ(τ),符合白噪聲特性。圖3(a)給出了圖2(a)中語音信號的R1(τ)的波形,由圖中可以看到,當τ=0時,R1(τ)取得最大值,而τ取其他值時,R1(τ)均較小,因此,可以推斷ω1k為一近似高斯白噪聲。另外,對工業噪聲信號Nk進行歸一化,令:

當采樣周期Δt較小時,ω2k同樣滿足高斯白噪聲特性。圖2(b)和圖3(b)分別給出了一個工廠噪聲信號的P(ω2k∈li)和ω2k的自相關函數R2(τ)波形圖,其中Δt=0.5 ms。從圖中可以看到,其概率分布和自相關函數圖也近似于高斯分布和單位沖擊相應函數。

圖2 純凈語音信號和噪聲信號factory 1相鄰兩時刻差值的概率分布Fig.2 Probability distribution of thedifference between two adjacent timesof purespeech signal and noisesignal factory 1

圖3 純凈語音信號和噪聲信號factory 1相鄰兩時刻差值的自相關分布Fig.3 Autocorrelation distribution of the difference between two adjacenttimesof purespeechsignal and noisesignal factory 1

其中ωk=[ω1kω2k]T是高斯白噪聲矢量。
3.1.2 測量方程
根據式(3),測量值Y k為各麥克風接收到Sk和Nk的線性
根據以上分析,可以將式(7)改寫為:疊加,因此測量方程(8)可改寫為:

其中μk=[μ1kμ2k…μNk]T是方差矩陣為Qμ的高斯白噪聲為對角陣。若方程(12)能夠確定,則混合矩陣B需已知。在多麥語音系統中,語音的衰減隨其與麥克風距離的波動而波動[19],距離麥克風較遠的語音衰減系數大于距離近的語音。同時,由于兩個麥克風安裝在同一個電話上,因此其距離不會超過電話本身長度,設兩麥克風間距離為10-2m,若噪聲到麥克風的距離在10 m,則噪聲源到不同麥克風的相對距離差在10-2/10=10-3的量級,若噪聲到麥克風的距離在1 m時,距離差在10-2/1=10-2的量級。由此可確定,只要噪聲源離電話距離相對較遠時,距離差可近似看作零。因此在工業環境中,若語音源與多個麥克風的距離相對固定,例如手持電話的一個麥在下端,一個在背面[10-11],那么衰減系數也相對不變。此時,可預先對B進行測量,以保證B為已知。至此,確定式(11)、式(12)為本文語音增強的SSM方程,其中式(11)中狀態過渡矩陣僅僅是常數1,相比于式(1)的AR-Kalman的狀態過渡矩陣A具有更小的維度。
在式(11)、(12)的SSM方程中,由于狀態方程和測量方程均為線性函數,因此可以直接采用卡爾曼濾波來估計隱藏狀態X k,從而得到語音信號Sk以完成語音增強。又由于ωk和μk均為高斯白噪聲矢量,因此卡爾曼濾波可以保證在貝葉斯準則下估計的隱藏狀態X k為最優。下文算法步驟給出了本文提出的MMKA步驟,其中引入了符號k|k和k+1|k,表示為給定觀測值Y k下對第k時刻和第k+1時刻參數的估計和預測。例如,X?k|k表示給定觀測值Y k下對X k的估計值,X k的最終估計值就由X?k|k來表示。
算法步驟
輸入 觀測值為帶噪語音信號,即Y k=[y1ky2k…y Nk]T。
已知參數 過渡矩陣為單位矩陣A k=I,測量矩陣B k=B,動態噪聲的協方差矩陣Qω,測量噪聲的協方差矩陣Qμ。

為進一步減少計算復雜度,本文采用最小二乘估計(Least Square,LS)X k來實現語音增強。根據式(12),若混合矩陣B為已知,LSSE表示為:

此時可使白噪聲μk的平方對估計造成的影響減少至最小。另外一方面,NC算法將兩個麥克風的語音相減,即使能把工業噪聲消除,但兩個麥克風的白噪聲不盡相同,白噪聲無法消除,仍然會影響語音的增強性能。
本節將給出本文提出的語音增強算法與已有算法的一些相關參數,以此說明各算法的計算復雜度。MMKA和ARKalman都采用卡爾曼濾波來對語音信號增強,其復雜度與其狀態方程的過渡矩陣密切相關。對于狀態過渡矩陣維度,MMKA中,其過渡矩陣為常系數1,因此維度為1×1。對于AR-Kalman算法,其SSM引入了AR建模,因此其過渡矩陣維度為J×J,其中J=p+r,p和r分別為是Sk和Nk的AR模型階數。由于后者的過渡矩陣維度更大,因此導致采用卡爾曼濾波時的計算復雜度較高。
除此之外,對于各算法的循環次數:FastICA的解混矩陣需要反復循環Kf次才能收斂,通常有Kf>1。并且,FastICA每次循環中計算高階統計量需對K個數據同時處理,因此只有K個時刻的語音接收完畢才能進行處理,影響了實時性。MMKA、LSSE、NC和AR-Kalman算法均由第k時刻觀察值Y k可直接得到語音信號S?k,因此不需要循環,其循環次數均為1。
最后,NC和LSSE兩種算法既不需要ICA類算法進行循環來收斂,也不需要卡爾曼濾波算法進行迭代,計算復雜度較低。LSSE復雜度集中在對混合矩陣求偽逆,其乘法次數為N3量級,其中N是混合矩陣B的維度。NC是將兩個麥克風信號相減,不涉及乘法,復雜度更低。
本實驗數據為公開數據,純凈語音信號來源于IEEE語音庫 ,下 載 網 址 :https://www.cs.columbia.edu/~hgs/audio/harvard.html,本文選取的純凈語音信號為男性所朗讀一句英文 :The birch canoe slid on the smooth planks,采 樣 率25 000 Hz,時長3.1 s。兩段噪聲信號factory1.wav和factory2.wav來源于Noisex-92數據庫,下載網址為http://spib.linse.ufsc.br/noise.html,其中第一段為工廠車間切板和電焊設備所產生的噪聲,第二段為汽車生產車間所產生的噪聲,兩者的采樣率均為16000 Hz,時長235 s。
實驗中所使用的噪聲信號為從factory1.wav和factory2.wav中隨機截取,并使其與純凈語音信號的時長和采樣頻率等時長,最終的信號長度均為K=77 499,采樣率fs=25 000 Hz。然后,對語音信號和噪聲信號做歸一化處理后得到Sk和Nk。
麥克風采用雙麥克風設置,因此衰減系數B為2階方陣。把Sk和Nk經過不同的線性疊加信噪比和B進行線性疊加并加入高斯白噪聲得到觀測信號Y k。為了接近真實的工業噪聲環 境 ,本 文 設 置 衰 減 系 數 矩 陣B=[αβ]=[0.5 0.8;0.1 0.9],此時的純凈語音信號幾乎淹沒于噪聲之中,達到人耳基本無法分辨的程度。最后,利用語音增強算法對Y k處理得到增強后的語音信號對歸一化之后進行相關實驗指標的分析。
實驗中,將本文提出的MMKA和LSSE算法與已存在的MMKA、AR-Kalman和FastICA算法進行對比,以評判本文算法的性能。除4.3.1節中語譜圖的結果外,其余均為運行200次后結果的平均,其中選擇factory1.wav或factory2.wav作為工業噪聲各100次。以上相關算法的參數設置如下:
1)MMKA。過程噪聲協方差Qω=[1 0;0 1],測量噪聲協方差Qμ=[0.1 0;0 1],濾波誤差協方差矩陣[1 0;0 1],初值。
2)FastICA。雙麥克風設置,并且將帶噪語音信號分為約40段,對每段進行盲分離,則處理的延遲時間為每段語音占用時間與盲處理該段語音占用時間之和,以確保處理的實時性。
3)AR-Kalman。單個麥克風設置,Sk和Nk的AR模型階數p=r=10,幀長l=500,幀移比例ξ=40%(相鄰幀的重疊值),卡爾曼濾波的
過程噪聲協方差Qω=0p×p,測量噪聲協方差Qμ=0p×p,濾波誤差協方差矩陣,初值。
4)NC。雙麥克風設置。
5)LSSE。雙麥克風設置,偽逆矩陣采用B?。
在對比中,本文分別測試了在不同輸入語噪比(輸入的語音信號與工業噪聲功率之比)SNRi和輸入信噪比(輸入的語音信號與高斯白噪聲功率之比)SNRw下的輸出語噪比(增強后輸出的語音信號與殘留噪聲功率之比)SNRo的性能,分別定義如下:

另外,實驗還給出了主觀語音質量評估(Perceptual Evaluation of Speech Quality,PESQ)[20]和算法運行時間等指標。
4.3.1 語譜圖
圖4給出了語音增強前后的語譜圖,其中圖4(a)給出純凈語音信號的語譜圖,圖4(b)和(c)給出了兩個麥克風接收的帶噪語音信號的語譜圖,其工業噪聲為factory1.wav在SNRi=5 dB時得到,白噪聲為SNRw=30 dB時得到(factory2.wav情況類似)。通過對比,圖4(b)和(c)中帶噪語音在頻率2 000 Hz以下具有較大的功率,其他頻率段功率較小,但無論在哪個頻率段,功率分布均勻、沒有顯著的差異,這表明語音的功率已淹沒于噪聲功率之中。

圖4 含有高斯白噪聲的帶噪語音信號經不同算法增強后語音信號語譜圖對比Fig.4 Speech signal spectrogram comparison of noisy speech signal containing Gaussian white noise enhanced by different algorithms
由圖4(d)可以看出,AR-Kalman算法增強后的語音信號在0.5、1、1.5、2.5 s時刻和1 000 Hz頻率附近處有較大功率,其功率分布與純凈語音信號的語譜圖一致。同時,圖4(f)~(h)中通過MMKA、LSSE和FastICA增強后的語音信號在1 000 Hz附近的功率分布也與純凈語音信號的一致。該結果表明,經過以上算法增強的語音信號在低頻段確實保留了原純凈語音信號的功譜分布特性。除此之外,圖4(h)的NC算法得到的增強語音在1 000 Hz處,功率在各時刻上分布較為均勻,因此可推知它還原純凈語音信號的語譜特性較弱。另外,從圖4還可以注意到,以上幾種算法在5 000 Hz附近的功率在各時間段的分布較為均勻,與純凈語音信號的語譜不太一致。然而,由于人耳對1 000~3 000 Hz的語音信號最為敏感[20],因此,該頻段信號對語音通信的干擾不會很大。
4.3.2 信噪比和PESQ
圖5給出了各算法在不同SNRi和SNRw下SNRo的性能對比,從圖中可以看到,除FastICA算法以外的幾種算法的SNRo曲線由上到下排列大致為:MMKA、AR-Kalman、LSSE和NC,造成這一結果的原因如下:NC將兩個麥克風信號相減仍然無法完全消除工業噪聲信號和白噪聲信號,因此輸出信噪比值較低;LSSE通過對混合矩陣求逆可以較好地消除工業噪聲,因此輸出信噪比高于NC;但是,LSSE只能在最小二乘原則上去消除白噪聲的影響,而卡爾曼濾波是在最優貝葉斯準則下消除白噪聲的影響,因此,其輸出信噪比低于AR-Kalman和MMKA;另外,MMKA采用雙麥克風建模,相較于單麥克風AR-Kalman的輸出信噪比值要高;FastICA算法情況稍顯復雜,它采用盲分離對帶噪語音進行增強,若將白噪聲也看成一個源信號,那么源信號數將變為3,此時分離的信號將不可避免產生信號混疊,因為接收的麥克風數只有2,因此,當白噪聲SNRw小于5 dB時,其輸出SNRo低于其余幾種算法。

圖5 含有高斯白噪聲的帶噪語音信號在不同算法下的輸出語噪比Fig.5 Output speech-to-noise ratio of noisy speech signal containing Gaussian white noise under different algorithms
圖6給出了各算法在SNRw=30 dB下,PESQ隨SNRi從-10 dB變化至5 dB的曲線。從圖中可以看到,當SNRi大于-5 dB時,各算法的PESQ值由高到低的排列順序基本與圖5的一致,這也表明各算法在不同評價指標下所展示的性能具有一致性。

圖6 不同算法增強語音信號的PESQ對比Fig.6 Comparison of PESQof speech signal enhanced by different algorithms
4.3.3 算法運行和延遲時間
表1給出了各算法對帶噪語音信號進行增強的平均運行時間和算法的延遲時間(當前時刻的帶噪語音需要多長時間才能得到增強后的語音),以評判各算法的時間復雜度和各算法的實時性能。在實驗中,運行的計算機采用ThinkPad E520,處理器為Intel Core i3-2350M,內存4 GB,操作系統為64位Microsoft Windows 10專業版,處理的軟件為MatLab2017b。

表1 不同算法運行時間與延遲時間的對比 單位:sTab.1 Runningtimeand delay timecomparison of different algorithms unit:s
從表中算法運行時間可見:AR-Kalman的運行時間最長,達到了約175 s,其原因在于它首先需要對信號進行分幀處理,同時還需要對Sk和Nk進行AR建模,而AR建模也需較多的耗時;FastICA運行時間其次,因為它也需要對信號進行分幀處理以保證實時性,同時每一幀信號的處理都需要多次循環以保證收斂;MMKA的運行時間介于NC、LSSE與ARKalman、FastICA之間,該結果與3.4節復雜度分析的一致,即NC和LSSE算法的計算復雜度相對較小,因此所需的運行時間也較少。
而由表中算法延遲時間可知:AR-Kalman濾波采用分幀處理方式,最終得到的增強語音信號是每個幀處理的結果,因此延遲時間為相鄰幀重疊部分占用時間與處理該重疊部分占用時間之和;FastICA也采用分幀處理,其延遲時間也是每個幀時間與處理時間之和。因此,該兩種算法具有較大的延遲時間;相反,MMKA、NC和LSSE根據每個采樣點進行處理,延遲時間僅為對每一采樣點信號處理的運行時間,因此延遲時間較少。
多次實驗的結果表明,本文提出的卡爾曼算法,即MMKA的輸出語噪比平均比傳統的AR-Kalman提高約2 dB,而運行時間只有不到其2%。特別地,本文的卡爾曼算法也具有較少的延遲時間,與FastICA平均接近0.4 s的延遲時間相比,MMKA的延遲時間僅是毫秒級別。另外,結果也表明MMKA與較為簡單的NC算法相比會有較長的運行時間,但是,本文提出的最小二乘算法,即LSSE算法的運行時間與NC的相當,均是毫秒級別,但輸出語噪比平均要比NC高出約1 dB。
針對工業噪聲環境,本文研究了采用多麥技術的語音增強算法,從降低算法復雜度和提高實時性的角度提出了卡爾曼濾波和最小二乘的算法。實驗利用了公開數據庫的語音信號和噪聲信號來得到最后的帶噪語音信號,以此評判本文提出的算法與傳統算法的輸出語噪比,運行時間和延遲時間等性能,實驗結果表明所提出的算法達到了降低算法復雜度和提高實時性的要求。
本文只使用了兩個麥克風,增強后的語音信號還含有一定的噪聲,如何使用多個麥克風利用深度學習算法訓練噪聲參數進一步提高語音增強效果和處理的實時性需要進一步研究。