史銀霄,吳禮福,馮濤
(南京信息工程大學 電子與信息工程學院,江蘇南京,210044)
在電子產品廣泛普及的互聯網時代里,線上的工作和學習已經成為人們生活中的普遍方式之一,但在封閉空間中,聲源產生的聲波一部分會直接傳播至傳聲器,另一部分則會產生混響,語音信號將會受到混響的較大影響,可懂度和清晰度會大幅度降低,混響負面影響嚴重時,遠程會議,移動通信等功能會受到極大的限制,因此對語音去混響的研究就成為國內外語音信號處理領域的一個重要的研究熱點,也是聲音信號處理的一個重要的研究分支。
近幾十年來,國內外對于語音去混響的研究從未停止,也不斷有重要的成果的出現。對于此領域的研究思路根據接收語音信號的麥克風數目通常可分為單通道去混響方法和多通道去混響方法。單通道去混響是傳聲器數量僅為一個的去混響方法,其主要有維納濾波方法[1]和復倒譜域濾波算法[2]以及麥克風陣列語音加強等方法。傳統的單通道去混響的方法帶來的一個問題就是會產生信號相位的模糊的問題,然后對信號進行重構會遇到較大的困難。
本文考慮一個簡單的聲學系統,其有一個靜態的單語音源和兩個全向傳聲器。兩個傳聲器之間相距10cm,傳聲器與聲源相距約為3m。源的位置直接在兩個麥克風的前面。將干凈的語音信號與房間脈沖響應卷積得到麥克風接收信號,采用圖像法來分析空間聲學特性,并生成多通道房間脈沖響應。在封閉房間和混響時間為固定值的條件下,選擇長度合適的女性語音作為測試語音數據,再利用脈沖響應發生器獲得兩通道房間的脈沖響應(RIR),從而獲得干凈的單個語音。
有多通道反卷積的逆濾波器理論模型去混響、基于多通道均衡技術的去混響和基于譜估計和空間濾波器相結合去混響等幾種主流去混響方法,但需要保證對密閉環境沖激響應的估計要有較高的正確性,同時這幾種去混響理論的性能往往取決于擴散功率譜譜密度估計的正確性,具有很大的局限性。因此,本文擬采用一種多通道線性預測(MCLP)基于QR分解的遞歸最小二乘(QR-RLS)自適應濾波器,以避免由RLS算法引起的可能的不穩定性,并實現與MCLP相同的語音去混響性能。
設定一個常見的有M個麥克風的封閉混響空間環境,麥克風捕獲的語音信號由語音信號和噪聲組成。所以麥克風信號可以表示為:

其中,x(n)為語音信號,v(n)為額外不期望產生的噪聲。為了著重研究混響消除的問題,簡化公式的描述以及公式模型,假設為0v(n)=,設x(k,n)表示STFT中的混響語音信號,設定一個混響室中單個語音源和M個麥克風的場景麥克風信號xm(k,n)可以分解為:

其中所需的組件d m(k,n)包含直接的語音和早期的反射,也被稱為所期望的語音,而不期望的組件u m(k,n)包含后期的反射,例如混響。可以在每個頻率箱索引中使用MCLP對不期望的語音分量u(k,n)進行建模,其在每個頻率箱指數中建模如下:

因為方程式x(n)=y(n)+v(n) 和x m(k,n)=d m(k,n)+u m(k,n)分別涉及每個頻率箱的計算,且信號將在每個頻率箱中獨立建模,為了推導清晰而精確,因此省略了頻率指數k,MC模型可以寫為:

其中,x(n) =[x1(n),...,x M(n)]T和d(n)和u(n)的定義也很相似,可以通過使用MCLP作為濾波(延遲)麥克風信號的總和來對不期望的組件u(n)(不期望的混響)進行建模。結合u(k,n)和MC模型(蒙特卡羅模型:對于一個研究項目實驗的次數越多,實驗所得結果越趨于準確值),所需的語音分量可以估計為:

基于RLS算法的自適應語音去混響可以用來求解預測濾波器的系數,該方法通過最大化時頻域內期望語音信號的稀疏性來獲得預測濾波器,從而得到預測系數矩陣,但是傳統RLS算法存在一定的問題,其中的一個問題是其算術復雜度相對較高,即自適應濾波器中的抽頭數較多。傳統RLS算法的另一個問題是其在某些情況下可能不穩定,它在有限字長實現中通常遇到數值不穩定性,特別是對于短的內部字長。因此,我們采用了基于QR-RLS的MCLP算法來代替MCLP算法中的加權RLS部分[3]。
QR分解是一種將矩陣作為兩個矩陣的乘積來運算的方法,其中一個是正交的,或者至少有正交的列,另一個是上三角形的,QR分解可以使用經典的或改進后的算法來完成。QR-RLS利用了三角測量過程的優點,基于魯棒的QR分解,其中包含Givens變換[5],具有良好的數學特性,是一種具有正確定性的數值穩定算法:
估計誤差e(t)按上述QR-RLS的估計方程計算,濾波器根據方程定期更新其權值,其中p(n)為相應的向量,R(n)為三角形矩陣。

基于QR的RLS算法在數學上等價于傳統的RLS算法,但具有更高的數值穩定性,利用QR-RLS原理對上述方程進行重新調整,可以推導出基于QR-RLS自適應濾波器的MCLP去混響算法如下:
(1)給定增強的數據矩陣

以及它在幀(n-1)處的QRD(Qualcomm Reference Design,QRD是一套可以完整提供終端參考設計的平臺)。

(2)(QRD)形成新的增廣數據矩陣


(3)(反解決)解決三角形系統

其中g i(n)是g(n)的第i個元素[5]。
濾波器能夠在給定的環境中的工作過程中獲得必要的信息,從而響應信號特性的變化。因此,它可以適應和處理非平穩過程產生的信號,卻無法獲得這些過程中的時變參數。為了實現自適應濾波器的功能,需要通過參考信號向它們提供附加信息[4]。這就需要引入除了觀察到的信號本身之外的額外輸入。參考信號與預期的輸出信號以某種方式近似相關。通常它是前面提到的輸出信號。
該算法的目的是計算濾波器系數的最佳估計值,以便輸出信號盡可能接近所需的信號。在尋找濾波器系數的過程中,誤差函數通常通過優化來求解。
本文以MATLAB信號處理與無線通信工具為核心,設計一套基于QR分解遞歸最小二乘(QR-RLS)自適應濾波器的多信道線性預測(MCLP)語音去混響系統。系統整體框圖如圖1所示。

圖1 系統功能框圖
(1)語音信號采集:采樣是將一個信號(即時間或空間上的連續函數)轉換成一個數值序列(即時間或空間上的離散函數)。(2)語音信號頻譜分析:首先畫出語音信號的時域波形,然后對語音信號進行頻譜分析。(3)設計濾波器:本系統基于Givens旋轉的QR-RLS算法和一些穩定性考慮,詳細給出了一種快速算法。(4)濾波器濾波:用QR-RLS算法使信號中特定的頻率成分通過,而極大地衰減混響的頻率成分,濾除干擾噪聲。(5)濾波前后語音信號頻譜分析:在Matlab中,在一個窗口同時畫出濾波前后的波形及頻譜,使用相關聲音函數對聲音進行回放。
麥克風陣列傳導人聲,內置聲卡對于傳導的人聲進行采集與處理,形成對應的文件,接著由本項目設計的QR-RLS自適應濾波器濾波,去除混響與雜音,再播放出清晰的語音人聲,進而達到語音去混響效果。圖2為硬件平臺設計框架圖。

圖2 硬件平臺設計框架圖
我們應用基于加權RLS算法的MCLP去混響算法來處理模擬混響語音數據[6],并測試該算法的性能。本項目采用了一個簡單的具有靜態單聲源和兩個全向麥克風的聲學系統。麥克風間的距離為10cm,語音源與麥克風之間的距離約為3m。源的位置直接在兩個麥克風的前面。通過對麥克風的純凈語音信號和房間脈沖響應進行卷積,獲得麥克風接收的信號。表1是封閉空間的具體參數。

表1 封閉空間的具體參數
其 中,RT60(Reverberation Time,指 聲 場 衰 減 60dB 所用的時間,單位為秒)為房間的混響時間。
第一個實驗中選擇了一個長度為10秒的女性話語作為測試語音數據,并且單揚聲器為90°方向,即正對著信號源。我們基于加權QR-RLS算法的MCLP去混響算法,采用4種不同遺忘因子值的自適應MCLP去噪算法對語音信號進行處理,測量的處理語音譜圖如圖3和圖4所示,分別為清晰語音(處理結果)和混響語音(未經處理的錄音)譜圖。
圖3描述了處理后的清晰語音譜圖,其為具有4種不同遺忘因子值的處理后的語音譜圖。圖4未經處理的錄音譜圖,與圖1相比,各語音信號經過密閉空間墻面的反射,相互影響,重疊到了一起,聽實際的錄音情況,經過去混響處理的語音要比未經處理的混響語音清晰得多,可懂度和清晰度也有了明顯的提升。
為了分別對比處理后的語音和參考信號之間的差異以及和混響語音和參考信號之間的差異,我們通過軟件得到無混響的干凈的錄音(參考信號)的譜圖如圖5所示。
經過對比,我們顯然可以看出圖3的去混響譜圖與圖5的參考信號譜圖的峰值和波形基本相同,而圖4的混響譜圖與圖5的參考信號譜圖的信號的峰值和波形差異很大。實際情況下聽三種語音,可以明顯地發現經過去混響處理的語音信號和參考信號的清晰度和可懂度接近,但是,混響輸入信號和參考信號相比,雜音多,混響嚴重,清晰度與可懂度很低。

圖3 清晰語音(處理結果)譜圖

圖4 混響語音(未經處理的錄音)譜圖

圖5 參考信號的譜圖
另外,我們進行了第二個對比實驗,在與實驗1所有的參數相同的條件下,采用兩個全向麥克風的聲學系統,麥克風間的距離為10cm,語音源與麥克風之間的距離約為3m,其中第一個麥克風為60°方向,第二個麥克風為90°方向,利用同樣的方法,我們獲得了清晰語音(處理結果)、混響語音(未經處理的錄音)以及參考信號的譜圖,分別為圖6、圖7和圖8所示。

圖6 清晰語音(處理結果)譜圖

圖7 混響語音(未經處理的錄音)譜圖

圖8 參考信號的譜圖
由此我們可以得到與實驗1相同的結論,經過去混響處理的語音信號和參考信號的清晰度和可懂度接近,但是,混響輸入信號和參考信號相比,雜音多,混響嚴重,清晰度與可懂度很低。
基于加權QR-RLS算法的MCLP去混響算法是一種不影響去混響性能的基于加權RLS的算法,其具有極好的去混響應用性能。另外,算法的性能與遺忘因子的值有關,QR-RLS算法在遺忘因子較高的情況下可以有效地消除后期混響,其性能與遺忘因子呈正相關。
QR-RLS算法可以實現極佳的語音去混響性能,該算法需要復雜的數學運算來計算,但是它有極大的收斂速度和更大的精度,與此同時,其過濾性更好,其數值穩定性相較于基于加權RLS的MCLP算法要好得多,且提高了對遺忘因子和濾波器長度的魯棒性。為了解決QR-RLS算法的數學復雜性,需要實現一個更強大的濾波器系統,這會導致成本的增加,而自適應算法可以以相對較低的成本解決任務量較大的項目。因此,隨著計算機和移動設備的硬件性能不斷提高,本項目針對語音的室內去混響的完全實現具有一定的潛力,有助于語音去混響在網絡會議與日常通信中廣泛應用。