何 瑜
(四川省南充市網絡輿情中心 四川 南充 637000)
在遠場環景中,自動語音識別(Automatic Speech Recognition, ASR)的系統性能通常會顯著降低,這是由于設備接收的不僅僅是揚聲器所發出的直達聲,還包含由直達聲經過不同反射途徑(如墻面,鏡面)所得到的反射信號。后者通常稱之為混響,在實際一些應用中通常需要被抑制。在研究中提出了一種約束MCLP的優化手段用于自適應語音去混響算法A-GWPE,但是非期望分量(后期混響)的過估計問題普遍存在,損害重建的語音信號的質量。
最近,基于深度神經網絡(Deep Neural Network, DNN)的方法被提出用于語音去混響,在數據不足的情況下解決功率譜密度(PSD)估計的問題,因此提出了一種更有效的方法,采用DNN去預測WPE算法中目標信號的PSD。然而,在一些高混響的環境中,一般指混響時間(RT60)超過700ms, PSD估計變得更加困難。就像在一些低信噪比環境中的降噪問題一樣,輸入和目標之間的信噪比跨度會導致估計值不準確。
本文提出了一種基于漸進式深度神經網絡(Progressive Deep Neural Networks, PDNNs)的框架來對PSD進行估計,從而改進算法的性能。PDNNs具有積累和轉移其中組成它的基本DNNs學習到知識的能力,可以理解為積累先驗知識為后續所使用,這種能力被證明在高RT60環境中對于去混響是有益的。PDNNs的學習目標是由直達聲加上不同長度的反射信號(由于不同反射路徑所產生),其次,每一個學習目標的直混比(Direct-to-Reverberant Ratio, DRR)逐漸增加。最后一個DNN輸出被用作最終期望信號的PSD估計。實驗結果表明,本文提出的方法是可行有效的,該方法能有效地提高在高RT60的環境下的性能。
在這一部分,MCLP信號處理模型和基于MCLP處理邏輯的GWPE算法接下來被詳細介紹。
A.MCLP模型
考慮到一個混響房間中單揚聲器和M個麥克風的場景,讓ym(kn)代表第m個第n幀k頻點的帶混響麥克風信號,期望信號xm(k,n)的輸出最終表示為:


B.自適應優化
在部分研究中,GWPE算法被拓展成A-GWPE算法,A-GWPE算法通過使用RLS算法來估計線性濾波器,以便解決下面的LS問題:



γ是遺忘因子,在(0,1)的范圍內,LS問題的解可以求得為

其中矩陣逆定理被應用在RLS算法中,如下所示

并且其增益向量被定義為

然后預測系數矩陣可以通過下式更新得到




正如上述所提到的,期望信號的功率譜估計在基于MCLP的算法中扮演著極其重要的角色。在這一小節,PSD估計的方法要首先被回顧。
A.基于統計模型的PSD估計
在傳統的方法中,期望信號的PSD估計一般是通過將晚期混響建模為一個指數衰減模型,如下所示


B.基于DNN模型的PSD估計
基于統計模型的PSD有個很大的問題是通常會導致未期望過估計問題,因此由于DNN這幾年的發展,基于DNN模型的PSD估計被提出來改善這個問題。在本文中,為了更好的單獨體現去混響算法的表現,我們將實際中的背景噪聲忽略了,只考慮其混響部分。在訓練階段,DNN被視作一個從混響語音的特征到期望信號的PSD的一個映射函數,利用反向傳播去得到這個DNN的網絡參數,在測試階段,訓練好的模型可以通過混響語音來得到被估計的PSD。這里訓練和測試階段我們估計的是對數PSD,這是為了壓縮其動態范圍,使得網絡可以更好去學習。然后我們將其得到的PSD應用于經典的上一小節提到的A-GWPE算法中。
A.基于PDNNs的PSD估計
基于上述提到的基于DNN的PSD估計,基于PDNNs被提出來用于去混響。其結構如圖1所示,這里我們將其與DNN并行展示來做一個對比。通常,直達聲和早期混響(即期望信號)的區間是前50ms,所以基于DNN模型的訓練目標就是其直達聲和早期混響的信號(T<=50ms)的PSD,而PDNNs由三個階段組成,每個階段由一個基礎的DNN模塊組成,每個DNN模塊的學習目標是由直達聲和不同區間的早期混響信號的對數PSD所構成,而這個區間T被設計成逐漸變小,這樣相當于將深度學習一次性的跨度學習改為分成了階梯狀的學習,在本文,每個階梯的跨度被設置成了30ms,其對應于不同的直混比,直混比表示為

圖1.(a)基于DNN的PSD估計 (b) 基于PDNNs的PSD估計




B.提出方法的優點
PDNNs用于去混響的一個最大優點是將從混響信號到期望信號分解為幾個階段,每個階段都在累計之前學習到的知識,用于后面的網絡訓練。這樣輸入和目標之前的直混比跨度也被分成了幾份,實驗發現,這樣一種漸進式學習在高混響環境取得了更好的效果。
仿真實驗證明了所提出的基于PDNNs的PSD估計的性能,我們將其對比了傳統的A-GWPE方法和基于DNN方法。
A.實驗配置
需要注意的是,2通道的語料被分為兩個單獨的單通道語料。7138個來自WSJO SI-84訓練集的語音(約12小時)被用作干凈語料,首先用由RIR generator得到的[15]RIR卷積以獲得混響語音。生成的模擬房間大小為7*4*2.5cm,兩個傳聲器的中心位于距聲源315度。0.7s、0.8s和0.9s的RT60被用來生成了一個總共36小時的訓練集。然后訓練目標為干凈的語音與相應的不同長度h(n),即110ms、80ms和50ms。為了對系統性能進行分析,隨機抽取了200個TIMIT數據集中語句,并且采用0.8s和0.9s的RT60進行卷積,使得產生一個高混響環境中的測試集。在實驗中,對算法進行評估,兩個評估指標被用來進行實驗的評估。PESQ是一個對于客觀音質來說的經典通信質量指標和倒譜距離(CD),它提供了一個量化的方法來評估語音失真。
B.性能評估
首先用在不同RT60場景的輸入混響語音進行了語音去混響實驗。預測濾波器的長度Lc設置為20,自適應算法的遺忘因子γ值需要在0.75和0.99之間選擇,本文設置為0.97。表1給出了詳細的PESQ和CD指標的額比較結果,分別代表原始混響語音,A-GWPE后增強語音,基于DNN的增強語音和基于PDNNs的增強語音。從表一可以明顯觀察到與A-GWPE方法相比,DNN和PDNNs方法顯著提高語音去混響能力,而基于PDNNs的方法可以進一步獲得額外的增益,這說明基于PDNNs的方法有助于更好地解決PSD估計。
圖2中顯示了0.9s RT60的語音頻譜圖。可以看出,A-GWPE方法可以達到很好的混響抑制效果,但有嚴重的語音失真,而DNN和PDNNs都避免了嚴重的語音失真。對于提出的方法,增強語音包含較少的語音失真并且同時實現了很好的混響抑制。紅色實線顯示失真的差異。

表1 不同去混響系統的指標對比

圖2 在0.9s RT60不同去混響系統的語譜圖(混響語音 (PESQ=1.058, CD=7.329), 干凈語音,A-GWPE (PESQ=1.301,CD=5.487), DNN (PESQ=1.619, CD=4.983), PDNNs (PESQ=1.653,CD=4.915).
本文提出了一種基于PDNNs的語音去混響算法,PDNNs可以從之前學習的目標中積累經驗從而成為下一目標的先驗知識,這些目標被設計直達聲加上不同長度的反射信號。利用這個方法,輸入特征與學習目標之間的DRR跨度大的問題得到了減緩,從而提高了期望信號的PSD估計的準確性。實驗結果表明該方法對比語音去混響中傳統的A-GWPE和DNN取得了更好的效果。