一種改進的雙麥克智能語音前端算法

2018-03-29 08:20:55方賽鴻

網絡安全與數據管理 2018年2期

關鍵詞：信號

方賽鴻

(福州瑞芯微電子股份有限公司，福建福州 350003)

0 引言

隨著人工智能的興起與發(fā)展，語音處理的作用也越來越重要。當前比較熱門的語音交互平臺有蘋果的Siri、亞馬遜的Alexa以及科大訊飛的訊飛云，這些軟件可以將說話人的聲音信號轉化為文字信息，進而控制硬件系統(tǒng)。語音識別率決定語音交互系統(tǒng)的性能，語音信號進入語音識別系統(tǒng)之前需要進行預處理。

由于環(huán)境噪聲和墻壁等障礙物的存在，麥克風采集的語音信號通常包含噪聲和混響，它們會降低語音的清晰度和可懂度，導致語音識別系統(tǒng)識別率下降。因此，語音信號進入語音識別系統(tǒng)之前，需要進行噪聲和混響消除。目前，多通道語音增強算法主要分為三類：波束形成[1]、逆濾波[2]以及盲源分離[3]。 HABETS EAP等人提出了一種雙麥克風噪聲和混響消除算法[4]，該算法輸出存在一定的失真，本文對其進行改進，并利用仿真數據驗證改進算法的有效性。

1 混響理論

房間混響信號是由聲源信號s(n)和房間聲學沖激響應函數h(n)卷積產生的。h(n)可分為三個部分：直達路徑、前期反射和后期反射，如圖1所示。

圖1 房間沖激響應示意

混響時間為400 ms的某一房間的房間沖激響應如圖2所示。

對于第i路麥克風在某離散時間n時的混響信號可以表示為：

(1)

因此，第i路麥克風接收到的信號可以表示為：

Xi(n)=Zi(n)+Vi(n)

(2)

圖2 混響時間為400 ms的房間沖激響應

其中Vi(n)表示背景噪聲。

對輸入的陣列語音信號加窗分幀(每幀長度在30 ms以內)后，通過短時傅里葉變換[5]由時域變換到頻域，式(2)的頻域表示如下：

Xi(m,k) =Zi(m,k)+Vi(m,k)

=Di(m,k)+Ri(m,k)+Vi(m,k)

(3)

其中m表示幀索引，k表示頻率索引；Di和Ri分別表示第i路麥克風輸入信號中的直達聲(包括直達聲和早期反射，為了簡化統(tǒng)稱直達聲)和后期混響聲。混響消除算法的目的是盡可能地去除Ri(m,k)。

2 Habets雙麥克風算法及其問題分析

2.1 Habets雙麥克風算法

Habets雙麥克風原理圖如圖3所示。整個結構包含四個部分：固定波束形成器、噪聲功率譜估計、后期混響功率譜估計和單通道后置濾波器。固定波束形成器的系數固定為[0.5,0.5]，輸出為Q(m,k)；噪聲功率譜估計是利用優(yōu)化最小控制遞歸平均[6]算法估計Q(m,k)中噪聲功率譜λv(m,k)；后期混響功率譜估計是利用Polack模型[5]估計輸入信號中的后期混響功率譜密度λr；單通道后置濾波器采用的是OM-LSA算法[7]，根據前面估計的噪聲和后期混響來計算增益函數GOM-LSA，最終的輸出為：

Y(m,k)=GOM-LSA(m,k)Q(m,k)

(4)

圖3 Habets雙麥克風算法原理圖

2.2 Habets算法存在的問題及其分析

后置OM-LSA算法的譜增益函數如下：

GOM-LSA(m,k)=GLSA(m,k)p(m,k)Gmin(m,k)1-p(m,k)

(5)

其中p(m,k)表示語音存在概率，Gmin表示增益下限，p(m,k)計算表達式如式(6)所示：

p(m,k)=

(6)

q(m,k)=

(7)

公式(6)中ξ(m,k)表示先驗信噪比，v(m,k)的值和ξ(m,k)有關；分析式(7)發(fā)現，q(m,k)的取值與閾值γ1和ζ0有關[6]。實際這兩個閾值是固定的常數，在某些幀q(m,k)可能會出現較大偏差，會導致增益函數異常，使得輸出失真。Habets雙麥克風算法輸出與純凈語音波形對比如圖4所示。觀察圖中橢圓圈標記部分發(fā)現，算法的輸出在某些時刻存在失真，這種失真最終導致識別系統(tǒng)識別率的降低。

圖4 Habets雙麥克風算法輸出與純凈語音波形對比

3 本文提出的基于維納濾波的改進算法

針對Habets算法存在的問題，本文的改進思路是將Habets算法的后置濾波器用維納濾波進行替換。改進算法的原理圖如圖5所示。

圖5 改進算法框圖

對應該系統(tǒng)的維納濾波器的表達式如下：

(8)

式中：

ξ(m,k)=βH(m-1,k)+ξ(m-1,k)+

(1-β)max{γ(m,k)-1,0}

(9)

(10)

式(9)中的β表示權重因子，γ(m,k)表示后驗信噪比。

(11)

其中，Hmin,R和Hmin,N0是常數，用來控制噪聲和混響消除的最大化。

改進算法最終的輸出為：

Y(m,k)=H(m,k)Q(m,k)

(12)

4 實驗結果

4.1 仿真實驗

本次仿真實驗采用間距為10 cm的線性麥克風陣列。純凈聲源取自TIMIT標準語音庫，噪聲源取自Noise92語音庫。利用MATLAB工具箱[8]生成陣列語音信號。仿真時，房間大小設置成4.6 m×4.6 m×3.2 m，聲源到麥克風陣列的距離設置成3種情況：1.5 m、2 m和2.5 m，采樣頻率為16 kHz，墻壁的吸聲系數設置為[0.8,0.8,0.8,0.8,0.7,0.4]，聲源混響時間設置為400 ms。

仿真房間沖激響應曲線圖如圖6所示，純凈源語音的波形圖以及語譜圖如圖7所示。

圖6 仿真實驗環(huán)境房間沖激響應

圖7 純凈語音的波形圖和語譜圖

輸入信噪比為10 dB的陣列信號的波形和語譜圖如圖8所示。

圖8 輸入信號波形和語譜

Habets算法和改進算法處理后的結果分別如圖9和圖10所示。

圖9 Habets算法輸出

圖10 改進算法輸出

觀察圖9和圖10可以發(fā)現，Habets雙麥克風算法噪聲消除性能很好，但是輸出存在失真；改進算法噪聲消除性能變弱，但是輸出失真減小。

4.2 實際實驗

為了驗證改進算法輸出識別率是否有所提高，采用科大訊飛四麥克風陣列模塊采集語音信號，將采集到的信號通過Habets算法和改進算法處理后，將算法的輸出送到語義識別端，比較識別結果。語義識別算法采用的是訊飛開放平臺的語音聽寫模塊[9]。

10個不同的人分別站在距離麥克風1.5 m、2 m、2.5 m的地方說“今天天氣很好，福州天氣，劉德華的電影”，總共16個漢字。假設某一組采集數據經過算法處理后通過語義識別算法能識別出的正確字數為N，那么識別率計算如下：

(13)

然后對10組識別率求平均得到最終的識別率結果。

對未處理、Habets算法輸出以及改進算法的輸出通過語義識別端進行識別率結果對比，如表1所示。

表1 不同算法處理結果識別率的比較 (%)

由表1可知，隨著聲源到麥克風距離的增加，三種情況下的識別率都越來越低；未處理的語音信號識別率急劇下降，改進算法識別率情況最好。由此可以說明，改進算法是有效的。

5 結論

本文對Habets雙麥克風噪聲和混響消除算法進行研究，針對其存在的問題，提出了一種改進算法。經過仿真數據和實錄數據的測試發(fā)現，改進算法與Habets

算法相比，噪聲消除性能有所下降，但是改進算法輸出失真更小，最終的識別率也有一定的提升。隨著聲源到麥克風距離的增加，改進算法輸出的識別率也越來越低，有待后續(xù)進一步優(yōu)化。

[1] MCCOWAN I A, MOORE D C, SRIDHARAN S. Near-field adaptive beamformer for robust speech recognition[J]. Digital Signal Processing, 2002, 12(1): 87-106.

[2] Xu Guanghan, Liu Hui, Tong Lang, et al. A least-squares approach to blind channelidentification[J]. IEEE Transactions on Signal Processing, 1996, 43(12): 2982-2993.

[3] ABRARD F, DEVILLE Y. A time frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J]. Signal Processing, 2005, 85(7): 1389-1403.

[4] HABETS E A P, GANNOT S, COHEN I. Dual-microphone speech dereverberation in a noisy environment[C]//IEEE International Symposium on Signal Processing and Information Technology. IEEE, 2006:651-655.

[5] WOLFE P J,GODSILL S J. Efficient alternatives to the Ephraim and Malah suppression rule for audio signal enhancement[J]. EURASIP Journal on Advances in Signal Processing, 2003, 2003(10):1043-1051.

[6] COHEN I. Noise spectrum estimation in adverseenvironments:improved minima controlled recursive averaging[J]. IEEE Transactions on Speech & Audio Processing,2003,11(5):466-475.

[7] COHEN I,BERDUGO B. Speech enhancement for non-stationary noise environments[J]. Signal Processing,2001,81(11):2403-2418.

[8] LEHMANN E A. Image-source method:Matlab code implementation[EB/OL].(2006-08-01)[2017-03-12]http://www.eric-lehmann.com/

[9] 訊飛開放平臺[EB/OL].(2012-03-22)[2017-02-24]http://www.xfyun.cn/sdk/dispatcher.