動態特征聯合新掩模優化神經網絡語音增強

2021-07-01 13:21:26梅淑琳賈海蓉王曉剛武奕峰

西安電子科技大學學報 2021年3期

梅淑琳，賈海蓉，王曉剛，武奕峰

(1.太原理工大學信息與計算機學院，山西太原 030024；2.中國聯通山西省分公司網絡優化中心，山西太原 030000)

語音增強是從噪聲背景中提取有用信號，降低干擾并減少失真的技術，可以應用在人工智能、助聽器、語音識別等領域。目前，語音增強的方法可分為無監督和有監督兩類。無監督語音增強大多基于平穩噪聲、語音噪聲不相關等不合理假設，導致抑制非平穩噪聲能力弱，產生語音失真現象；具有代表性的算法有譜減法、維納濾波等[1]。有監督語音增強通過學習信號的統計特性來抑制噪聲，在低信噪比環境和非平穩噪聲上有著明顯的優勢，可分為基于淺層和深層模型兩種。淺層模型包括隱馬爾科夫、淺層神經網絡等。該模型由于層數及每層節點數目都很少，且用于訓練的數據也很小，限制了學習能力，性能不能有效提升。深層模型能夠深入學習語音間非線性關系[2]，極大地提高了其在未知噪聲環境中的泛化性能。大致可以分為3類：基于特征映射的語音增強，輸入和輸出信號的聲學特征；基于時頻掩蔽的語音增強，輸入聲學特征，輸出時頻掩蔽；基于信號近似的語音增強，是前兩種方法的融合，訓練模型預測掩蔽值，最終優化目標是估計語音與純凈語音的均方誤差，使網絡收斂到一個最優點。因此處理非平穩噪聲性能較好，成為研究熱點[3-6]。

近年來，人們提出了幾種有效的學習算法，有效提升了網絡的性能。文獻[3]提出一種集成幅度譜，理想二值掩蔽到神經網絡的算法，能有效去除噪聲，但有一定程度失真。文獻[4]提出聯合對數梅爾功率譜(Log-Mel Frequency Power Spectrum，LMPS)、梅爾倒譜系數(Mel-Frequency Cepstral Coefficients，MFCC)和理想比率掩模(Ideal Ratio Mask， IRM)優化的算法；特征考慮了聽覺感知，掩模是軟判決，但很難處理清音，整體聽感不連續。文獻[5]提出一種Gammatone域耳蝸表示(Cochleagram)的語音特征。Gammatone是耳蝸濾波標準模型，但不能兼顧語音整體和瞬變信息。文獻[6]提出多分辨率耳蝸表示(Multi-Resolution CochleaGram，MRCG)，其連接4個不同分辨率的對數耳蝸，同時考慮語音局部和全局信息，但是特征維數太大，算法復雜性高。

為此，筆者提出了動態特征聯合自適應比率掩模優化神經網絡的語音增強算法。動態特征融合了對數梅爾功率譜、梅爾倒譜系數、多分辨率聽覺倒譜系數(Multi-Resolution Auditory Cepstral Coefficients， MRACC)，并通過求導捕捉語音瞬變信息，全面表示語音的非線性結構，減小失真。另外，為了模仿人類聽覺感知，精確表示每個時頻單元的掩模值，新提出自適應比率掩模，進一步提高重建語音質量。設計對比實驗，驗證了新算法的優勢。

1 動態特征與自適應比率掩模聯合優化神經網絡語音增強

1.1 動態特征

不同的語音特征反映了語音信號的不同屬性。LMPS經過梅爾濾波器組對頻譜進行平滑化，并消除諧波的作用，突顯語音的共振峰；MFCC體現帶噪語音功率譜各個維度的關系；MRACC是改進的MRCG特征，有4個不同分辨率稀疏表示的Cochleagram，能夠表示整體和局部信息。為了全面表示語音非線性結構，對這3種特征進行拼接互補，可獲取較完整的靜態特征；再對拼接特征求一階二階差分導數，捕獲語音的瞬變信息；差分特征描述了語音相鄰幀的聯系，避免只依賴網絡獲得語音時變信息。動靜特征結合改善了現有特征表示語音結構方面的不充分不完整性，使重構語音失真較小且語音可懂度高。

圖1所示為動態特征提取框圖。

具體提取過程如下：

(1) 語音信號經過梅爾濾波、取對數和離散余弦變換而得到對數梅爾功率譜、梅爾倒譜系數特征；同時，經過 Gammatone濾波，得到4個64通道CochleaGram(CG)并對其進行分幀加窗，冪律變換獲得4個不同分辨率的CG1、CG2、CG3、CG4，拼接后對整體進行離散余弦變換，得到MRACC特征。

(2) 將3個語音特征進行拼接，得到拼接靜態特征M，即

M(i，m)=[MLMPS(i，m)；MMFCC(i，m)；MMRACC(i，m)]，

(1)

其中，i表示幀數，m是特征維度索引。MLMPS(i，m)、MMFCC(i，m)、MMRACC(i，m)分別表示LMPS、MFCC、MRACC特征。

(3) 對拼接靜態特征求一階二階差分導數，得到差分特征ΔM和Δ(ΔM)：

(2)

(3)

其中，k是索引，表示當前幀的前兩幀和后兩幀。

(4) 融合所得到的特征，形成動態特征Ω：

Ω(i，m)=[M(i，m)；ΔM(i，m)；Δ(ΔM(i，m))]。

(4)

圖1 動態特征提取框圖

1.2 自適應比率掩模

在基于信號近似的神經網絡語音增強中，掩模是重構語音的關鍵[9]。為提高重構語音的質量，筆者提出一種自適應比率掩模。首先，利用帶噪語音內部通道間的相關性(Inter-Channel Correlation，ICC)因子自適應調整語音和噪聲的能量比例，提高了每個時頻單元掩模的精確度；其次，自適應地調節傳統掩模和平方根掩模的比例，讓其能充分發揮各自的優勢，使增強語音的可懂度和清晰度同時達到最好；最后用Gammatone通道權重修改每個通道內的掩模值，使其信號能量集中在低、中頻段，模仿了人類聽覺系統，進一步提升了語音可懂度。

圖2所示為自適應掩模原理圖。

圖2 自適應掩模原理圖

具體過程如下：

(1) 內部通道間的相關性自適應因子ρx(c，m)、ρd(c，m)是分別第c個通道第m幀中純凈與帶噪語音、噪聲與帶噪語音功率譜之間的歸一化互相關系數。

(5)

(6)

其中，yc，m、dc，m、xc，m是帶噪語音、噪聲和純凈語音在c通道m幀中的幅度譜矢量。

(7)

其中，Px(c，m)和Pd(c，m)分別表示第c通道第m幀的純凈語音能量和噪聲能量。

(3) 自適應掩蔽系數α是帶噪語音信噪比，可表示為

(8)

其中，μSNR(c，m)表示第c通道第m幀的信噪比。

(4) 應用Gammatone通道權重輪廓β修改每個通道的比率掩模，公式如下：

(9)

其中，ψ(c)為第c個通道的響度級別。

(10)

1.3 神經網絡模型

為了利用神經網絡強大的非線性映射能力，筆者設計了具有4層結構的神經網絡模型。其中包含2個隱層，每個隱層設有1 024個節點，輸出層設有64個節點，分別將線性整流函數(Rectified Linear Unit， ReLU)和Sigmoid函數用作隱層和輸出層的激活函數。采用最小均方誤差(Mean Square Error，MSE)作為模型的代價函數。訓練神經網絡采用自適應隨機梯度算法，隨機初始化網絡，并用丟棄法Dropout來提升模型對噪聲的泛化能力，輸入層的Dropout比例為0，每個隱層的Dropout比例設為0.2，用于隱層單元的稀疏正則化。網絡將重構語音與純凈語音的誤差反饋傳遞，調優更新網絡參數。采用自適應學習速率ε，初始化為0.08，隨著訓練步數線性減小，直至0.001。初始的動量系數設為0.5，在前5次逐漸漲到0.9，隨后就保持0.9不變，網絡采迭代次數為20次。經過反復執行上述步驟對網絡權值進行一系列迭代更新，訓練完成就得到一個神經網絡模型。

1.4 基于動態特征和自適應比率掩模的神經網絡語音增強

在訓練階段，以最小化最小均方誤差代價函數為目標，提取語音數據樣本中的訓練集的動態特征、自適應比率掩模作為神經網絡模型的輸入。為了保持訓練過程的穩定，輸入和輸出均進行均值方差歸一化處理，訓練得到最優的網絡模型并進行保存。在測試階段，提取測試樣本集的歸一化處理后的動態特征輸入到訓練好的神經網絡模型中預測自適應比率掩模，最后結合帶噪語音的相位重構語音，輸出得到最佳增強結果。圖3所示為基于動態特征和自適應比率掩模的神經網絡語音增強系統框圖。

圖3 基于動態特征和自適應比率掩模的神經網絡語音增強系統框圖

2 仿真實驗與結果分析

2.1 實驗數據

實驗選用IEEE語音庫、NOISE-92噪聲庫中的White、Babble和F16噪聲。用50條純凈語音在每種噪聲下創建信噪比為-10 dB、-5 dB、0 dB、5 dB和10 dB的750條訓練集。使用10條語音在相同條件下創建150條測試集。評價指標采用分段信噪比(Segmental SNR，SegSNR)、主觀語音質量(Perceptual Evaluation of Speech Quality，PESQ)和短時客觀可懂度(Short Term Objective Intelligibility，STOI)。

2.2 對比實驗與結果分析

為了驗證文中聯合動態特征和自適應掩模的有效性，設計3組算法來對實驗結果進行討論。

算法1采用3種特征中效果最好的MRACC特征和IRM來訓練神經網絡。

算法2采用聯合LMPS、MFCC和MRACC和IRM訓練神經網絡。

算法3采用筆者提出的動態特征和自適應掩模聯合訓練神經網絡。

以被5dB，Babble噪聲污染的語音為例，分別給出了3種實驗下的增強語音。圖4所示為增強語音的時域波形，圖5所示為增強語音的語譜圖。

圖4 5 dB的Babble噪聲下的時域波形圖

從圖4、圖5可以看出，前兩個實驗能夠減少噪聲，但是仍有殘留，且非語音段降噪效果不好，有失真現象。而文中提出的算法，非語音段降噪效果顯著，增強語音波形結構保持更好，失真較小，最接近于原始純凈語音。

對比上述3組實驗分別在Babble、F16、White這3種噪聲環境下的增強效果，表1至表3和圖6所示分別為SegSNR、PESQ、STOI的對比結果。

表1 不同算法下的SegSNR對比 dB

表2 不同算法下的PESQ對比

表3 不同算法下的STOI對比

分析以上結果可得：

(1) 對比算法1和算法2的結果可知：輸入為拼接特征的增強性能優于單特征，增強語音的SegSNR平均提高了0.7 dB，PESQ平均有0.13 dB的提升，STOI有0.02 dB的提高，驗證了拼接特征能更好地抑制背景噪聲。

(2) 算法2與算法3相比，在神經網絡中輸入新的動態特征和自適應比率掩模后， SegSNR平均提升了1.1 dB， PESQ平均提升了0.33 dB，STOI提高了0.03 dB。實驗結果證明了動態特征和自適應比率掩模組合的有效性，聯合優化可以得到失真較小、聽感較好的增強語音。

圖6 White噪聲環境下在不同算法下SegSNR、PESQ、STOI的三種結果對比

3 結束語

筆者提出動態特征聯合自適應比率掩模優化神經網絡語音增強算法。將動態特征、自適應比率掩模作為神經網絡的輸入，有監督的學習帶噪語音和純凈語音之間復雜的映射關系。新特征提高神經網絡對純凈語音頻譜的估計能力，新掩模精確表示每個時頻單元的時頻掩蔽值。實驗結果表明，在不同噪聲不同信噪比條件下，該算法能夠減小增強語音的失真現象，語音質量和可懂度有明顯提升，具有更好的增強效果。