基于二次引導圖像濾波的跨模態語音增強方法*

2021-11-02 02:00:48馬玉潔倪旭昇趙新民錢盛友

測試技術學報 2021年5期

馬玉潔，倪旭昇，鄒孝，董胡,2，趙新民，錢盛友

(1. 湖南師范大學物理與電子科學學院，湖南長沙 410081；2. 長沙師范學院信息科學與工程學院，湖南長沙 410100)

0 引言

語音增強技術通常被用來處理語音的噪聲污染問題. 相比傳統的語音增強方法，一些新興的語音增強方法效果更好，如：結合聽覺掩蔽效應、壓縮感知、深度學習的語音增強方法[1]. 隨著視聽交互研究的逐漸興起，利用跨模態技術對信號進行處理的方法也開始受到關注，研究人員將原本分開處理一維聲音信號和二維圖像信號的技術轉向創造性的跨模態處理[2]. 我們可以利用圖像處理技術來處理語譜圖，這種技術已應用于音樂轉錄、樂器聲音分離、降噪等[3-5]. 相反，我們可以從視為語譜圖的圖像中產生聲音信號，這種技術稱為圖像到聲音的映射或模式回放[6-9].

Han等[10]將監督學習的方法擴展到去噪中，在沒有受限玻爾茲曼機(Restricted Boltzmann Machine，RBM)預訓練的情況下對深度神經網絡(Deep Neural Networks，DNN)進行訓練，DNN被訓練直接學習從損壞語音的語譜圖到干凈語音的語譜圖的頻譜映射. 這種使用DNN進行語音增強的方法通常比較復雜，需要大量的實驗組，實時性不強. 王杰等[11]提出利用圖像處理技術中的雙邊濾波算法對非平穩語音信號進行去噪，該方法可以從視覺上分析聲音的時頻特性. 但雙邊濾波通常效率偏低且在細節處理上有可能會產生梯度反轉. 引導圖像濾波(Guided Image Filtering，GIF)是在雙邊濾波的基礎上提出的一種圖像濾波處理方法，同樣具有保持圖像邊界并對圖像進行去噪的的特性，同時，GIF在細節處理上優于雙邊濾波且時間復雜度與窗口大小無關.

到目前為止，利用跨模態技術處理語音信號的方法還甚少，多數利用語譜圖進行語音增強的方法也較為復雜[12，13]且參數多為人工設定. 粒子群優化(Particle Swarm Optimization，PSO)算法在工程上用于求解優化問題，因其需要調整的參數較少，結構簡單而被廣泛使用，而且相對于其他啟發式優化算法來說，其能在最短的時間內獲得更穩定的高質量最優解. 本文將一維時域語音信號轉換為二維圖像信號，以語譜圖為媒介，利用二次引導圖像濾波(Secondary Guided Image Fltering，SGIF)進行語音增強處理，并利用PSO對SGIF中的參數進行優化，最后通過重疊相加法和傅里葉反變換得到增強的語音信號.

1 算法原理

1.1 語音信號的語譜圖

語譜圖也稱語音頻譜圖，其中，橫坐標表示時間，縱坐標表示頻率，坐標點的像素值代表語音信號的能量，能量值的大小由顏色來表示. 它能將語音的許多特征通過二維圖像呈現出來，采用二維平面表達三維信息. 我們可以以它為媒介完成跨模態處理.

語音通常是一種隨機的非平穩信號，具有時變性，帶噪語音信號的數學表達式為

x(t)=f(t)+s(t),

(1)

式中：f(t)為純凈的語音信號；s(t)為噪聲信號；x(t)為帶噪語音信號. 對式(1)進行短時傅里葉變換(STFT)變換為

X(k,l)=F(k,l)+S(k,l)，

(2)

其中，

(3)

式中：k和l分別為頻率點和時間點；K為幀長；R為幀移；ω(n)為實數窗序列. 帶噪語音信號語譜圖的數學表達式為

(4)

歸一化語譜圖為

(5)

1.2 圖像濾波處理方法

1.2.1 引導圖像濾波

GIF最初在2010年由He等提出[14]. GIF的核心是引導圖像I與濾波輸出圖像q，兩者以像素k為中心存在一種局部線性關系，即

qi=akIi+bk， ?i∈ωk，

(6)

式中：ωk為半徑r的一個方形窗口；(ak,bk)為窗口ωk中的線性系數.為了使輸入圖像p與輸出圖像q最接近，根據無約束圖像復原方法將其轉化為最優問題

qi=pi-ni，

(7)

式中：ni為噪聲；pi為qi受到噪聲ni污染的退化圖像，其代價函數為

(8)

式中：ε為用來防止ak過大的正規化參數.要保證輸出圖像和輸入圖像之間差異盡可能小，關鍵在于求出ak和bk的最優解，通常利用最小二乘法求解出線性系數(ak,bk).求解式(8)得

(9)

(10)

(11)

(12)

1.2.2 二次引導圖像濾波

低信噪比情況下，語譜圖顯示噪聲主要集中分布在高頻段，利用一次GIF并不能有效估計高頻段信息，即帶有噪聲的輸入圖像p經過一次GIF的圖像q在不同頻段上仍有殘余噪聲. 為克服一次GIF的缺陷，可用SGIF來進一步抑制噪聲[15]. 該模型是將第一次GIF后的輸出圖像q作為SGIF的引導圖像，經過SGIF輸出后的圖像為最終增強后的語譜圖q′. 利用GIF進行去噪時，去噪效果是由引導濾波器的正規化參數和窗口半徑決定的. 為了使經過初次估計輸入圖像的結構信息后能夠更好地保留其細節信息，所提出的SGIF窗口的設置應該比GIF的窗口小. 因此，兩個濾波器組中正規化參數和窗口半徑不同，為了準確估計噪聲信號，本文利用PSO算法對濾波器組中參數進行優化.

(13)

(14)

1.2.3 參數優化

GIF平滑效果與正規化參數ε和窗口半徑r有關，不同的待去噪圖像以及不同的濾波器需要設置不同的參數組，參數的設置直接影響著最終的去噪效果.

PSO算法是核心思想為群智能優化的一種全局優化算法，最優問題具體包括3個特征：位置、速度、適度函數. 通過對一群隨機粒子進行搜索，利用迭代找出相應的最優解. 假設搜索空間為D維，種群中有m個隨機粒子，其中第i個粒子的位置用向量Xi=[xi1,xi2,…,xiD]表示，速度用向量Vi=[vi1,vi2,…,viD],i=1,2,…,m表示.第i個粒子個體搜索到最優位置為pBesti，全局最優位置為gBest，其中pBesti=[pBesti1,pBesti2,…,pBestiD]，gBest=[gBest1,gBest2,…,gBestD].通過pBesti和gBest可以更新粒子的速度及位置，具體公式為

vij(t+1)=

σ*vij(t)+c1*rand1j*(pBestij(t)-xij(t))+

c2*rand2j*(gBestj(t)-xij(t))，

(15)

xij(t+1)=xij(t)+vij(t+1)，

(16)

式中：c1為控制個體經驗的影響權重；c2為控制社會認知的影響權重；rand1j，rand2j為范圍[0，1]的隨機實數；σ為慣性因子.

本文利用PSO算法時優化的是兩個參數，所以搜索空間是二維的，文中直接利用結構相似性(Structual Similarity，SSIM)作為適度函數[16]，則此時t時刻第i個粒子的位置為

(17)

1.3 語譜圖的增強及時域信號的恢復

(18)

式中：k和l分別為頻率點和時間點；β為取值為0～1的遺忘因子. 本文方法得到的增強語譜圖為

y(k,l)=max{X(k,l)-αq′(k,l),0}，

(19)

式中：α為0～αmax的常數. 歸一化處理

(20)

應用逆IFFT合成時域增強語音

f(t)=IFFT{G(k,l)X(k,l)}.

(21)

增益為

(22)

式中：Gmin∈[-30 dB,-10 dB]，用于限制殘留噪聲的最小值，Gmax=1. 基于PSO優化的二次引導圖像濾波(SGIF-PSO)語音增強方法框圖如圖 2 所示.

圖 2 基于SGIF-PSO語音增強方法框圖

2 實驗結果與分析

本文利用Matlab2017b版本下進行的仿真實驗對本文算法的增強效果進行驗證. 選用的語音數據來源于NOIZEUS中純凈語音信號sp10文件，噪聲為高斯白噪聲，信噪比分別為0 dB、5 dB、10 dB. 信號采樣頻率設為8 kH，量化精度為 16 bit，幀長為25 ms，幀移為10 ms，窗函數為hamming窗. PSO算法種群大小為50，最大迭代次數為200，C1=2.8，C2=1.3，權重系數ωmax=0.9，ωmin=0.4. 將本文方法與傳統譜減法、文獻[11]雙邊濾波法、GIF、未進行粒子群優化的SGIF方法進行比較，結果采用信噪比(SNR)及語音質量感知評估(PESQ)作為評價指標.

首先使用本文的語音增強方法對含5 dB白噪聲的帶噪語音信號進行增強.

圖 3 對比了增強前后語音信號的波形圖和語譜圖，通過時域波形可以看出，本文算法能夠有效抑制帶噪信號中的噪聲，增強后的語音整體含噪幅度明顯降低，且波形圖基本保持完整，語譜圖中對高頻處的噪聲抑制作用更加明顯.

(a) 純凈語音

(b) 帶噪語音

表1 對比了5種方法在含不同信噪比噪聲情況下語音增強后的SNR結果，可以看出5種算法均能夠降低噪聲. 低信噪比情況下，會導致語音信號與噪聲信號的邊緣模糊，利用圖像處理技術能夠在有效去噪的同時最大限度地保持圖像邊緣信息. 本文算法優于譜減法、文獻[11]雙邊濾波法、一次GIF和未進行粒子群優化的SGIF的方法，信噪比提升能力更強. 對比文獻[11]中的方法，本文所提方法不會產生梯度反轉，在細節處理上更好，不同類型不同信噪比的背景噪聲均能被有效抑制. 實驗中雖然對于Babble噪聲的去噪效果略低于White噪聲和Factory噪聲，但是總體上本文算法具有良好的魯棒性.

表1 5種算法輸出SNR結果對比

表2 為5種語音增強算法在不同輸入噪聲的不同信噪比下的PESQ結果. 對比可得本文語音增強方法的PESQ值高于其他4種算法. 所提語音增強算法在White類噪聲下增強效果最好，相對于譜減法PESQ增加可達0.58；雖然其他3種圖像濾波方法具有保邊去噪效果，但本文所提語音增強方法的輸出語音整體感知質量更高.

表2 5種算法PESQ結果對比

3 結語

針對低信噪比情況下非平穩帶噪信號中語音噪聲在一定程度上重合，導致語音信息的邊緣被噪聲覆蓋的問題，本文采用圖像處理技術，將語譜圖作為媒介，實現圖像到聲音和聲音到圖像的創造性轉換，達到跨模態處理的目的. 文中提出的語音增強方法具有更好的保邊去噪性，可以直接從帶噪語音的歸一化語譜圖及其增強語譜圖中計算出增益函數，無需進行噪聲估計. 當噪聲強時，引導圖像邊緣遭到破壞無法提供準確的引導信息，去噪效果遭到破壞. PSO優化的SGIF克服了在低信噪比的情況下一次GIF不能有效估計圖像的高頻信息的缺點，能夠通過調整濾波器組中的參數減少不同頻段的噪聲殘留. 實驗表明，改進的引導濾波有更好的邊緣平滑度和濾波效果，在PESQ和SNR評價方面有較好的性能，為后續的語音信號研究提供了相對純凈的語音信號.