999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡的實時語音增強算法

2021-07-21 03:46:12肖純鑫
計算機工程與設計 2021年7期
關鍵詞:信號

肖純鑫,陳 雨

(四川大學 電子與信息學院,四川 成都 610065)

0 引 言

近年來基于統計學規則的語音增強技術,如將MMSE統計規則應用于對數域下的對數譜估計算法(minimum mean square error log-spectral amplitude,MMSE-LSA)[2]等,由于運算量小、語音增強性能較好,在實時應用場景中得到了廣泛應用[1-3]。基于深度學習的方法雖然擁有較好的語音增強效果,但復雜的網絡模型結構和過多運算量等缺陷,使其在實際場景中難以應用[4-7]。相比而言,基于統計學規則的語音增強方法雖然存在著一定性能上的不足,但是這些算法具有較為成熟的理論支撐,將其與深度神經網絡相結合,發揮各自的優良特性,可以實現更加卓越的語音增強性能[8,9]。Jean-Marc提出的基于循環神經網絡的語音增強方法(RNNoise)[10],使用頻帶增益等混合音頻特性作為神經網絡的訓練特征,減少模型的輸入特征維數,兼顧網絡復雜度和語音增強性能,做到了算法的可實時性。同時,RNNoise繼承了深度學習方案的優點,對非平穩噪聲的抑制效果顯著,更符合實際的商業應用場景。

基于以上分析,本文將結合RNNoise與MMSE-LSA語音增強算法,并對RNNoise中增強語音的濾波方式進行改進,進而提出一種語音增強算法MMSE-RNNoise。該方法提升了深度學習語音增強方案對抗未知噪聲的魯棒性,改善了復雜環境下的語音可懂度。

1 MMSE-RNNoise語音增強算法

在RNNoise語音增強算法中,以頻帶增益作為訓練特征以減少神經網絡的特征輸入量,并在神經網絡估計出頻帶增益后以內插的方式得到頻譜增益。而頻帶增益插值運算的方式使得RNNoise中的頻譜增益估計過于平滑,增強語音的噪聲抑制不夠徹底。為了進一步提升算法的噪聲抑制效果,本文將RNNoise的頻帶增益轉換為頻帶先驗信噪比估計,引入MMSE-LSA概率統計模型作為增益估計模塊,實現了噪聲抑制性能更好的語音增強算法MMSE-RNNoise。此外,RNNoise中基于梳狀濾波器的信號后處理方法,在語音信號增強處理后,經過一個梳狀濾波器以濾除諧波間噪聲。但當語音信號受到外界噪聲干擾時,基音檢測將必定存在一定誤差,且當偏差較大時,甚至會出現濾除諧波,保留噪聲頻段的災難性后果。而在大多數商用場景,雖然噪聲普遍存在但信噪比往往不會太低。為了防止基音檢測錯誤造成的音質損傷,另一個對RNNoise的改進點便是結合基音檢測算法[11-13]對諧波增益值進行二次修正,在保證降噪效果的同時減少諧波損傷,從而改善增強后的語音可懂度。

在語音增強過程中,對于一段帶噪語音信號y,一般采用加性噪聲假設的語音增強模型,并定義時域帶噪語音信號為

y(n)=s(n)+d(n)

(1)

其中,s(n) 表示純凈語音信號,d(n) 表示加性噪聲信號。對時域信號y(n) 短時傅里葉變換得

Y(n,k)=S(n,k)+D(n,k)

(2)

其中,n表示幀數,k表示頻點。在時頻域中,MMSE-RNNoise語音增強算法的系統框架如圖1所示。

圖1 MMSE-RNNoise算法結構

其語音增強過程可分為如下幾步進行:

(1)采用實時性能較好的YIN基音檢測算法提取出帶噪語音信號的基音頻率,并計算出循環神經網絡的混合輸入特征;

(2)通過RNN網絡估計出帶噪語音各個頻帶的先驗信噪比,并由線性插值的方式得到頻譜先驗信噪比;

(3)頻譜先驗信噪比通過MMSA-LSA增益估計模塊,計算出頻譜增益;

(4)根據YIN算法得出的基音檢測結果,確定諧波頻點位置,對諧波頻點的增益進行修正;

(5)將帶噪語音信號的幅度譜與修正后的幅度譜增益相乘,結合帶噪語音信號的相位信息,合成出增強處理后的語音。

在本節的后續部分,將對以上各個步驟的內容進行詳解。

1.1 MMSE-LSA語音增強算法

由于在語音增強過程中難以直接估計語音與噪聲信號的強度, MMSE-LSA語音增強算法通過觀測到的帶噪語音噪聲功率譜。由式(3)得出后驗信噪比γ(n,k), 式(4)得出先驗信噪比ξ(n,k)

(3)

(4)

其中,λd為噪聲功率譜,GH為頻譜增益函數,α為用于控制噪聲抑制程度的權重因子。之后,MMSE-LSA語音增強算法通過指數積分函數及估計出的先驗與后驗信噪比,就能夠計算出帶噪語音信號的頻譜增益函數

(5)

(6)

由算法的計算過程可以看出,統計規則下的語音增強算法對噪聲估計有一定的延遲性。同時,在語音信號中包含了許多諧波成分,這些諧波結構影響著語音信號在人耳聽覺下的可懂度和清晰度。基于統計學規則的語音增強算法未考慮到語音頻譜中諧波結構的分布特性,使得增強后的語音音質損傷較為嚴重。

1.2 改進的RNNoise語音增強算法

文獻[5]中使用神經網絡去直接估計幅度譜的各個采樣點,這將使得神經網絡需要使用6144個神經元與一千多萬個參數去處理8 kHz采樣率的音頻。過于臃腫的網絡嚴重限制了算法的訓練速度與實際生活中的應用場景。為了減少神經網絡的參數個數,本文不直接對帶噪語音頻譜增益做映射式的估計,而是使用頻帶先驗信噪比作為神經網絡的訓練特征,以減少網絡輸入的特征維度數。RNNoise 算法中參照了bark域下的頻帶劃分方式,在20 kHz 的頻帶帶寬中劃分出22個頻帶,并將前6個頻帶定義為低頻段。表1顯示了RNNoise算法中頻帶的劃分方式。

由于人耳對低頻語音信號較為敏感,RNNoise算法在低頻段的頻帶劃分上較中高頻段更為細膩。按照表1劃分好頻帶后,定義各個頻帶的先驗信噪比ξ(b) 為

表1 頻帶劃分

(7)

其中,λs(b) 為純凈語音信號s在頻帶b中的功率譜,λd(b) 為噪聲信號d在頻帶b中的功率譜。在神經網絡的訓練過程中,將利用大量提取出的實際先驗信噪比和語音特征,使得網絡可以估計出恰當的頻帶先驗信噪比以實現語音增強。所以在本文中,RNN神經網絡的根本任務便是構造一個可以擬合真實先驗信噪比的非線性函數,使得先驗信噪比估計值與真值之間誤差最小。對于改進的RNNoise神經網絡,其42維的輸入特征由以下4個部分組成:

(1)bark域下劃分出的22個頻帶的先驗信噪比;

(2)對低頻段的6個頻帶計算倒譜系數及其一階差分,組合成12維的語音特征;

(3)根據YIN基音檢測結果,對各個頻帶計算其基音相關性pb(k),并取pb(k)離散余弦變換(discrete cosine transform,DCT)后的前6個系數作為特征;

(4)基音頻率ωn, 頻譜穩定度fn(k)。

其中,基音相關性系數pb(k) 計算公式如下

(8)

P(k)=DCT(X(n-T0))

(9)

上式中,X(n-T0) 表示對第n幀的時頻域帶噪語音信號X(n) 取一個基音周期的延遲,P(k) 為對X(n) 取一個基音周期的延遲并進行離散余弦變換,P*(k) 為P(k) 對應的共軛復數,R[·] 表示取括號內復數的實部。對第n幀時頻域帶噪語音信號X(n) 計算當前幀與前8幀信號頻帶差的平均值,并定義為頻譜穩定度fn(k) 作為神經網絡的輸入特征,計算過程如式(10)所示

(10)

以上的48維特征將輸入到神經網絡中,用以訓練模型并估計出頻帶先驗信噪比。由于循環神經網絡適用于處理序列數據,同時為了防止出現梯度消失及梯度爆炸的問題,算法引入了門控循環單元(gated recurrent unit,GRU)。與長短時記憶網絡(long short-term memory,LSTM)相比較,GRU具有更加精簡的網絡結構,運算量約為LSTM的1/3,且其語音增強效果與LSTM相當[6]。因此,GRU是實時語音增強中較好的神經網絡選擇。改進的RNNoise網絡結構如圖2所示,括號內為當前網絡層輸入或輸出的特征維度數。

圖2 RNNoise神經網絡結構

同時,RNNoise神經網絡中的端點檢測模塊輸出將用于后續的增益修正算法,以進一步提高增強語音的可懂度。當神經網絡估計出頻帶先驗信噪比ξb后,還將通過插值運算的方式轉換為頻譜先驗信噪比,其插值計算方式如下

ξ(k)=∑kw(b,k)ξb

(11)

其中,ξ(k) 為頻點k對應的先驗信噪比,w(b,k) 為頻帶b中頻點k的插值權重,并始終滿足∑kw(b,k)=1。 最后通過MMSE-LSA增益估計模塊,即可由頻譜先驗信噪比計算出頻譜增益。

1.3 基于基音檢測的增益修正算法

由于RNNoise以頻帶增益為網絡的訓練目標,過多的頻點被包含在一個頻帶中計算增益,使得模型估計出的增益系數過于平滑,對語音的可懂度造成一定的影響。因此將RNNoise的頻帶增益特征轉換為頻帶先驗信噪比,并引入MMSE-LSA概率統計模型作為增益估計模塊,改善了語音增益估計的過平滑問題,但MMSE-LSA算法的引入同樣也帶來了一定程度的音質損傷。為此引入基音檢測算法提取出帶噪語音各幀的基頻ωn,并根據RNNoise神經網絡中端點檢測模塊的輸出結果,對諧波增益進行二次修正以彌補MMSE-LSA造成的音質損傷。本實驗中對比分析了文獻[11-13]的基音檢測方法,并最終采用了實時性能更加良好的YIN基音檢測方案。若是追求更加良好的語音增強結果,可采用算法復雜度更高的CREPE等算法。在得到帶噪語音信號的基音檢測結果后,為了保留語音的諧波結構,對于語音信號的濁音幀部分設計如下的增益修正濾波器[14]

(12)

Ak=X(k)+αbP(k)

(13)

其中,Ak為語音頻譜X(k) 加上經αb修正后的基音相關性系數頻譜P(k)。K為增益修正處理的最大諧波次數,本文著重于人耳較為敏感的12 kHz以下中低頻段的語音增強處理,所以取K=12kHz/ωn。σ2用于控制增益修正濾波器的通帶寬度。對于增益修正系數αb使用最小均方誤差等準則也難以求得最優值,為此在后續計算中對其添加約束條件

(14)

由于噪聲干擾,將導致語音的基音相關性降低,對于任意頻帶總存在著pb大于等于gb, 所以上式中增益修正系數αb的最大值為1。為了防止增益修正算法造成語音失真,當語音段無噪聲時(即gb=1), 增益修正系數αb為0。該方法只對語音的諧波頻帶進行增益修正,對其它頻帶的增益值則不做修改。這是因為在現如今,基音檢測算法仍無法達到百分之百的準確率,在基頻提取錯誤的情況下,梳狀濾波可能會導致語音出現嚴重失真。而本算法即使在基頻完全提取錯誤的情況下,也只是在諧波處引入了部分未經抑制的噪聲,且這部分噪聲在聽覺掩蔽效應的作用下,增強語音在聽者耳中并不會引起過多的不適,同時在大部分商用場景下,可以有效提高語音的可懂度。為了后續的算法性能評估,本文將基于基音檢測的增益修正算法與RNNoise語音增強算法相結合,并命名為(RNNoise gain correction,RNNoise-GC)。

2 實驗與分析

2.1 實驗設計

為了對神經網絡進行訓練和性能評估,本實驗中采用McGill TSP語音數據庫及NTT多語言語音數據庫。訓練集噪聲數據來源為俄亥俄州立大學Perceptionand Neurodynamics實驗室的噪聲數據庫。測試集的噪聲來源為與訓練集噪聲不同的Noisex92噪聲庫,將用于下文中不同噪聲環境下的對比實驗。在對比實驗中,將多種噪聲與多國語言的語言信號以不同信噪比相疊加,其中也參雜了部分純凈語言與純噪聲。在語音與噪聲信號的混合過程中,每隔2821幀對語音和噪聲增益進行隨機初始化以模擬現實場景中的復雜環境。為了增強本算法在不同聲學應用場景下的魯棒性,本文將對疊加語音和噪聲進行隨機參數的二階濾波,其濾波方程如下所示

(15)

其中,隨機濾波參數r1,r2,r3,r4的分布范圍在正負0.375之間。在實驗中,共計使用了6小時的語音與4小時的噪聲數據,并以多種的語音與噪聲疊加方式,生成了140小時的可訓練帶噪語音文件。語音文件的采樣率均為48 kHz,帶噪語音信號將在20 ms的幀長,10 ms的幀移下進行短時傅里葉變換。實驗環境配置見表2。

表2 實驗環境配置

在RNN神經網絡中包含3個GRU單元、4個隱藏層,各連接層均為全連接方式,層間的激活函數均為線性整流函數(rectified linear unit,ReLU),最后的輸出層使用Sigmoid函數激活。端點檢測部分的損失函數為交叉熵函數,而頻帶先驗信噪比估計部分,神經網絡的損失函數定義為

(16)

對于第一個GRU單元,將上一小節提取出的42維特征輸入到網絡中,對頻帶語音狀態的端點檢測能力進行訓練,經ReLU函數激活后輸出24維特征,進而設定為端點檢測模塊。對于第二個GRU單元,將端點檢測模塊的輸入、輸出與網絡輸入的42維特征疊加,構成90維的輸入特征,對頻帶噪聲進行估計,經ReLU函數激活后輸出48維特征,設定為噪聲估計模塊。而對于第三個GRU單元,將噪聲估計模塊輸出的48維特征與端點檢測模塊輸出24維特征、網絡輸入的42維特征進行疊加,共計114維的輸入特征經ReLU函數激活后輸出96維特征。此時還需要經過一個全連接層,經Sigmoid函數激活后輸出各個頻帶先驗信噪比的估計值。之后,RNNoise網絡輸出的22維頻帶先驗信噪比將通過內插的方式轉換為頻譜信噪比,并輸入到MMSE-LSA增益估計模塊中,計算出頻譜增益值。最后將各個頻點的幅值與增益相乘,利用帶噪語音的相位合成出可測聽的增強語音信號。

2.2 實驗結果及評估

為了評估MMSE-LSA、RNNoise、RNNoise-GC、MMSE-RNNoise這4種語音增強方法的性能,本文使用各個方案對相同的測試集音頻分別進行語音增強。對增強后的語音信號主要采用兩種衡量指標,包括主觀語音質量評估PESQ(得分范圍為-0.5-4.5)與短時客觀可懂度STOI(得分范圍為0-1)。由于頻帶劃分的限制,RNNoise只能對48 kHz采樣率的輸入音頻進行語音增強,但PESQ評價方案僅對較低采樣率的音頻進行評估,所以本文將對輸出音頻重采樣到16 kHz再進行語音質量衡量指標的計算。

圖3和圖4分別給出了帶噪語音和4種方案增強后語音信號的平均PESQ和STOI 得分。從圖中可以看出,在不同的未知噪聲環境下,本文提出的算法與MMSE-LSA、RNNoise、RNNoise-GC相比較,增強后語音信號在PESQ及STOI得分上均有所提高。對于白噪聲等平穩噪聲,MMSE-LSA語音增強算法對噪聲的估計較為準確,但對于Factory2等非平穩噪聲噪聲,其增強效果欠佳。而MMSE-RNNoise等基于深度學習的語音增強方案在應對非平穩噪聲干擾時,其語音增強效果較為顯著,PESQ與STOI得分均有所提升。對比MMSE-RNNoise與RNNoise兩個基于深度學習的語音增強方案,由于MMSE-RNNoise采用了MMSE-LSA與增益二次修正的信號后處理方法,具有更加良好的噪聲抑制與諧波保留效果。

圖3 4種算法的平均PESQ得分

圖4 4種算法的平均STOI得分

為了更加直觀地對比不同算法的噪聲抑制效果,本文對同一段含有非平穩Speech babble噪聲、信噪比為10 dB的帶噪語音信號,分別使用4種算法進行語音增強,并比較增強語音的語譜圖,如圖5所示。由于人耳對于語音信號的低頻段細節更為敏感,為了更加細致地觀察信號在低頻段的頻譜細節特征,圖中只展示了0-8 kHz范圍的頻譜。對于非平穩噪聲,由圖5可以看出,MMSE-LSA增強后的語音失真度較高。而RNNoise、RNNoise-GC、MMSE-RNNoise 等基于深度學習的語音增強算法,在非平穩噪聲環境下增強后的語音更能保留語音信號的細節特征。同時,對比RNNoise和RNNoise-GC,改進后的MMSE-RNNoise彌補了RNNoise的增益估計過平滑問題,使得算法的噪聲抑制更為徹底,同時保留了更多純凈語音頻譜的細節特征,進一步提高了語音的可懂度。

圖5 增強后語譜

為了比較算法的可實時性,本文在同一實驗環境配置下(表2),采用Visual Studio編譯器對同一段3分鐘時長、48 kHz采樣率的音頻計算程序處理耗時,結果見表3。

表3 4種算法的音頻增強處理耗時

由于MMSE-RNNoise算法在原RNNoise和MMSE-LSA算法的基礎上做出了結合與改進,將不可避免地增大算法運算量,降低了一定程度的算法實時性。實驗結果統計表明,本文提出的MMSE-RNNoise算法較原RNNoise算法在運算時間上增大了近一半,較MMSE-LSA算法則增大了約1/6。但是在部分商用場景中,硬件設備有著較高配置,進而追求更高的語音增強性能,則本算法提供了一種行之有效的工程方案思路。可見本文在未大幅增加算法運算量的同時,提升了RNNoise的算法性能,且在大多數聲學場景下,增強后的語音信號在PESQ指標和STOI指標等方面都得到了有效的提高。

3 結束語

本文在RNNoise語音增強算法的基礎上,將RNNoise算法中的頻帶增益轉換為頻帶先驗信噪比估計,并與MMSE-LSA算法相結合,有效改善了頻帶增益系數過平滑問題。同時,為了進一步提高增強語音的可懂度,引入了YIN基音檢測算法提取出基頻,并對MMSE-LSA估計出的增益系數在諧波處進行增益修正,更加完整地保留帶噪語音頻譜中的諧波結構。對比原RNNoise和MMSE-LSA語音增強算法,實驗結果表明,本文提出的MMSE-RNNoise 算法更好地保留了語音信號的諧波特性,提高了增強語音可懂度,并于算法復雜度量與語音增強性能之間,取得了一個較好的平衡。

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 国产亚洲精品自在久久不卡| 日韩精品少妇无码受不了| 欧美a√在线| 国产欧美日韩18| 亚洲第一中文字幕| 精品国产自在在线在线观看| 精品国产免费观看| 东京热高清无码精品| 久久伊人操| 久久超级碰| 成年午夜精品久久精品| 性视频久久| 亚洲精品少妇熟女| 亚洲Av激情网五月天| 亚洲欧洲美色一区二区三区| 国产无人区一区二区三区 | 丁香五月婷婷激情基地| 精品伊人久久久香线蕉| 香蕉久久永久视频| 丰满人妻一区二区三区视频| 国产乱子伦视频三区| 亚洲第一黄片大全| 日韩 欧美 小说 综合网 另类| 99青青青精品视频在线| 无套av在线| 伊在人亞洲香蕉精品區| 国内精品手机在线观看视频| 精品视频免费在线| 凹凸精品免费精品视频| 成人一区专区在线观看| 在线免费观看AV| 看国产毛片| 91美女在线| 欧美成人看片一区二区三区| 在线国产毛片| 国产成人高清在线精品| 亚洲黄色高清| 波多野结衣无码中文字幕在线观看一区二区| 成人在线观看一区| 精品久久人人爽人人玩人人妻| 婷婷亚洲视频| 欧美亚洲欧美| 一级毛片a女人刺激视频免费| 精品国产aⅴ一区二区三区| 毛片网站免费在线观看| 国产精品手机在线观看你懂的| 日韩一二三区视频精品| 97视频在线观看免费视频| 热久久这里是精品6免费观看| 激情综合激情| 美女免费黄网站| 一本一本大道香蕉久在线播放| 久久 午夜福利 张柏芝| 亚洲一级毛片在线播放| 国产欧美成人不卡视频| 亚洲天堂视频在线免费观看| 日韩 欧美 国产 精品 综合| 色婷婷色丁香| 日韩 欧美 国产 精品 综合| 爆乳熟妇一区二区三区| 欧美一级专区免费大片| 欧美日韩国产在线人成app| 欧美精品1区| 成人一级免费视频| 久久国产精品夜色| 亚洲无码高清视频在线观看| 国内精品久久九九国产精品| 久久男人视频| 久久久久久久97| 久久a毛片| 久久精品国产国语对白| 久久久久亚洲av成人网人人软件| 日韩国产欧美精品在线| a天堂视频| 色偷偷男人的天堂亚洲av| 欧美专区在线观看| 欧美视频二区| 五月婷婷激情四射| 欧美日韩国产在线播放| 国产在线一区二区视频| 欧美一区二区三区欧美日韩亚洲 | 亚洲色成人www在线观看|