999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種用于實時語音增強的卷積準循環網絡

2022-07-04 05:49:52時云龍袁文浩胡少東婁迎曦
西安電子科技大學學報 2022年3期
關鍵詞:特征模型

時云龍,袁文浩,胡少東,婁迎曦

(山東理工大學 計算機科學與技術學院,山東 淄博 255000)

語音作為信息傳遞的重要載體之一,在現實生活中不可避免地被各種背景噪聲干擾,導致語音的質量和可懂度均有所下降。語音增強的作用就是從含有背景噪聲的語音信號中,最大程度地提取出純凈的目標語音信號,進而提高語音質量和可懂度[1-2]。十幾年來,研究人員相繼提出了抑制噪聲對目標語音影響的語音增強方法。常見的傳統語音增強方法有譜減法[3]、維納濾波法[4]、子空間法[5]等,這些方法在平穩噪聲環境中有良好的增強效果,但在非平穩噪聲環境中常常會引入“音樂噪聲”[6-7],導致增強后的語音質量下降。

近年來,深度學習在圖像分類、語音識別等領域取得了巨大的成果,研究人員開始將深度神經網絡引入語音增強問題中,以獲得更好的語音增強性能。深度學習一般采用神經網絡處理數據,常用的神經網絡有深度神經網絡(Deep Neural Networks,DNN)、卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Networks,RNN)等。文獻[8]將語音增強任務作為回歸問題,使用受限玻爾茲曼機的方法初始化網絡參數,模型使用含噪語音的對數功率譜(Log-Power Spectrogram,LPS)特征作為輸入,通過訓練深度神經網絡模型估計純凈語音的對數功率譜特征,利用含噪語音的相位信息合成增強后的語音信號,取得了較好的增強效果。文獻[9]提出了一種利用深度神經網絡估計非負矩陣分解算法的編碼向量方法,解決了語音和噪聲的子空間可能重疊的局限性。網絡模型通過學習含噪語音到純凈語音和噪聲的編碼向量的復雜映射,提高了基于非負矩陣分解的語音增強方法性能。

為了對語音信號在時間和頻率兩個維度的局部相關性進行利用,進一步提高語音增強的性能,文獻[10]將卷積神經網絡應用到語音增強任務中。文獻[11]提出冗余卷積編碼解碼器,可以在編碼器處提取噪聲的冗余表示,并在解碼器處進行消除,使用全卷積神經網絡在含噪語音的頻譜和純凈語音的頻譜之間找到一個映射來解決語音增強問題,有效提高了語音的質量和可懂度。文獻[12]提出了一種利用深度特征損失函數來訓練全卷積神經網絡的方法,在端到端的語音增強方法中,得到了更好的增強效果。

由于語音的序列特性,文獻[13]使用循環神經網絡來處理語音增強問題。為了降低梯度消失和梯度爆炸對循環神經網絡訓練帶來的影響,研究人員相繼設計出循環神經網絡的變體長短期記憶網絡(Long Short-Term Memory,LSTM)、門控循環單元(Gated Recurrent Unit,GRU)等網絡實現語音增強,進一步提升了增強后語音的各項指標。文獻[14]對基于長短期記憶網絡的語音增強模型進行了全面研究,針對不同的訓練目標,長短期記憶網絡在不同信噪比(Signal Noise Ratio,SNR)上表現出的互補特性,提出了一種多目標聯合學習的集成框架,充分利用不同訓練目標的優勢,提高模型在未知噪聲條件下的泛化能力。文獻[15]提出了基于長短期記憶網絡的漸進式學習模型,通過密集連接加深網絡,產生更好的語音清晰度。

為了更好地利用語音序列信息的上下文關系,研究人員常使用循環神經網絡來處理序列問題。但由于循環神經網絡每一時刻的處理都依賴上一時刻的輸出,導致網絡訓練緩慢。文獻[16]改進了長短期記憶網絡的隱層神經元連接方式,使網絡模型在計算時不再依賴上一時刻的輸出,提出了一種可以并行計算的準循環神經網絡(Quasi-Recurrent Neural Network,QRNN)。通過實驗,證實了準循環神經網絡在情感分類[16]、機器翻譯[16]、實時文本轉語音[17]等領域在能夠保證網絡性能的前提下,提高了模型計算速度。然而,準循環神經網絡在隱層對輸入語音序列采用全連接網絡方式進行特征提取,忽略了語音信號的時頻域局部相關性,限制了模型的性能。文獻[10-12]中已經證明卷積神經網絡在語音增強任務中,能夠更加專注于語音的局部結構并加以利用,有效地抑制噪聲,保留更完整的語音信號。因此,在保證因果性的前提下,為了利用含噪語音在時頻域特征的相鄰頻帶和相鄰幀之間的局部相關性,筆者使用卷積層改進了準循環神經網絡在隱層對輸入語音序列的特征提取方式,設計出一種適合實時語音增強的卷積準循環網絡(Convolutional Quasi-Recurrent Network,CQRN)。最后通過語音增強實驗對其性能進行客觀評價。

1 基于深度神經網絡的實時語音增強方法

基于深度神經網絡的實時語音增強方法使用的是因果形式的輸入。此外,為了利用含噪語音在時頻域中相鄰幀和頻帶之間的相關性,網絡的輸入一般為含噪語音的多個相鄰幀的時頻域特征。因此,當對第t幀的含噪語音進行實時語音增強時,網絡的輸入Ψt可以表示為

(1)

其中,Yt,s表示第t幀第s個頻帶的特征值,k是網絡輸入的窗長,n是語音在時頻域的特征維度。為減少網絡計算量,僅使用當前幀的時頻域特征作為輸入,此時輸入到網絡的特征Ψt表示為

Ψt=[Yt,1,Yt,2,…,Yt,n]T。

(2)

基于深度神經網絡的實時語音增強方法通過使用大量含噪語音數據進行網絡訓練,從而得到含噪語音時頻域特征到純凈語音時頻域特征的映射fθ(其中θ是網絡的參數集合),然后通過fθ來估計純凈語音的時頻域特征。采用大小為M的mini-batch訓練網絡,使用平均絕對誤差(Mean Absolute Error,MAE)作為損失函數:

(3)

其中,Ψt是網絡的輸入,即含噪語音第t+k+1幀到第t幀的時頻域特征,St是與輸入含噪語音對應的純凈語音在第t幀的時頻域特征。

2 QRNN網絡結構

QRNN改進了長短期記憶網絡的隱層神經元的連接方式,不再依賴上一時刻的輸出,可以進行并行計算。此外,QRNN只需要計算遺忘門和輸出門,結構更加簡單,減少了網絡計算量。

給定一個長度為T,每個子序列向量的維度為n的含噪語音頻譜特征X=[x1,x2,x3,…,xT]。首先經過掩蔽卷積(Masked convolution)對含噪語音時頻域特征信息在時間維度上進行卷積操作。通過m個寬度為k的卷積濾波器,只允許當前時刻和過去時刻的信息輸入到QRNN隱層,使得每一時刻輸入到QRNN隱層的序列長度始終為k,如圖1所示,給出了QRNN的計算過程。第t時刻時,輸入到隱層含噪語音的特征序列為[xt-k+1,xt-k+2,…,xt],在QRNN隱層采用全連接的方式,計算序列zt、遺忘門ft以及輸出門ot

圖1 QRNN計算過程

(4)

(5)

(6)

其中,Wz、Wf、Wo分別為計算zt、ft和ot的權重矩陣。從式(4)~式(6)可以看出:zt、ft以及ot只與序列[xt-k+1,xt-k+2,…,xt]有關。濾波器的寬度k的取值越大,QRNN可以利用的含噪語音信息越多,模型的性能提升,但同時也會導致計算量增大,模型的復雜度增加。為權衡網絡的性能和復雜度,在節5.3中只考慮k值取1,2,3時的情況。

最后,利用序列zt、遺忘門ft以及輸出門ot,可以計算t時刻的單元狀態ct和輸出特征ht:

ct=ft⊙ct-1+(1-ft)⊙zt,

(7)

ht=ot⊙ct,

(8)

其中,⊙表示哈達瑪積(Hadamard product)。

3 CQRN網絡結構

QRNN在計算輸入序列以及各個門函數時,含噪語音特征首先經過全連接層,而全連接層忽略了語音在頻域中二維相關性,僅考慮了序列的時域特性,限制了語音增強的性能。為了利用含噪語音在時頻域特征的相鄰頻帶和相鄰幀之間的局部相關性,筆者改進了QRNN在隱層對輸入含噪語音序列特征提取的方式,設計出一種適合實時語音增強的CQRN。

CQRN與QRNN類似,使用掩蔽卷積對輸入含噪語音特征序列進行處理,因此CQRN也具有對語音序列信息進行并行運算的能力。與QRNN不同的是,在CQRN隱層采用卷積網絡結構對含噪語音的頻譜特征進行提取,充分利用含噪語音時頻域的二維結構特征。

圖2給出了CQRN的計算過程。在第t時刻,輸入到CQRN隱層的序列為Xt=[xt-k+1,xt-k+2,…,xt],其中,xt的維度為n。CQRN隱層對輸入序列進行卷積運算,得到計算序列Zt、遺忘門Ft以及輸出門Ot,其計算公式分別為

圖2 CQRN計算過程

(9)

(10)

(11)

其中,WZ、WF、WO分別為計算Zt、Ft和Ot的權重矩陣,*表示卷積運算。與QRNN計算序列zt不同,CQRN計算序列Zt使用的是收斂速度更快、對噪聲魯棒性更好的指數線性單元(Exponential Linear Unit,ELU)激勵函數。

最后,利用序列Zt、遺忘門Ft和輸出門Ot,可以計算出t時刻的單元狀態Ct和輸出特征Ht:

Ct=Ft⊙Ct-1+(1-Ft)⊙Zt,

(12)

Ht=Ot⊙Ct。

(13)

結合圖1和圖2,可以看出,QRNN的計算完全忽略了輸入特征序列的二維結構,而CQRN的計算始終在卷積操作的多通道特征上進行,因此CQRN可以更好地利用語音序列的局部相關性,獲得更好的語音增強效果。

4 實驗與結果分析

4.1 實驗配置

實驗選用愛丁堡大學信息學院語音技術研究中心提供的可用于訓練語音增強方法的語音數據集[18]。數據集中包含訓練集和測試集兩部分,其中,訓練集使用由14名男性說話人和14名女性說話人構成的純凈語音,共有11 572個語音數據文件;使用10種不同的噪聲類型,其中包括8種來自DEMAND數據集[19]的實際噪聲和2種人工合成的噪聲類型[20],將純凈語音和噪聲語音分別按照0 dB、5 dB、10 dB和15 dB的信噪比進行合成含噪語音數據文件。測試集使用由1名男性說話人和1名女性說話人構成的純凈語音,共有824段語音數據文件;使用來自DEMAND數據集[19]中不同于訓練集的另外5種實際噪聲,將純凈語音和噪聲語音分別按照2.5 dB、7.5 dB、12.5 dB和17.5 dB的信噪比合成含噪語音數據文件。

將實驗用到的所有語料的采樣頻率重采樣為16 kHz,除特殊說明外,短時傅里葉變換(Short-Time Fourier Transform,STFT)的幀長設置為512點(32 ms),幀移設置為256點(16 ms),并使用漢明窗防止產生頻譜泄露。使用STFT對含噪語音和純凈語音的每一幀進行處理得到一個257維的STFT幅度譜,分別作為輸入特征和訓練目標。使用的模型均含有7層的網絡結構,CQRN和QRNN的隱層節點數為512。此外,CQRN中的卷積結構采用大小為1×9的卷積濾波器,即時間維度上的寬度為1,頻域維度上的寬度為9。筆者采用的網絡訓練工具為CNTK[21]。

4.2 評價指標

使用了在語音增強領域常用的4種評估指標來測試CQRN的性能,包括語音信號失真指數(Composite measure of SIGnal distortion,CSIG)[22]、背景噪聲干擾指數(Composite measure of BAcKground intrusiveness,CBAK)[22]、整體質量(Composite measure of Overall quality,COVL)[22]和語音質量感知評估(Perceptual Evaluation of Speech Quality,PESQ)[22]。其中,PESQ的得分范圍為[-0.5,4.5],其他評估指標的得分范圍為[0,5]。評估指標的得分越高,表示語音增強方法的性能越好。此外,為了驗證CQRN的實時性,還計算了網絡模型的實時率(Real-Time Factor,RTF)以及網絡模型處理一幀含噪語音信息需要的時間。其中,RTF≤1時,就可以認為網絡模型的處理滿足實時性的要求。

4.3 網絡性能比較

為了驗證筆者提出的CQRN在實時語音增強任務中的有效性,進行了4部分的實驗對比。首先為了驗證CQRN在語音增強性能上優于QRNN,將CQRN與QRNN在增強后語音的質量和網絡模型的參數量進行對比;其次為了進一步比較CQRN在語音增強任務的優越性,將CQRN與其他復雜網絡的語音增強方法進行對比;然后,考慮到幀移對語音增強性能和實時性的影響,使用對不同幀移的時頻特征進行訓練CQRN并分析結果;最后,驗證CQRN進行語音增強的實時性。

4.3.1 CQRN與QRNN對比

為了比較CQRN與QRNN的語音增強性能,在同一測試集上對兩種網絡進行測試。圖3(a)~(d)分別給出了濾波器寬度k值不同取值所對應的增強后語音的平均CSIG、CBAK、COVL和PESQ的得分柱狀圖。從圖3中可以看出,筆者提出的CQRN在各項語音增強性能評估指標的得分上均優于QRNN。在不同k值下,同一網絡的性能也存在差異,其中k=2時語音增強效果提升最顯著,而當k=3時,語音增強的性能較k=2時提升不大。

(a) CSIG得分

此外,相對全連接層,卷積層具有局部連接和權重共享的特性,且CQRN的參數量主要來自于卷積層,而QRNN的網絡參數量主要來自全連接層,因此CQRN的網絡參數量明顯小于QRNN。表1所示為QRNN與CQRN網絡參數量對比。隨著k值的增加,兩種網絡的參數量都有所增加,但CQRN的參數量增加更為緩慢。

表1 QRNN與CQRN網絡參數量對比

綜上分析,權衡網絡模型的復雜度和性能的關系,為充分利用CQRN在實時語音增強領域的優勢,在實際應用中可以將濾波器的寬度k設置為2。此時,不僅CQRN的性能高于QRNN,且CQRN的參數量僅約為QRNN的53.61%,這不僅提高了語音增強的性能,還降低了模型的參數量。

4.3.2 與其他語音增強方法對比

為了進一步驗證CQRN在語音增強性能方面的優越性,還將基于CQRN的語音增強方法與其他常見的語音增強方法在4個客觀評估指標上進行了對比。表2列出了不同語音增強方法在同一數據集的增強性能指標得分情況,同時標明了不同方法是否使用了因果形式的輸入。從表2中可以看出,筆者提出的CQRN在保證輸入為因果形式的前提下,網絡性能優于其他語音增強方法。

表2 不同語音增強方法的性能對比

4.3.3 幀移對CQRN性能的影響

近期研究表明,在時頻域的語音增強中,STFT使用較小的幀移,獲得的語音增強效果會更好[29]。此外,STFT使用較小的幀移,可以對下一幀含噪語音更早進行處理,如果網絡模型處理的速度足夠快,則語音增強的延遲會更小,所以較小的幀移比較適合低延時且簡單的語音增強網絡模型。因此,筆者在STFT幀長為512點(32 ms)的條件下,分別使用幀移為256點(16 ms)與128點(8 ms)進行實驗對比。表3是濾波器寬度k=2的情況下,幀移分別為128點和256點的語音增強性能對比。可以看出,幀移為128點時,CQRN的語音增強的評估指標得分均高于幀移為256點的評估指標得分。

表3 幀移對CQRN性能的影響

4.3.4 CQRN實時性驗證

為了驗證CQRN的實時性,采用幀長512點(32 ms)、幀移256點(16 ms)的STFT幅度譜作為輸入特征,分別在NVIDIA 1080Ti GPU和AMD R7-2700X CPU平臺上進行實驗。實驗結果表明,CQRN進行語音增強時,在GPU和CPU平臺上的平均RTF分別為0.026和0.699,在GPU平臺和CPU平臺上處理一幀需要的時間分別為0.41 ms和11.19 ms。因此,CQRN在這兩種實驗平臺上能夠滿足實時性的要求。

5 結束語

基于QRNN的語音增強方法在時間序列上可以對含噪語音進行并行計算,但其在隱層進行特征提取時,直接使用全連接層而完全忽略了含噪語音時頻域的相關性。基于此,筆者將CNN與QRNN相結合,提出了一種應用于實時語音增強的CQRN。CQRN使用卷積層代替了QRNN的全連接層,進而改變了QRNN在隱層對含噪語音特征進行特征提取的方式,既能通過卷積層提取含噪語音序列在時頻域的二維相關性,提高語音增強的性能,又降低了模型的參數量。實驗結果表明,CQRN在語音增強的性能和網絡模型參數量方面都優于QRNN。相比于現有常用的語音增強方法,CQRN在保證因果形式輸入的前提下,有效地降低了語音失真,更好地抑制了背景噪聲,得到語音質量更好的語音信號。此外,在STFT幀長為512點(32 ms)和幀移為256點(16 ms)的情況下,CQRN在NVIDIA 1080Ti GPU和AMD R7-2700X CPU實驗平臺上均滿足實時性的要求。

在下一步的研究中,為了達到在低配環境下的實時性,將對模型進行優化,在保證模型性能的前提下,提高模型的實時性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产美女一级毛片| 秋霞国产在线| 亚洲性网站| 久久综合干| 国产免费a级片| 欧美不卡视频一区发布| 国产不卡在线看| 国产激情影院| 亚洲最猛黑人xxxx黑人猛交| 国产精品欧美激情| 亚洲二区视频| 夜精品a一区二区三区| 91精品国产综合久久不国产大片| 国产精品免费p区| 尤物午夜福利视频| 2021天堂在线亚洲精品专区| 青青网在线国产| 国产亚洲精久久久久久久91| 性欧美在线| 国产日韩精品欧美一区喷| 国产亚洲欧美另类一区二区| 亚洲无码视频图片| 欧美不卡视频在线观看| 国产h视频免费观看| 国产精品视频久| 高清不卡一区二区三区香蕉| 99精品在线视频观看| 欧美精品高清| 国产91视频免费观看| 国产福利影院在线观看| 456亚洲人成高清在线| 亚洲—日韩aV在线| 亚洲天堂福利视频| 成人免费一区二区三区| 亚洲国产日韩在线观看| 久久青草视频| 亚洲人成影院午夜网站| 国产精品区视频中文字幕| 亚洲欧美另类视频| 秋霞一区二区三区| 国产欧美精品午夜在线播放| 国产噜噜噜视频在线观看| 国产在线视频欧美亚综合| 中文字幕亚洲无线码一区女同| 国产精品免费福利久久播放| 成人午夜久久| 伊人成人在线| 成人永久免费A∨一级在线播放| 亚洲欧美激情小说另类| 亚洲无码视频图片| 亚洲第一福利视频导航| 巨熟乳波霸若妻中文观看免费| 动漫精品啪啪一区二区三区| 亚洲成人播放| 久久99热这里只有精品免费看 | 午夜视频免费一区二区在线看| 妇女自拍偷自拍亚洲精品| a天堂视频| 中文字幕亚洲另类天堂| 国产黄色片在线看| 国产精品一区不卡| 天天色天天综合| 国产AV毛片| 欧美成人精品在线| 国产精品手机视频| 青青草原国产| 国产成人综合网| 亚洲天堂精品视频| 国产一区三区二区中文在线| 麻豆精品视频在线原创| 国产日韩欧美成人| 日韩欧美国产中文| 99热这里只有精品5| 亚洲三级成人| 真实国产乱子伦视频| 91精品国产91久久久久久三级| 波多野结衣无码AV在线| 国产成人8x视频一区二区| 亚洲成在人线av品善网好看| 99资源在线| 国产91视频免费观看| 亚洲精品第1页|