999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力機制對生成對抗網絡語音增強遷移學習模型的影響

2021-03-10 07:59:18曹中輝黃志華葛文萍
聲學技術 2021年1期
關鍵詞:資源效果模型

曹中輝,黃志華,葛文萍,黃 浩

(新疆大學信息科學與工程學院,信號檢測與處理新疆維吾爾自治區重點實驗室,新疆烏魯木齊830001)

0 引 言

語音增強[1]是從帶噪信號中恢復出原始信號的一種信號處理技術。譜減法、維納濾波等基于統計模型的方法是語音增強領域中廣泛使用的經典方法[2-4],但是傳統語音增強方法對于非平穩噪聲的增強效果有限。近些年來,深度學習技術在語音增強領域取得顯著進步,基于降噪自編碼器,深度神經網絡(Deep Neural Network, DNN)、卷積神經網絡(Convolutional Neural Network, CNN)、長短時記憶網絡(Long Short-Term Memory, LSTM)的語音增強方法先后被提出[5-8],這些基于深度神經網絡的增強模型能有效抑制非平穩噪聲。2014 年,Goodfellow 等[9]提出生成對抗網絡(Generative Adversarial Network, GAN)。2017年,Santiago等[10]將 GAN應用在語音增強上,提出一種端到端的GAN語音增強框架(Speech Enhancement GAN,SEGAN),在客觀和主觀測評指標上均優于傳統維納濾波方法。Daniel等[11]提出條件GAN (Conditional GAN, cGAN)結構進行語音增強,測評結果在主觀語音質量評估(Perceptual Evaluation of Speech Quality, PESQ)指標上優于基于最小均方誤差的短時幅度譜增強方法(Short-time Spectral Amplitude Minimum Mean Square Error, STSA-MMSE)和基于DNN的理想比值掩模(Ideal Ratio Mask, IRM)增強算法。2018年,Li等[12]將GAN應用在語音去混響上,與權重預測誤差(Weighted Prediction Error,WPE)系統和基于 DNN的去混響方法相比,PESQ和語音混響調制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高。現有增強方法雖然取得有效的增強效果,但均采用單一語言數據對增強模型進行訓練,并未探討單一語言增強模型對新語言語音的增強效果。2014年,Xu等[13]對基于DNN語音增強框架進行模型遷移實現了跨語言語音增強,對于低資源新語言語音的增強效果優于低資源單語言語音訓練出的模型。2017年,Santiago等[14]用SEGAN遷移學習模型對新語言帶噪語音進行去噪,采用英語單語言增強模型對網絡進行參數初始化,低資源語音采用韓語和加泰羅尼亞語,以遷移學習的方式訓練 SEGAN,對低資源帶噪語音的去噪效果與直接用低資源語音數據訓練的 SEGAN相比,在評測指標分段信噪比(Segmental Signal Noise Ratio, SSNR)上提升了10 dB,PESQ值提升了將近1。

研究表明,在卷積神經網絡中引入注意力機制可進一步提升網絡的分類準確性[15-16]。本文提出一種在生成對抗網絡中引入注意力機制的遷移學習模型(Attention Transfer Learning Generative adversarial Network, ATGAN),有效提高了低資源語言場景下少量語音的去噪效果。

1 GAN語音增強

GAN是一種基于生成對抗思想訓練的神經網絡模型,由生成模型(Generator)G和判別模型(Discriminator)D兩部分組成。GAN的結構圖如圖1所示。

圖1 生成對抗網絡(GAN)的結構圖Fig.1 GAN structure diagram

G將隨機噪聲生成盡可能符合真實數據分布的數據,D負責區分輸入數據是G生成的數據還是真實數據。對于給定的真實數據x,D為其打上標簽1;對于給定的生成數據G(n),D為其打上標簽0。在對抗訓練過程中,傳給D的生成數據G(n),則盡可能讓D為其打上標簽1。D將判決結果誤差傳遞給G模型,直到D對于給定數據預測為真的概率逼近0.5,達到納什均衡。這一過程可表示為[10]

其中:n表示噪聲,x為真實數據。為了更好地控制生成數據的質量,常在G和D中加入條件y,此時目標函數為

GAN語音增強模型中的G即為語音增強部分,可由CNN或者LSTM網絡構成。干凈語音為x,n為帶噪語音,達到均衡后的G輸出即為增強后的語音。

2 引入注意力機制的生成對抗網絡語音增強遷移學習模型

遷移學習是將模型在某一領域學到的知識遷移到相近或者不同領域的技術。遷移學習使模型能夠在已有知識的基礎上快速有效解決新目標域的問題,其在機器學習和數據挖掘領域具有重要研究價值[17]。本文提出一種在 GAN網絡中引入注意力機制的GAN語音增強遷移學習模型(ATGAN),進一步提高GAN語音增強遷移學習模型對低資源帶噪語音的去噪效果。ATGAN語音增強模型注意力機制示意圖如圖2所示。

圖2 ATGAN語音增強模型注意力機制示意圖Fig.2 Attention mechanism in ATGAN speech enhancement model

給定輸入特征圖F,通過通道注意力模塊,得到通道注意力權重C(F),然后與輸入特征圖相乘,結果F1送入空間注意力模塊,得到空間注意力權重S(F1),與中間輸入F1相乘,得到修正后的特征圖F2,數學描述為

式(3)、(4)中的?表示點乘。C表示通道注意力模塊映射函數,S表示空間和注意力模塊映射函數。

生成模型G由22層包含跳躍連接的對稱U型卷積和反卷積層構成[18]。網絡結構如圖3所示。

圖3 ATGAN語音增強模型生成模型G的結構Fig.3 Structure of generator G in ATGAN speech enhancement model

音頻數據經過預處理,送入G的維度為16 384×1,卷積操作為一維卷積,激活函數為Prelu,卷積核寬為31,步長為2。卷積部分結束輸出維度為 8×1 024,然后從相應維度的標準正態分布中采樣,與卷積結果拼接,送入與卷積部分對稱的反卷積網絡。

D的結構如圖4所示,由編碼和注意力模塊組成,編碼部分為9層下采樣卷積層,由一維反卷積和正則化層構成,激活函數為Lrelu,卷積核大小為31,步長為 2。下采樣結束得到 8×1 024維度的編碼結果,送入注意力模塊,經過最大池化和平均池化以及sigmoid函數操作,得到經通道注意力權重修正后的特征圖,然后結果經過最大池化和平均池化處理后進行拼接,再送入一維卷積,卷積核大小為 7,個數為 1,得到經空間注意力權重修正的特征圖,最后得到更為準確的分類結果,流程圖如圖5所示。

圖4 ATGAN語音增強模型判別模型D的結構Fig.4 Structure of discriminator D in ATGAN speech enhancement model

圖5 注意力模塊結構流程圖Fig.5 Structure flowchart of attention module

參考文獻[19],損失函數(loss)設計如下:

生成對抗網絡引入注意力機制后,通過高資源(文中的資源是指訓練模型數據資源的豐富程度,高資源指訓練數據充足的場景,低資源是指訓練數據非常少的場景,直接采用低資源場景下的訓練模型無法達到較好的增強效果)語音數據訓練得到網絡權重參數更為合理的預訓練模型,然后采用低資源場景下的少量語音數據,對預訓練模型進行權重遷移,得到引入注意力機制的GAN語音增強遷移學習模型。

3 實驗與討論

3.1 數據集準備與網絡參數設置

為了評估和分析本文提出的ATGAN語音增強模型對低資源語音的去噪效果,采用英語數據訓練的模型遷移到對維吾爾語進行增強的ATGAN上。英語數據集采用Voice Bank語料庫[20],訓練集由28位說話人組成,包括14位男性、14位女性;為了獲得帶噪語音數據集,從 Demand數據集中選擇kitchen,field,washing,station,river,park,hallway,meeting,restaurant,traffic,metro 11 種噪聲[21],分別以0、5、10、15 dB的信噪比與干凈語音合成,得到帶噪語音訓練集,共11 572條。維吾爾語數據集采用THUYG-20[22],帶噪語音訓練集的合成方法及噪聲條件與英語帶噪語音一致,共300條維吾爾語帶噪語音;測試集從Demand數據集中選擇bus,cafeteria,square,living,office 5 種噪聲類型(不在訓練集內),以2.5、7.5、12.5、17.5 dB的信噪比與干凈語音合成得到。

ATGAN網絡參數設置如下:學習率為0.000 2,批大小為 100,迭代期數(epoch)大小為 340。優化算法采用RMSprop算法[23]。

為了評估ATGAN語音增強模型的去噪效果,我們采用對數譜距離(Log Spectral Distance, LSD),PESQ、短時客觀可懂度(Short-Time Objective Intelligibility, STOI) 3種客觀評價指標,LSD越小,表明增強效果越好,PESQ和STOI越大,表明增強效果越好。

3.2 ATGAN語音增強模型去噪效果

為了評估ATGAN語音增強模型的去噪性能,基線模型采用遷移學習 SEGAN(TSEGAN)作為對比實驗算法,實驗結果如表 1~3所示。從表中可看出,ATGAN語音增強模型增強效果均優于TSEGAN模型,ATGAN可進一步提升對低資源帶噪語音的增強效果,語音的客觀質量、感知效果和可懂度均有提高。分析認為,在遷移學習生成對抗網絡中引入注意力機制,經語音數據訓練得到的預訓練模型的權重參數更為合理,然后進行權重遷移,注意力機制有助于生成模型重點關注和捕獲噪聲與純凈語音之間的關系,降低語種因素對重建干凈語音的影響。

表1 ATGAN和TSEGAN的LSD指標比較Table 1 LSD comparison between ATGAN and TSEGAN

表2 ATGAN和TSEGAN的PESQ指標比較Table 2 PESQ comparison between ATGAN and TSEGAN

表3 ATGAN和TSEGAN的STOI指標比較Table 3 STOI comparison between ATGAN and TSEGAN

3.3 ATGAN語音增強模型的噪聲遷移魯棒性能分析

為了驗證ATGAN語音增強模型的增強性能對不同類型、不同信噪比噪聲的遷移魯棒性,分析了五種噪聲在四種信噪比下的增強效果,結果如圖 6所示,圖中實線表示ATGAN語音增強模型的去噪結果,圖注中用(at)表示,虛線表示直接采用SEGAN模型訓練的得到的去噪結果,圖注中用(se)表示。從圖6中的LSD和PESQ指標可看出,對于bus,office,square噪聲,模型的增強結果最優,而cafe噪聲的遷移效果最差。通過頻譜分析,發現bus噪聲的能量主要分布在0~1 000 Hz頻率段,而cafe噪聲不僅在0~1 000 Hz的頻率段內能量較高,在1 000~2 000 Hz內也具有較高的能量,而且分布更為均勻,這可能是兩種噪聲遷移去噪效果有差別的原因之一。從測試曲線圖中還可看出,信噪比越低,模型的提升效果越明顯。

圖6 ATGAN語音增強模型對不同噪聲的去噪效果Fig.6 Denoising effects of ATGAN speech enhancement model on different noises

4 結 論

本文提出一種引入注意力機制的GAN語音增強遷移學習模型,利用已有語言語音訓練的增強模型,再結合極少量的新語言語音資源對模型進行訓練,可以對新語言低信噪比語音進行有效增強,提高增強后語音的質量。同時,訓練GAN語音增強模型的時間和所需數據量均大大減少。實驗結果表明,ATGAN語音增強模型相對于 SEGAN遷移學習模型,去噪后語音的感知質量和可懂度都有進一步提升。本文也討論了ATGAN在不同信噪比下對不同噪聲的遷移增強性能,結果表明,ATGAN對集外噪聲有更好的去噪效果。本文結論可為建立低資源新語言場景下的語音增強模型提供參考。在今后的工作中,將進一步研究采用生成對抗網絡不同層進行權重遷移對語音增強效果的影響。

猜你喜歡
資源效果模型
一半模型
基礎教育資源展示
按摩效果確有理論依據
重要模型『一線三等角』
一樣的資源,不一樣的收獲
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
資源回收
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主站蜘蛛池模板: 特级毛片免费视频| 99伊人精品| 国产欧美精品专区一区二区| 国产91蝌蚪窝| 欧美伦理一区| 国产免费一级精品视频| 天堂成人av| 日本妇乱子伦视频| 在线观看亚洲国产| 日韩不卡高清视频| 午夜色综合| 少妇高潮惨叫久久久久久| 特级aaaaaaaaa毛片免费视频 | 亚洲第一区欧美国产综合| 国产一级二级在线观看| 4虎影视国产在线观看精品| 午夜电影在线观看国产1区| 天天色天天综合| 福利小视频在线播放| 国产精品免费露脸视频| 色综合手机在线| 久久人人97超碰人人澡爱香蕉| 亚洲一区二区视频在线观看| 五月天天天色| 国产成人高清精品免费5388| 在线中文字幕日韩| 精品国产欧美精品v| 午夜日b视频| 午夜精品国产自在| 国产白浆在线| 久久综合国产乱子免费| 国产高潮流白浆视频| 日本福利视频网站| 日韩精品一区二区三区大桥未久 | 欧美日在线观看| 亚洲成A人V欧美综合天堂| 日韩av资源在线| 欧美国产菊爆免费观看 | 欧日韩在线不卡视频| 亚洲 日韩 激情 无码 中出| 国产在线一区视频| 永久免费无码成人网站| 国产福利在线免费| 一本一道波多野结衣av黑人在线| 女人爽到高潮免费视频大全| 91视频99| a免费毛片在线播放| 美女黄网十八禁免费看| 日韩美毛片| 日韩欧美中文字幕在线精品| 欧美翘臀一区二区三区| 日韩精品一区二区三区中文无码| 欧美在线一二区| 91久久精品日日躁夜夜躁欧美| 免费在线一区| A级毛片高清免费视频就| 国产一区二区三区在线精品专区| 亚洲第一中文字幕| 亚洲永久免费网站| 国产亚洲精品97AA片在线播放| 鲁鲁鲁爽爽爽在线视频观看| 亚洲国内精品自在自线官| 又污又黄又无遮挡网站| 日本久久免费| 午夜性爽视频男人的天堂| 美女免费精品高清毛片在线视| 91免费国产在线观看尤物| 亚洲精品无码av中文字幕| 国产日韩欧美黄色片免费观看| 精品视频在线一区| 最近最新中文字幕免费的一页| 亚洲三级影院| 成人在线亚洲| 国产美女无遮挡免费视频| www.国产福利| 国产欧美视频综合二区| 亚洲综合专区| 亚洲成人精品久久| 午夜国产在线观看| 国产在线精品网址你懂的| 亚洲色图欧美在线| 久久中文字幕2021精品|