999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力機制改進的SEGAN語音增強

2024-09-26 00:00:00田子晗張涵周培勇
現代信息科技 2024年14期

摘 要:語音增強通過抑制背景噪音,提高語音質量和可理解性,進而提升語音相關產品的性能。針對SEGAN(Speech Enhancement Generic Adversary Network)模型在語音信號處理過程中缺乏全局關鍵信息的問題,提出了一種基于自注意力機制改進的生成對抗網絡語音增強算法:SA-SEGAN(Self-Attention Mechanism Improvement Based on Speech Enhancement Generic Adversary Network)。SA-SEGAN運用自注意力機制對編碼器的輸出進行處理,以提取關注的空間與通道的重要全局信息,從而更完善地對語音信號進行處理,并采用Log-Cosh損失以更好地處理偏差較大的樣本,同時引入分位數損失,賦予模型探索樣本分布的能力。實驗表明,SA-SEGAN相比SEGAN,在客觀指標上提升10.9%。消融實驗證實,實驗中采用的三種方法均發揮積極作用。

關鍵詞:語音增強;自注意力機制;智能語音處理;深度學習

中圖分類號:TP183;TN912 文獻標識碼:A 文章編號:2096-4706(2024)14-0064-05

Improved SEGAN Speech Enhancement Based on Self-Attention Mechanism

TIAN Zihan, ZHANG Han, ZHOU Peiyong

(School of Computer Science and Technology, Xinjiang University, Urumqi 830017, China)

Abstract: Speech enhancement improves speech quality and understandability by suppressing background noise, thus improving the performance of speech related products. Aiming at the problem that SEGAN model lacks global key information in the process of speech signal processing, this paper proposes an improved generate adversarial network voice enhancement algorithm based on Self-Attention Mechanism: SA-SEGAN. SA-SEGAN uses the Self-Attention Mechanism to process the output of the encoder to extract the important global information of the space and channel of interest, so as to process the voice signal more perfectly. It also uses Log-Cosh loss to better process samples with larger deviation, and introduces Quantile Loss to endow the model with the ability to explore the distribution of samples. Experiments show that SA-SEGAN is 10.9% higher than SEGAN in terms of perceptual evaluation. And the ablation experiment confirms that the three methods used in the experiment play an active role.

Keywords: speech enhancement; Self-Attention Mechanism; intelligent speech processing; Deep Learning

DOI:10.19850/j.cnki.2096-4706.2024.14.013

0 引 言

在生產生活中,語音信號的傳播會被各類噪音干擾。一般而言,在混合音頻流中除了目標人聲以外的所有音頻成分,都會被認為是噪音干擾,在不同的環境下,噪音干擾的類型、強度都會有所不同。這些噪音會掩蓋原有語音的特征,致使其質量下降,可理解性降低。這些噪音對我們日常生活中在線語音的交流帶來了一定的困擾,因此,為了保證在較為嘈雜的環境中,語音信號仍保持較為良好的語音質量與可理解性,語音增強技術成為與語音信號處理的重要一環,近些年來語音增強算法由基于傳統的信號濾波方法[1-3]轉變為基于數據驅動的深度學習方法[4-8]。傳統的信號濾波處理方法對非平穩噪音的抑制效果不佳,原因為其原理假設噪音為平穩線性的。神經網絡可以通過學習與訓練,更好地抑制非平穩噪音,近些年已逐漸成為主流方法。

1 相關工作

在單通道語音增強領域,通常會依據語音處理機制的不同,分為基于傳統信號處理方法與數據驅動的方法,后者包括了機器學習與深度學習方法。

傳統的信號處理語音增強算法,基于一定的假設,利用數字信號處理、線性代數與概率統計,對空間中的語音信號進行計算,求解出增強函數的表達式后,利用增強函數計算得到處理之后的降噪語音。這類方法包括譜減法[9]、維納濾波法[10]、基于統計模型[11]的方法、子空間法等。在后一種利用數據驅動的方法中,包括利用機器學習與深度學習的兩個方向。基于傳統機器學習的方法有基于隱馬爾可夫模型的方法、基于高斯混合模型的方法,而基于深度學習的單通道語音增強網絡在2014年首次被提出[12],之后快速發展。

深度學習的語音增強算法又主要分為兩種,一種是基于頻譜掩蔽的方法,另一種是基于頻譜映射的方法。在利用頻譜掩蔽的方法中,其利用時頻掩蔽值作為訓練目標,最后借助掩蔽值恢復干凈語音,最經典的掩蔽方法是理想二值法,即Ideal Binary Mask(IBM),相關工作也證明其在語音增強上有較好表現。基于頻譜映射的方法與學習掩蔽碼的方式不同,該方法直接學習輸入與輸出之間的映射關系,直接從帶噪語音信號的頻譜還原出干凈語音信號頻譜,是一個回歸類型的問題。

SEGAN是由Pascual提出的一種先進的語音增強算法[13]。其由一種改進的生成對抗網絡組成。通過對抗性訓練,生成器可以逐漸學習并生成出更加逼真的語音,從而實現增強功能。本文利用SEGAN作為基線模型進行訓練。

2 基于自注意力機制的SEGAN模型算法

為了提升SEGAN的語音增強效果,本文結合自注意力機制和分位數損失,對原有模型進行了改進。改進的模型是由一個類似U-NET [14]結構的生成器和一個由多個卷積層、歸一化層、激活層結構組成的鑒別器構成,模型架構圖如圖1所示。

2.1 增加自注意力的生成器模型

使用自注意力機制可以幫助模型更好地理解序列中的上下文信息,從而更準確地處理序列數據。本實驗中的生成器結構與原始SEGAN的生成器的結構大體一致,是類似U-NET結構的一種基于編碼器和解碼器與層級之間的跳躍連接的神經網絡。

該網絡利用11個編碼器與解碼器對經過數據處理的語音信號進行增強。在本實驗中,每個編碼器利用卷積神經網絡對輸入的信號進行壓縮和投影。被壓縮的信號再通過PReLU激活函數進行處理,用作下一級解碼器的輸入。通過這11個解碼器的壓縮和降維處理,原來維度為64×1×16 384的語音信號最終降低為形狀為64×1 024×8的中間向量,如表1所示。

這11個解碼器的參數和輸出形狀分別為:每一層步長均為2,卷積核均為32。第一層輸入通道為1,輸出通道數為16,輸出大小64×16×8 192;第二層輸入通道為16,輸出通道數為32,輸出大小為64×32×4 096;第三層輸入通道為32,輸出通道數為32,輸出大小為64×32×2 048;第四層輸入通道為32,輸出通道數為64,輸出大小為64×64×1 024;第五層輸入通道為64,輸出通道數為64,輸出大小為64×64×512;第六層輸入通道為128,輸出通道數為128,輸出大小為64×128×256;第七層輸入通道為128,輸出通道數為128,輸出大小為64×128×128;第八層輸入通道為128,輸出通道數為256,輸出大小為64×128×128;第九層輸入通道為256,輸出通道數為256,輸出大小為64×256×64;第十層輸入通道為256,輸出通道數為512,輸出大小為64×256×32;第十一層輸入通道為512,輸出通道數為1 024,輸出大小為64×1 024×8。

在經過處理后,這個中間張量與生成器輸入的隨機噪音進行相加,然后輸入解碼器中進行解碼操作。解碼操作是編碼操作的逆向過程,是將形狀為64×

1 024×8的中間張量通過逆卷積操作逐步還原為形狀為64×1×16 384的語音信號。本實驗采用的是類U-NET結構,故解碼過程與編碼過程高度對稱,其逆卷積操作的各項參數與解碼器的參數一一對應。相同層級的編碼器與解碼器之間有跳躍連接,用于傳遞原有信息,是處理后的數據能更好還原語音信號的原有特征。

但由于原有SEGAN網絡的處理集中在相位譜上,遺漏了對相位的處理,不能較好地利用到相位帶來的信息與特征。近些年,相關工作已經證實語音信號的相位信息可以為模型提供重要的空間信息[15-16],能對模型的性能有較大的提升,是幅度信息的重要補充。原SEGAN在捕獲提取高維特征時,忽略了語音頻譜圖中的相位信息。相位信息在語音的空間信息與其他細節信息上有重要補充。本模型利用對頻域的自注意力機制處理,對相位信息進行利用,以提升模型對語音的增強性能。注意力機制也被稱為神經網絡注意力,最早由Mnih提出[17],用于圖像的處理。

本文為了增加模型對全局相關性的利用,通過在SEGAN中引入注意力機制,關注輸入的語音信號在全局的相關性。該模型的結構如圖2所示,在SA-SEGAN中,需對前三層編碼器增加注意力機制,其他結構與SEGAN基本保持一致,其中對自注意力機制的計算過程如圖3所示。

其計算過程如下,a(n)為第n幀語音的張量,在自注意力機制中會計算序列中每個語音幀信息與其他所有語音幀的關聯度:

經過自注意力機制處理的張量通過跳躍連接傳輸到對應層級的解碼器,解碼器利用跳躍連接傳輸的張量與前一級解碼器輸出張量作為輸入,利用逆卷積網絡,還原成原始信號,并再利用PReLU進行激活。

2.2 鑒別器

鑒別器在生成器的訓練之后,將真實的干凈語音與含噪語音與經過增強處理的語音和含噪語音,分別作為輸入,來判斷語音信號是否為真實的語音。但鑒別器并不參與整個模型的測試與運用。鑒別器來判斷輸入是否為真實語音,并使生成器從中學習,直至鑒別器無法辨別。這樣生成器的輸出就能更加接近真實語音的特征,減少因為處理帶來的失真現象。從某種角度上看,鑒別器的作用類似于一種損失,讓生成器的輸出更加自然,接近真實語音。本模型鑒別器由卷積層、標準化層、激活層組成,共有11層,每層的大小不一樣。

2.3 損失函數

在SEGAN模型中,在傳統的生成器的損失函數中,引入了超參數α調控的L1范數,用以測定增強后語音信號與真實的語音信號之間的數值差異,使對抗模型在訓練過程中有更高的真實度與細粒度。本實驗,超參數α設置為100。

與以前SEGAN模型采用L2損失不同,本實驗采用的是Log-Cosh損失函數:

其中:

相比原來采用的L2損失,Log-Cosh損失對離正常范圍相比誤差較大的樣本的敏感性較低,更適合語音增強任務的訓練。

與此同時,我們從Focal Loss for Dense Object Detection一文中受到啟發,希望尋找一種類似于focal loss的損失函數,用來平衡樣本之間的差異[18]。語音數據可能因為在不同的噪聲、混響環境下錄制而產生樣本間差異,且不同說話人的口音與發音習慣也會帶來樣本間差異。我們在本文中引入了分位數回歸損失,并以一定權重加入到原來的損失[19]。引入這個方法之后,訓練的模型不僅僅關注對干凈語音信號還原,而且通過探索整體分部,更好地讓模型針對差異性樣本進行訓練。該損失函數的形式如下:

3 實驗環節

3.1 數據集

為了讓模型可以在實際復雜的語音環境中有較好的表現,本文采用了愛丁堡大學提供的開源數據集VoiceBank+Demand [20]作為實際數據,其中分為訓練數據集和測試數據集。訓練數據集有28個英語說話人的語音,合成的含噪語音中使用了10種噪音類型,其中8種來自DEMAND數據,另外2種來自人為合成,每個噪音以4種不同的信噪比:15 dB、10 dB、5 dB、0 dB與干凈語音合成用以訓練的帶噪語音。該訓練數據集共計11 572條,總時長9.4 h。

而測試集共有兩名說話人,采用了5種噪聲類型,這5種噪聲全部來自Demand數據集,每段噪聲以4種不同的信噪比:17.5 dB、12.5 dB、7.5 dB和2.5 dB與干凈語音混合用以生成含噪語音。該測試集共有824條語音,總時長共0.6 h。

3.2 訓練參數

本文的實驗環境為64位Ubuntu操作系統,使用Python 3.9和Pytorch 2.0搭建了語音增加模塊。本文使用的硬件為Intel(R)Xeon(R)CPU E5-2630 v4 @ 2.20 GHz為CPU,使用2張NVIDIA RTX 4090 GPU來訓練模型。

在本實驗中,對每一條語音采用的采樣率均為16 kHz,分割語音的每一幀的幀長為25 ms,幀移為12.5 ms。在進行短時傅里葉變換和逆短時傅里葉變換過程中,采用漢寧窗,設置的窗長為16 384。在模型的訓練過程中,學習率設置為0.000 2,Epoch的總數為100,batch size設置為64,使用Adam作為模型的參數更新優化器

3.3 評價指標

本文采用客觀語音質量評估(Perceptual Evaluation of Speech Quality, PESQ)作為評價指標,其在國際電聯盟的代號為ITU-T P.862其將參考信號和待測信號先進行電平調整,再進行預對齊,而后進行聽覺變換,而后計算兩個信號在頻率和時間上累加的差值,映射到預測值上,其取值范圍為-0.5~4.5,PESQ值越高則說明被測語音與干凈語音相比,具有更好的語音質量。

3.4 實驗結果

本實驗使用了消融實驗對模型的各個模塊的作用作了評估。該消融實驗共分為使用SEGAN,SEGAN+自注意力,SEGAN+自注意力+Log-Cosh損失,SEGAN+自注意力+Log-Cosh+分位數損失(SA-SEGAN)進行測試,其中測試結果如表2所示。

從實驗結果中,我們發現本模型新增加的改進措施,每一個都對提升語音增強性能有貢獻。其中使用自注意力機制的改進模型相較SEGAN模型在PESQ指標上提升6.52%;使用Log-Cosh損失代替L2損失,使得模型性能在PESQ指標上提升1.08%;引入分位數損失對模型的整體性能在PESQ指標上較基線模型提升2.17%。

除此之外,我們對部分語音樣本繪制語音頻譜圖進行性能分析。本文選取了一條語音在經過SEGAN和SA-SEGAN處理后的語音頻譜圖,如圖4所示。

從語音頻譜圖中可以看出,本文提出的SA-SEGAN有效地抑制了大部分噪音,使語音的聲學特征能較好地表現,較SEGAN在部分區域有更加完美的抑噪效果。

4 結 論

針對SEGAN模型算法中不能較好地利用頻域的全局相關性,部分語言樣本變差較大和語音數據樣本中有一定的特征差異性,本文提出了一種利用自注意力機制的方法來改善SEGAN的性能。在此基礎上將原有的L2損失替換為Log-Cosh損失,并引入分位數損失來增強對語音數據樣本的處理,以更好地實現語音增強降噪功能。通過實驗表明,本文提出的SA-SEGAN模型的性能指標在語音整體質量上有所提升,且每一種方法都是有效的,使用該模型可以提高語音質量,且有較強的泛化能力。

利用SA-SEGAN未考慮計算復雜度與提高相位信息的利用率。因此,未來的工作中將主要考慮使用復數卷積等方法提高對相位信息的利用,引入分頻帶處理,降低計算復雜度。

參考文獻:

[1] 于海洋,張汝波,劉冠群.基于H∞一致性濾波的分布式語音信號增強 [J].華中科技大學學報:自然科學版,2015,43(S1):404-407.

[2] 馬曉紅,李瑞,殷福亮.基于信號相位差和后置濾波的語音增強方法 [J].電子學報,2009,37(9):1977-1981.

[3] 曹海濤.基于時頻域分析的音頻信號濾波與識別技術研究 [D].廣州:廣州大學,2016.

[4] ASTUDILLO R-F,CORREIA J,TRANCOSO I. Integration of DNN Based Speech Enhancement and ASR [C]//Interspeech 2015.Dresden:ISCA,2015:3576-3580.

[5] MIAO Y J,METZE F. Improving Low-resource CD-DNN-HMM Using Dropout and Multilingual DNN Training [C]//Interspeech 2013.Lyon:ISCA,2013:2237-2241.

[6] XIA Y Y,BRAUN S,REDDY C K A,et al. Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement [C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:871-875.

[7] TAMMEN M,FISCHER D,MEYER B T,et al. DNN-Based Speech Presence Probability Estimation for Multi-Frame Single-Microphone Speech Enhancement [C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:191-195.

[8] BU S L,ZHAO Y X,ZHAO T,et al. Modeling Speech Structure to Improve T-F Masks for Speech Enhancement and Recognition [J].IEEE/ACM Transactions on Audio, Speech, and Language Processing,2022,30:2705-2715.

[9] 樊一帆,張麗丹.強噪環境基于譜減法的錄音數字音頻信號降噪 [J].計算機仿真,2023,40(11):433-436+474.

[10] 陳修凱,陸志華,金濤.基于改進Berouti譜減法和維納濾波結合的語音增強算法 [J].無線通信技術,2020,29(2):1-5+11.

[11] 王浩.基于統計模型后濾波的麥克風陣列語音增強方法 [D].廣州:華南理工大學,2016.

[12] XU Y,DU J,DAI L-R,et al. An Experimental Study on Speech Enhancement Based on Deep Neural Networks [J].IEEE Signal Processing Letters,2014,21(1):65-68.

[13] PASCUAL S,BONAFONTE A,SERRà J. SEGAN: Speech Enhancement Generative Adversarial Network [J/OL].arXiv:1703.09452 [cs.LG].(2017-03-28).https://arxiv.org/abs/1703.09452v2.

[14] RONNEBERGER O,FISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [J/OL].arXiv:1505.04597 [cs.CV].(2015-05-18).https://arxiv.org/abs/1505.04597.

[15] HU Y X,LIU Y,LYU S B,et al. DCCRN: Deep Complex Convolution Recurrent Network for Phase-aware Speech Enhancement [J/OL].arXiv:2008.00264 [eess.AS].(2020-08-01).https://arxiv.org/abs/2008.00264v1.

[16] ZHAO S K,MA B,WATCHARASUPAT K N,et al.

FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement [J/OL].arXiv:2206.07293 [cs.SD].(2022-06-15).https://arxiv.org/abs/2206.07293.

[17] MNIH V,HEESS N,GRAVES A,et al. Recurrent Models of Visual Attention [J/OL].arXiv:1406.6247 [cs.LG].(2014-06-24).https://arxiv.org/abs/1406.6247v1.

[18] LIN T-Y,GOYAL P,GIRSHICK R,et al. Focal Loss for Dense Object Detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.

[19] HARDY R. Quantile Regression: Loss Function-cross Validated [EB/OL].(2016-12-14).https://stats.stackexchange.com/questions/251600/quantile-regression-loss-function.

[20] THIEMANN J,ITO N,VINCENT E. The Diverse Environments Multi-channel Acoustic Noise Database: A Database of Multichannel Environmental Noise Recordings [J].The Journal of the Acoustical Society of America,2013,133(5):3591.

作者簡介:田子晗(2004—),男,漢族,江蘇南京人,本科在讀,研究方向:智能語音處理;張涵(2004—),女,漢族,新疆石河子人,本科在讀,研究方向:電子信息工程;周培勇(1975—),男,漢族,江蘇泰興人,講師,碩士,研究方向:通信與信息系統。

收稿日期:2023-12-14

主站蜘蛛池模板: 成人av手机在线观看| 最新午夜男女福利片视频| 亚洲无码高清免费视频亚洲 | 国产欧美另类| 国产在线第二页| 日本欧美一二三区色视频| 国产啪在线91| 国产福利免费观看| 久久亚洲中文字幕精品一区| 久久免费看片| 91久久偷偷做嫩草影院电| 在线视频精品一区| 亚洲成人精品久久| 国产精品香蕉| 免费不卡在线观看av| 内射人妻无套中出无码| 黄色网站在线观看无码| 55夜色66夜色国产精品视频| 精品在线免费播放| 精品91在线| 999精品视频在线| 女人毛片a级大学毛片免费| 亚洲视频欧美不卡| 亚洲伊人天堂| 国产乱子伦无码精品小说| 精品夜恋影院亚洲欧洲| 99久久国产综合精品2023| 毛片基地视频| 亚洲精品大秀视频| 国产精品欧美在线观看| 在线看国产精品| 欧美一区二区三区国产精品| 播五月综合| www.国产福利| 久久亚洲综合伊人| 无码在线激情片| 国产欧美日韩免费| 国产高清免费午夜在线视频| jizz在线免费播放| 欧美三级视频网站| 国产va免费精品观看| 色成人亚洲| 色呦呦手机在线精品| 九九热精品视频在线| 国产午夜一级毛片| 久久www视频| 中文国产成人精品久久一| 九九这里只有精品视频| 日韩精品亚洲精品第一页| 色妞永久免费视频| 国产真实乱人视频| 婷婷六月综合| 青青草原国产免费av观看| 国产精品亚洲一区二区三区在线观看| 无码久看视频| 99热这里只有精品在线播放| 国产精品2| 大陆精大陆国产国语精品1024 | 全部免费毛片免费播放| 伊人久久久大香线蕉综合直播| 欧美、日韩、国产综合一区| av在线人妻熟妇| 97av视频在线观看| 毛片免费观看视频| 99这里只有精品在线| 亚洲无码高清视频在线观看| 成人国产精品一级毛片天堂| 激情無極限的亚洲一区免费| 久久一级电影| 国产精品无码在线看| 不卡的在线视频免费观看| 成人精品视频一区二区在线| 婷婷综合色| 国产成人高精品免费视频| 欧美中日韩在线| 日韩 欧美 小说 综合网 另类| 久久久黄色片| 国产三级国产精品国产普男人 | 久久中文电影| 亚洲色图欧美激情| 久久久久人妻一区精品色奶水 | 亚洲va在线∨a天堂va欧美va|