999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進循環生成對抗神經網絡的語音增強

2022-11-11 03:28:46徐瓏婷田娩鑫魏郅林
東華大學學報(自然科學版) 2022年5期
關鍵詞:特征結構模型

徐瓏婷, 田娩鑫, 魏郅林

(東華大學 信息科學與技術學院, 上海 201620)

語音是人們交流常用的一種信息載體。在實際環境中,語音信號總會受到外界噪聲的干擾,常見的噪聲包括自然界的白噪聲、其他人說話的干擾聲以及錄音設備中的內部電噪聲等。過多噪聲的存在,會使原有語音無法分辨。語音增強是解決噪聲污染的一種有效方法,通過抑制背景噪聲,從嘈雜的語音中保留干凈的語音信號,進而提高語音質量和清晰度。

語音增強算法早期大多基于濾波的概念,例如頻譜減法算法[1]、Winner濾波[2]、信號子空間算法[3]和最小均方誤差頻譜估計器[4]。隨后又發展出K奇異值分解[5]、非負矩陣分解(nonnegative matrix factorization, NMF)[6]等算法。隨著深度學習的發展,深度神經網絡(deep neural networks, DNN)已被廣泛且有效地應用于語音增強。比如Xu等[7]提出了一個基于回歸的語音增強框架,利用多層深度架構的DNN來實現語音增強,試驗結果表明,與對數最小均方誤差方法相比,基于DNN的語音增強算法在各類語音質量評測標準中都取得了明顯的優勢。Huang等[8]提出了一種基于DNN的多波段激勵的語音增強方法,在增強階段利用每幀的音高和DNN的輸出來增強有噪聲的語音,該方法在不同信噪比下均優于基線。因此DNN在語音增強領域有很大的潛力。生成對抗網絡(generative adversarial network, GAN)是基于零和博弈思想構建的一種深度學習模型,它的生成器和鑒別器一般均由DNN構成。GAN在語音增強領域最大的優勢是能夠學習任何分布下的數據,并能生產相似分布的數據[9],通過對純凈語音樣本的學習,使含噪語音轉換為類似于純凈語音的增強語音,以達到語音增強的目的。但GAN需要大量成對的數據集進行訓練,訓練的難度增大,不利于實際的應用。

Zhu等[10]提出的循環一致性生成對抗網絡(cycle-consistent generative adversarial network, CycleGAN)模型,適用于兩種不同風格語音域之間的轉換。CycleGAN通過添加循環一致性損失函數,有效地解決了缺少成對的訓練語音的問題。為進一步提高CycleGAN生成語音的質量,通過改進CycleGAN的生成器網絡結構(2-1-2D CNN)提出一種基于改進CycleGAN的語音增強模型,即CycleGAN-2-1-2D模型。CycleGAN-2-1-2D結合了1D-CNN和2D-CNN的優勢,能更好地捕捉特征的動態變化和局部特征的細節。

1 基本原理

1.1 生成對抗網絡GAN

GAN的網絡結構主要包括生成器和鑒別器,生成器的任務是模仿X域樣本并生成翻譯數據,鑒別器的任務是將這些生成的翻譯數據與X域樣本進行區分[11]。隨著生成器與鑒別器不斷地對抗訓練,生成器生成的翻譯數據便會獲得與X域樣本越來越相似的風格,鑒別器判別能力也會隨著不斷提高,最終使得生成器與鑒別器達到一種平穩態。該過程目標函數如式(1)所示。

Ez~p(z)[log2(1-D(G(z)))]

(1)

式中:x為X域的語音樣本;z為隨機噪聲,其同時作為生成器的輸入;pdata(x)為X域的概率分布;p(z)為隨機噪聲的概率分布;G為生成器參與的z→x映射過程中的映射函數;G(z)為生成器生成的翻譯語音;D為鑒別器的判別函數;D(G(z))為鑒別器判定翻譯語音為X域樣本的概率;D(x)為鑒別器判定x是X域樣本的概率;E為數學期望;~表示服從關系。

1.2 循環一致性生成對抗網絡CycleGAN

CycleGAN是在GAN的基礎上發展來的,用于訓練不成對的數據集,CycleGAN模型訓練原理如圖1所示。CycleGAN由生成器、逆生成器、鑒別器1和鑒別器2組成。CycleGAN的前向循環過程中,生成器將X域的樣本x映射為Y域的y′,逆生成器將Y域的樣本y′映射為X域的x′。CycleGAN的后向循環過程中,逆生成器將Y域的樣本y映射為X域的x′,生成器將X域的樣本x′映射為Y域的y′。鑒別器1用于判斷y′是否為Y域的樣本,鑒別器2用于判斷x′是否為X域的樣本。

圖1 CycleGAN原理圖

Ex~pdata(x)[log2(1-Dy(G(x)))]

(2)

(3)

式中:pdata(y)為Y域的概率分布;F為逆生成器參與的y→x映射過程中的映射函數;G(x)為X域樣本x輸入到生成器所生成的與Y域語音相似的翻譯語音;F(y)為Y域樣本y輸入到逆生成器生成的與X域語音相似的翻譯語音;Dy為鑒別器1的判別函數;Dy(G(x))為鑒別器1判定生成器生成的語音G(x)屬于Y域的概率;Dx為鑒別器2的判別函數;Dx(F(y))為鑒別器2判定逆生成器生成的語音F(y)屬于X域的概率。

Ey~pdata(y)[‖G(F(y))-y‖]

(4)

Ex~pdata(x)[‖G(x)-x‖]

(5)

結合4個損失函數,總體損失函數如式(6)所示。

(6)

式中:λcyc為用于控制循環一致損失函數相對重要性的常數;λid為用于控制標識映射損失函數相對重要性的常數。

最后,兩個生成器按式(7)進行求解。

(7)

循環生成對抗網絡的語音增強可以通過訓練兩個具有特殊內部結構的自動編碼器來實現上述循環對抗生成網絡,即加噪語音和純凈語音可以通過中間表示層映射到自身。這種設置也可以看作是生成對抗自動編碼器的一種特殊情況,它使用對抗損失來訓練瓶頸層以匹配任何目標分布。

2 改進CycleGAN的語音增強模型

2.1 損失函數

(8)

圖2 CycleGAN模型的兩次對抗性損失

2.2 2-1-2D CNN生成器

1D-CNN生成器結構由降采樣層、殘差層和升采樣層組成,在保留時間結構的同時捕獲幀與幀之間的特征關系以及特征方向,因此1D-CNN更適合捕捉動態變化。但1D-CNN中的降采樣和升采樣會損失部分采樣特征結構,導致語音增強效果較差。相比之下,2D-CNN將轉換后的區域限制為局部,更適合在轉換特征的同時更清晰地保留原始語音特征,從而實現良好的語音增強效果。

為了兼顧1D-CNN和2D-CNN的優勢,本文使用了2-1-2D CNN的網絡架構。在該網絡中,將2D-CNN用于降采樣和升采樣,并將1D-CNN用于主要轉換過程。為了調整通道尺寸,在重塑特征圖之前或之后應用1×1卷積。生成器結構如圖3所示。由圖3可知,1D-CNN、2D-CNN和2-1-2D CNN輸入特征的尺寸由Q×T×1表示,其中:r為降采樣率和升采樣率;c為殘差層的固有尺寸;Q為特征維數;T為序列長度。

圖3 生成器結構

2.3 PatchGAN鑒別器

FullGAN使用2D-CNN[12]作為鑒別器,以專注于二維結構,更準確地說,在最后一層使用了一個完全連接的層來確定考慮輸入的整體結構的真實性。但最近在計算機視覺中的研究[12]表明,鑒別器的寬范圍接受區域需要更多的參數,這使得訓練時間大大加長。受此啟發,使用PatchGAN[13]取代了FullGAN。兩種鑒別器結構如圖4所示。

圖4 鑒別器結構

PatchGAN在最后一層使用了卷積網絡,該網絡用于捕獲特征統計信息,輸出為m×m的矩陣,將矩陣中的每一個元素求和取均值,最終影響語音的判別結果。使用PatchGAN結構的鑒別器需要較少的參數,在大大縮短訓練時間的同時也能有效捕捉語音的關鍵特征,使生成的語音保持高清晰度。

3 CycleGAN-2-1-2D模型的語音增強方案

CycleGAN-2-1-2D模型的語音增強方案是將帶噪語音轉變成類似于純凈語音風格的去噪語音,訓練出一個智能的語音增強模型。該增強方案的具體實施分為數據集準備階段、訓練模型階段、測試模型階段。

3.1 數據集準備階段

用LibriTTS語料庫[14]作為數據集,該語料庫包含以24 kHz采樣率閱讀英語語音約585 h的語音樣本。3種噪聲的類型設為機艙噪聲、工廠車間噪聲1和工廠車間噪聲2。由于CycleGAN-2-1-2D網絡的訓練時間較長,設置機艙噪聲、工廠車間噪聲1和工廠車間噪聲2分別對應的信噪比(SN/R)為5、10和15 dB。

從LibriTTS語料庫中分別選取男/女性語音各N個樣本,其中,N/4個樣本加噪后作為訓練集A,N/4個樣本作為訓練集B,對N/2個樣本加噪后作為測試集。其中N應盡量大,以滿足CycleGAN-2-1-2D模型的訓練需求。

3.2 CycleGAN-2-1-2D模型訓練階段

訓練集A={a1,a2,…,aN/4}作為CycleGAN-2-1-2D模型的加噪語音域,訓練集B={b1,b2,…,bN/4}作為CycleGAN-2-1-2D模型的純凈語音域。將訓練集A={a1,a2,…,aN/4}和B={b1,b2,…,bN/4}置入CycleGAN-2-1-2D模型中進行訓練學習,訓練過程如圖5所示。設置每迭代1 000次保存1次模型。

圖5 基于CycleGAN-2-1-2D的語音增強模型的訓練過程

鑒別器與生成器間隨著迭代次數的增加不斷博弈,使學習結果和學習目標之間的差異不斷減少。生成訓練模型后,把測試樣本(含噪語音)輸入到最終的生成器中,以檢驗增強效果。

3.3 測試模型階段

從LibriTTS語料庫中隨機抽取N/2條語音加噪作為測試集,將測試集輸入到訓練過的CycleGAN-2-1-2D模型后得到增強語音。經CycleGAN-2-1-2D模型增強后的語音長度會發生變化,與純凈語音長度不相同。所以采用無參照的語音評估方式,即MOSNet神經網絡模型[15]來預估語音的平均意見得分。MOSNet是基于深度學習的語音質量評估模型,測量語音自然度和相似度的能力很強,利用MOSNet神經網絡模型評估增強語音的平均意見得分,測試過程如圖6所示。

圖6 基于CycleGAN-2-1-2D的語音增強模型的測試過程

4 試驗結果及分析

4.1 參數設置

殘差層的特點是易優化,其內部的殘差塊通過跳躍連接的方式將信息傳遞到網絡的更深層,在不增加計算復雜度的條件下解決梯度消失的問題,同時也加快了神經網絡的收斂速度。卷積核是帶著一組固定權重的神經元,可以用來提取特定的特征,每個卷積核的參數通過反向傳播算法優化得到。2-1-2D CNN生成器由2層降采樣層、6層相同結構的殘差層、1-2D轉換層、2-1D轉換層、2層升采樣層構成,具體的結構參數如表1所示。PatchGAN鑒別器由4層降采樣層和2D卷積層構成,其結構參數如表2所示。

表1 2-1-2D CNN生成器結構參數

表2 PatchGAN的結構參數

4.2 試驗結果

設置CycleGAN-2D和NMF的語音增強模型作為CycleGAN-2-1-2D模型的對照試驗,分別對3種模型進行試驗,試驗結果如表3所示。

表3 3種不同語音增強模型的MOSNet評估結果

由表3可知:對3種噪音條件下的男性語音進行增強時,CycleGAN-2-1-2D模型的語音增強效果皆優于NMF模型,證實了CycleGAN-2-1-2D模型中的2D-CNN結構能較為完整地保留語音特征的細節,實現良好的訓練效果;對3種噪音條件下的女性語音進行增強時,CycleGAN-2-1-2D模型的語音增強效果皆優于NMF和CycleGAN-2D模型。這由于相對男聲而言,女聲的頻率要高且動態變化更大,CycleGAN-2-1-2D模型中的1D-CNN結構更適合捕捉特征的動態變化,因此CycleGAN-2-1-2D模型對女聲處理能達到更理想的效果。綜上所述,CycleGAN-2-1-2D模型既具有2D-CNN擅長捕獲局部特征細節的特點,又結合了1D-CNN對動態變化敏感的特點,在解決成對數據集缺失的問題的同時,進一步增強了模型的語音增強效果。

5 結 語

從深度學習角度對語音增強機制進行研究,通過將1D-CNN和2D-CNN結構引入到CycleGAN-2-1-2D生成器,使得CycleGAN-2-1-2D生成器更加關注語音轉換的特征細節和動態變化,其中CycleGAN-2-1-2D模型中的PatchGAN鑒別器也可以大大縮短訓練時長。試驗結果表明:在原始數據十分有限的情況下,CycleGAN-2-1-2D模型能有效地學習樣本的多維度特征,實現語音的高效增強,更適用于實際的應用場景。在下一步的研究工作中,將對CycleGAN-2-1-2D模型的結構參數進行合理化調整,對神經網絡學習語音增強過程的靶點精細化,有望進一步提高語音增強效果。

猜你喜歡
特征結構模型
一半模型
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
論《日出》的結構
3D打印中的模型分割與打包
主站蜘蛛池模板: 91原创视频在线| 中文字幕久久波多野结衣| 亚洲国产精品日韩av专区| 99这里精品| 91无码网站| 91午夜福利在线观看| 香蕉久久国产超碰青草| 欧美成人二区| 中文字幕在线日韩91| 粗大猛烈进出高潮视频无码| lhav亚洲精品| 精品伊人久久久久7777人| 欧美伊人色综合久久天天| 日韩无码一二三区| 国产后式a一视频| 国产成人福利在线视老湿机| 大陆国产精品视频| 亚洲天堂自拍| 四虎成人精品| 亚洲第一成网站| 亚洲色图欧美视频| 国产va在线观看免费| 日韩欧美91| 一级黄色网站在线免费看| 免费国产无遮挡又黄又爽| 欧美精品成人一区二区在线观看| 国内精品免费| 成人精品在线观看| 91在线无码精品秘九色APP| 欧美精品色视频| 国产综合亚洲欧洲区精品无码| 国产一级视频在线观看网站| 欧美一区精品| 国产鲁鲁视频在线观看| 有专无码视频| 午夜综合网| 国产成人夜色91| 免费观看男人免费桶女人视频| 国内精品九九久久久精品| 老司机精品一区在线视频| 国产乱人伦精品一区二区| 91久久性奴调教国产免费| 免费在线看黄网址| 日韩在线成年视频人网站观看| 伊人五月丁香综合AⅤ| 中文字幕在线看| 亚洲精品天堂在线观看| 国产美女免费网站| 四虎精品国产AV二区| 国产手机在线观看| AV无码一区二区三区四区| 国产精品第5页| 欧美国产在线看| 亚洲va视频| 国产人在线成免费视频| 免费看av在线网站网址| 亚洲日本一本dvd高清| 日韩在线欧美在线| 特黄日韩免费一区二区三区| 国产va在线观看免费| 天天色天天综合网| 国产精品永久在线| 精品久久久久久成人AV| 国产精品亚洲欧美日韩久久| 欧美a√在线| 精品久久久久久成人AV| 欧美日韩北条麻妃一区二区| 亚洲日产2021三区在线| 91国内在线观看| 国产原创第一页在线观看| 亚洲综合精品第一页| 国产高清色视频免费看的网址| 欧美日韩国产在线人成app| 日韩国产 在线| 99视频国产精品| 91福利片| 手机精品福利在线观看| 国产三区二区| 国产女人在线| 亚洲 日韩 激情 无码 中出| 欧美成人日韩| 国产一级片网址|