999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進LSTM 訓練的語音分離技術

2021-06-11 03:53:54郭佳敏李鴻燕
電子設計工程 2021年11期
關鍵詞:優化模型

郭佳敏,李鴻燕

(太原理工大學信息與計算機學院,山西太原 030024)

人耳可以輕易地將感興趣的語音從背景噪聲中分辨出來,為了使機器學會這一能力,文中將目標語音從背景噪聲中有效地區分出來,即“雞尾酒會問題”[1]。語音分離的主要任務是解決雞尾酒會問題,并將其應用到實際場景中。隨著人工智能、深度學習等相關知識的迅速發展,很多算法相繼被提出。文獻[2]將深度神經網絡(Deep Neural Network,DNN)運用到語音分離的研究中,在大規模訓練的基礎上,使語音分離性能實現了顯著的提升。文獻[3]將深度神經網絡的語音分離系統進一步優化,并取得了顯著的效果。文獻[4]將長短時記憶網絡(Long Short-Term Memory,LSTM)運用到語音分離任務中,通過其記憶功能,能有效獲取信號的上下文信息,提升語音分離的性能,相較于DNN,可以有效提升分離語音的短時可懂度指標,但在語音質量等其他方面表現欠佳。同時,由于其結構復雜,參數眾多,計算復雜度較高,導致訓練時間成本較大。文中通過簡化長短時記憶網絡模型結構和參數,使用門控循環單元(Gated Recurrent Unit,GRU)[5]縮短訓練時間,降低了計算復雜度。

為實現系統語音分離性能的綜合提升,根據人耳的掩蔽效應,針對信號的時頻(Time Frequency,T-F)單元,結合注意力機制進行建模,并提出將噪聲和語音主導T-F 單元分類方法與回歸任務中常用的均方誤差(Mean-Square Error,MSE)[6]相結合的方法,構建新的損失函數,對模型的訓練過程進行優化,以獲得性能更好的語音分離模型。

1 算法結構

圖1 所示是語音分離算法結構框圖。系統分為訓練和測試兩個階段,根據算法各部分功能,各模塊可歸為數據處理和模型優化兩個部分。其中,數據處理部分包括時頻分解、目標計算和特征抽取。在訓練階段,數據由干凈語音和噪聲在固定信噪比下混合得到,通過時頻分解后,提取混合語音特征作為輸入,計算干凈語音作為輸出,通過大量的“特征-目標對”訓練模型得到二者之間的映射關系,獲得分離模型。在測試階段,運用訓練好的分離模型,將帶噪語音通過時頻分解、抽取特征值輸入模型,獲得估計的目標語音,進行性能測試。針對傳統LSTM 語音分離系統中存在的問題,文中從分離模型的結構簡化、輸入優化和損失函數改進3 個方面出發,通過對原有算法的改進,最終達到提升語音分離性能的目的。

圖1 語音分離系統結構框圖

1.1 數據處理

1.1.1 時頻分解

系統的時頻分解部分采用短時傅里葉變換算法[7],將輸入時間域的干凈語音信號、噪聲信號以及混合得到的帶噪語音信號通過分幀、加窗、快速傅里葉變化轉化為二維的時域信號:

其中,ω(t)=ω(-t)是一個長度為N的實對稱窗函數,每次移動N/2,X(t,f)是一維時域信號x(t)在第t個時間幀,f個頻段的短時傅里葉變換系數。

1.1.2 目標計算

使用時頻掩蔽可以很好地保留語音的共振峰特性,有效提高分離語音的可懂度,通過傅里葉逆變換可以直接合成目標語音分波形[8-9]。文中以理想二值掩蔽(Ideal Binary Mask,IBM)作為計算目標,信號在短時譜中語音能量大于噪聲能量時值為1,否則為0:

其中,LC是設定的局部閾值,SNR(t,f)是混合信號的信噪比。為更好地獲得目標語音的能量譜,將LC設置為小于SNR(t,f)。

1.1.3 特征抽取

根據人耳的特性,提取混合語音信號的梅爾倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)[10],可以更好地展現語音感知特性的相對譜變換-感知 線性預測(Relative Spectral Transform-Perceptual Linear Prediction)[11]特征。提取的特征組合中包含了許多與目標語音無關的噪聲信息,對語音分離的效果造成一定影響。

1.2 模型優化

1.2.1 模型結構優化

LSTM 作為一種時序模型,比起深度神經網絡,在其隱層間增加了反饋連接,對時序信號的短時動態信息進行建模,使網絡具備記憶功能。其輸入門it用于控制當前時態輸入xt是否融入當前細胞狀態ct;輸出門ot用于判斷隱層向量ht對上一時間細胞狀態ct-1部分的保留與否;遺忘門ft用于控制上一時間細胞狀態ct-1是否影響當前細胞狀態ct。細胞狀態ct綜合了每個時刻的當前輸入xt和上一時刻細胞的狀態ct-1。

如圖2 所示,為簡化LSTM 計算,保留了其核心功能,采用兩個門結構的GRU,將細胞狀態ct融入隱層向量ht中,輸入門it和遺忘門ft合并,為更新門zt選擇控制xt輸入,重置門rt替換輸出門ot。其前向計算原理如下:

圖2 LSTM單元結構簡化

其中,σ(·)表示sigmoid 函數,W表示連接不同門的權重矩陣,表示隱層向量當前時刻的記憶候選向量。使用簡化后的LSTM 單元構建網絡,循環層沿時間反向傳播,保留上下文信息,其循環的單元數隨輸入數據的時間長度變化,在每個時間點上將信息分別輸出到下一個隱層。模型采用單循環層的結構,并通過兩個全連接層調整數據的輸出維度。循環層采用dropout 算法,各層間采用Batch Normalization 算法對網絡訓練過程進行優化。

1.2.2 模型輸入的優化

針對抽取特征值無法避免噪聲影響的問題,結合注意力機制原理以及人耳的掩蔽效應,對獲得的語音特征進行篩選。根據人耳的掩蔽效應,弱的聲音會被較強的聲音覆蓋,輸入特征序列的T-F 單元可以被區分為由噪聲或目標語音分別主導。對模型輸入施加注意力機制,使模型輸入更關注于目標語音主導的T-F 單元,使用Transformer 模型中的自注意力機制[12],計算T-F 單元之間的相似性,得到對應的注意力權重,從而獲得可以弱化噪聲影響的特征序列。

其中,Attention(·)表示一次注意力的計算過程,Q、K、V分別對應注意力機制計算中的元素內容矩陣、尋址矩陣和對應的值矩陣,dk表示矩陣K的維度。僅通過一次Attention計算無法很好地區分噪聲和目標語音主導的時頻單元,需要經過多次計算,獲得疊加的權值系數。將輸入矩陣映射到不同子空間,并采用縮放點積的形式對數據進行編碼,即多頭自注意力計算,從而實現對輸入T-F 單元之間相似度的反復計算和權重疊加。

其中,headi對應輸入的不同子空間,concat(·)表示對每個head的拼接計算,A表示注意力模型的權重參數。由于目標語音主導的單元數量在整個特征序列中占大多數,因此經過多頭自注意力編碼后的特征序列,可以加強目標語音在輸入中的重要程度,對噪聲實現有效的抑制,最終作為優化后的訓練數據輸入分離模型。

1.2.3 訓練準則——損失函數的優化

使用IBM 作為目標時,語音分離任務可以自然地看作是0-1分類的問題,命中率減誤報率(HIT-FA)可以直接作為語音性能評價指標,該指標與分離語音效果呈現正相關關系,可以客觀地反映語音分離系統的性能[13]。通過直接比較干凈語音理想二值掩蔽和模型估計的目標語音理想二值掩蔽,可得到命中率-誤報率。

根據表1 所示的計算方式,并通過模型估計的二值掩蔽和理想二值掩蔽表示,HIT-FA可表示為:

表1 二值掩蔽評價指標計算表示方式

其中,st和yt分別對應當前時刻t混合語音經過模型估計得到的二值掩蔽和干凈語音的理想二值掩蔽。HIT表示預測結果中,分類正確的目標語音主導T-F 單元在所有目標語音主導T-F 單元中所占的比例,HIT越大,對應的語音分離結果越好。FA計算的是預測結果中被錯誤分類為目標語音主導的噪聲T-F 單元在全部噪聲主導T-F 單元中所占的比重,FA越小,對應的語音分離結果越好。

在模型訓練時,損失函數計算為模型估計值與理想輸出之間的距離,為網絡中每一個需要更新的權重找到對應的梯度,尋找最優解。MSE作為模型訓練中最為常見的損失函數,在短時可懂度等方面具有較好的表現,但不能很好地匹配其他語音分離的評價指標。優化模型結構可以有效提高語音的可懂度,但在語音質量等方面表現出不平衡現象。以IBM 作為語音分離目標,可以自然地將語音分離任務轉化為分類問題。通過對比幾種不同損失函數對語音分離結果的影響,并根據HIT-FA的計算原理,將錯誤估計的噪聲T-F 單元數量作為分子即FP,實際語音主導的T-F 單元數量作為分母即P,構成損失函數LH-F:

LH-F對估計為目標語音主導的T-F 單元進行判斷,錯誤估計的單元數量越多,LH-F越大,通過訓練使LH-F最小,從而抑制被噪聲主導的時頻單元對語音分離效果的影響。最小化LH-F可實現語音評價指標HIT-FA的最大化,但無法刻畫預測值與真實值之間的差距。結合在STOI 等方面表現較好的MSE,其損失函數為:

綜合LH-F和LMSE的性能,在縮小預測值與真實值之間距離的同時,抑制噪聲T-F 單元錯誤分類對結果的影響,提出一種新的損失函數L:

這里采用加權調和平均將二者融合構成新的損失函數,α大小反映函數LH-F在計算中的重要程度,α=1 時,表示兩個函數同等重要,α設置越大,對應LH-F在計算中越重要。通過訓練獲取一個閾值,使二者同時實現最小化,以獲得分離語音性能在HIT-FA和STOI方面的最佳表現,實現對模型訓練過程的改進。

根據計算,自定義的損失函數L是可導可微的,滿足自定義函數的條件。配合優化后的LSTM 網絡,沿時間反向傳播,通過適當的學習率lr實現梯度的下降迭代對模型參數進行更新,網絡權值和偏差最終通過時間展開后積累得到。

新的損失函數、學習率等參數的設置以及梯度下降優化算法的選擇也影響著整個系統的性能。基于模型結構特點、訓練速度等多方面因素,使用配合歷史信息動量加速的隨機梯度下降法(Stochastic Gradient Descent,SGD)、自適應學習率的RMSProp(Root Mean Square Prop)算法和Adam 算法3 種算法分別對訓練過程進行優化。

在優化結構后的網絡中,分別運用3 種不同的優化器算法對訓練過程中的自定義損失函數進行可視化[14-20],如圖3 所示,縱軸為損失函數值,橫軸為迭代次數。同時觀察訓練過程,可驗證該函數是否可以實現有效收斂。根據結果,自定的損失函數L在模型訓練中可以實現有效的收斂。根據訓練過程的損失函數值變化曲線的收斂速度和收斂效果來看,使用RMSProp 和Adam 算法進行優化的表現相當,對比訓練過程中損失函數的最小值,最終選擇RMSProp 算法對模型進行優化。

圖3 SGD、RMSProp、Adam算法對比

2 實 驗

2.1 實驗配置

實驗基于深度學習原理構建LSTM 的語音分離系統,并進一步優化。從語料庫中抽取720 條干凈語音及一種工廠噪聲作為數據來源,分別在-2 dB、0 dB、2 dB 和5 dB 信噪比下生成600 條混合語音信號,用于模型訓練,另生成120 條混合語音信號用于測試訓練好的模型。為證明算法性能的提升,在相同實驗環境下,使用傳統的LSTM 語音分離系統同優化后的LSTM 語音分離系統進行對比。數據處理部分采用Matlab2016a 實現,包括對原始語音數據的混合處理以及時頻分解,計算干凈語音的IBM 和混合語音的特征值組合構成訓練集和測試集。模型搭建、優化和損失函數的自定義通過Python 和Pytorch平臺實現,同時利用TensorboardX 對整個訓練過程進行監控。

測試中,為了可視化地對比語音分離的效果,計算處理后語音的短時包絡相關性,使用短時客觀可懂度指標(Short-Time Objective Intelligibility,STOI)作為客觀語音清晰度指標,該指標取值范圍在[0,1]之間,且值越大性能越好。同時,采用與語音主觀評價MOS 值相關的語音質量感知評價指標(Perceptual Evaluation of Speech Quality,PESQ)對測試合成語音的質量性能進行評估測試,該指標取值范圍在[-0.5,4.5]之間,值越大對應性能越好。同時,針對分類問題,使用模型分類精確度(Accuracy)和HIT-FA 對系統性能進行評估。此外,為縮短訓練時間,實驗訓練過程使用GPU 進行加速。

2.2 實驗結果

首先,為驗證優化模型結構后性能的變化,分別使用優化前后的模型在-2 dB 信噪比條件下進行測試,并記錄測試結果,如表2 所示。

表2 優化后的LSTM模型性能測試結果

分析表2 數據可以得出,相較于傳統的LSTM 模型,優化結構后的LSTM 模型在簡化計算后,各項性能指標均獲得了一定的提升,并且在完成100 次迭代訓練時,耗時縮短了約21%。可以得出,LSTM 經過優化后,仍然可以很好地保留語音的時序信息,使其在STOI 方面獲得較明顯的提升,且計算復雜度降低,訓練速度更快,但在語音質量PESQ 方面表現仍有待提升。

為驗證結合注意力機制在模型輸入的改進是否有效,在不同信噪比條件下分別使用結合注意力機制改進前后的模型進行訓練和測試,記錄測試結果,并取平均值,如表3 所示。

表3 結合注意力機制優化前后的模型性能測試結果

實驗結果表明,優化模型輸入后,各性能指標都得到了一定的提升。結合注意力機制對模型輸入進行優化,通過計算T-F 單元之間的相似性,可以將訓練的注意力集中在語音主導的T-F 單元上,有效抑制噪聲在模型計算過程中的影響,實現各個語音分離性能的綜合提升。

最后,使用提出的損失函數對分離性能提升的有效性進行驗證。首先,確定L中α的取值,在2 dB信噪比條件下,分別取α=0.5、α=1 和α=2 進行訓練,結果如表4 所示。

表4 不同α取值的測試結果

結果表明,取α=1 時,在訓練中將L中的LH-F和LMSE計算視為同等重要,分離結果在Accuracy、HIT-FA、STOI 和PESQ 性能方面的表現較α=0.5 和α=2 時好。

令α=1,同時考慮其泛化性能,分別在-2 dB、0 dB、2 dB和5 dB信噪比條件下,使用式(12)與式(11)以及式(13)作為對比,在優化結構和輸入后的模型中進行訓練,測試分離語音性能,并記錄實驗結果,如圖4 所示。

圖4 損失函數對比測試結果

如圖4 所示,根據訓練提出的損失函數L,在Accuracy 方面的表現與單獨訓練LMSE損失和LH-F損失時大致相當。通過對HIT-FA 原理改進后,訓練L得到的HIT-FA 指標性能相較于訓練LMSE時獲得較明顯的提升。而且,由于HIT-FA 指標與主觀聽音測試存在正相關關系,因此通過其原理改進損失函數后,相較于兩種損失函數單獨訓練時,在STOI 和PESQ 方面都表現出較好的性能。實驗結果表明,提出的結合語音分離指標HIT-FA 改進均方誤差構成的損失函數L不僅可以在訓練中有效收斂,同時可以實現語音分離系統HIT-FA、STOI 和PESQ 性能方面的提升。

將優化后的語音分離系統算法與傳統的LSTM語音分離系統作對比,取不同信噪比條件下分離語音結果的平均值,如圖5 所示,文中構建的語音分離系統算法在Accuracy、HIT-FA、STOI 和PESQ 方面都獲得了較好的表現,實現了對系統優化的目的。

圖5 算法性能測試對比結果

3 結束語

文中將IBM 作為目標,采用LSTM 網絡構建語音分離模型并進行優化,為實現訓練時間的縮短,簡化其單元結構,結合注意力機制對抽取的語音MFCC及RASTA-PLP 特征組合進一步優化,對輸入特征中的噪聲予以抑制,優化數據在訓練過程中的計算,減少噪聲對最終結果的影響。由于通過模型結構的優化無法實現系統綜合性能的全面提升,提出一種新的損失函數對模型訓練過程進行改進,將與語音評價指標HIT-FA 直接相關的函數與傳統的MSE損失函數相結合運用到模型訓練中,從而更好地匹配語音分離性能指標。為驗證算法的泛化性,在不同信噪比條件下,將干凈語音和噪聲進行混合分別進行訓練和測試。實驗證明,從模型的單元結構和輸入對傳統LSTM 系統進行優化,實現了訓練時間的縮短,同時結合注意力機制對模型輸入進行優化,使訓練過程中的計算更集中在目標語音上,系統各性能實現提升。最后,將提出的損失函數運用到訓練中,可以更好地與語音分離各性能相匹配,實現系統性能的綜合提升。

猜你喜歡
優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美中出一区二区| 日韩免费毛片视频| 精品三级网站| 国产精品视频导航| 国产精品福利一区二区久久| 2048国产精品原创综合在线| 中文字幕 日韩 欧美| 亚洲品质国产精品无码| 国产内射在线观看| 亚洲码在线中文在线观看| 一本久道久久综合多人| 日本少妇又色又爽又高潮| 亚洲熟妇AV日韩熟妇在线| 欧美在线网| 亚洲第一页在线观看| 美女潮喷出白浆在线观看视频| 国产永久免费视频m3u8| 五月婷婷亚洲综合| 国产精品亚洲欧美日韩久久| 亚国产欧美在线人成| 亚洲第一色视频| 亚洲视频免费在线| 不卡视频国产| 日韩欧美国产另类| 天天综合网站| 久久影院一区二区h| 1024国产在线| 老熟妇喷水一区二区三区| 日韩免费无码人妻系列| 夜夜拍夜夜爽| 污网站在线观看视频| 色天天综合久久久久综合片| 国产人成在线视频| 成人一级黄色毛片| 114级毛片免费观看| 视频二区中文无码| 亚洲中文字幕国产av| 国产性生大片免费观看性欧美| 国产美女精品一区二区| 亚洲第一视频网| 国产流白浆视频| 欧美成人午夜视频免看| 日日噜噜夜夜狠狠视频| 无码福利日韩神码福利片| 国产又色又爽又黄| 综合色天天| 色天堂无毒不卡| aⅴ免费在线观看| 久久成人18免费| 日本一区二区三区精品视频| 中文精品久久久久国产网址| 亚洲天堂网在线观看视频| 99热这里只有精品国产99| 成人一级免费视频| 亚洲精品免费网站| 国产成人夜色91| 中文字幕第1页在线播| 亚洲福利一区二区三区| 激情六月丁香婷婷| 人人澡人人爽欧美一区| 久久99热66这里只有精品一| 激情亚洲天堂| 亚洲一区色| 亚洲日韩精品综合在线一区二区| 亚洲av无码人妻| 久久综合国产乱子免费| 玖玖免费视频在线观看| 91久久国产综合精品女同我| 国产视频大全| 99久久人妻精品免费二区| 91视频区| 国产幂在线无码精品| 免费人成在线观看成人片| 制服丝袜一区二区三区在线| 欧美另类图片视频无弹跳第一页| 国产美女在线免费观看| 欧美精品1区| 国产不卡在线看| 欧美特黄一免在线观看| 制服丝袜国产精品| 中文字幕 91| 国产女人水多毛片18|