999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于均值特征和改進深度神經網絡的說話人識別算法

2021-09-09 01:44:52羅春梅張風雷
聲學技術 2021年4期
關鍵詞:深度特征信號

羅春梅,張風雷

(遼東學院化工與機械學院,遼寧丹東 118000)

0 引 言

說話人識別是通過分析語音的個性特征實現說話人辨識的技術,已經在安全領域、司法鑒定等應用中廣泛使用[1]。但由于實際環境中各種干擾的存在,實際環境中說話人識別系統失配而性能下降,因此,如何提高系統對不同背景噪聲的適應性,成為近年來該領域的研究熱點[2-3]。

為減小識別系統的環境失配,噪聲信息被融入到純凈語音模型中。牛曉可等[4]借鑒神經元時空濾波機制對聽覺尺度-速率圖進行二次提取,并與梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)相結合,提高特征對環境噪聲的容忍性能;仲偉峰等[5]通過融合深、淺層級特征以實現不同層次特征表達信息的互補,從而提高特征的魯棒性;Zhang等[6]受到干凈幀的啟發,用高斯通用模型推導出基于總變化矩陣的通用加權背景模型,并進行了聯合估計規則更新,有效提升了算法對背景噪聲的適應性。

隨著深度學習技術的成熟,深度神經網絡(Deep Neural Network, DNN)在說話人識別系統中逐漸展開研究,并取得較好的魯棒性[7]。陳湟康等[8]以深度學習的長短期記憶(Long and Short Term Memory, LSTM)網絡為基礎構建多模態模型,并以深度門對各層單元進行上下連接,以提高層特征聯系的緊密性和分類性能;Abdelmajid等[9]對多模態LSTM網絡在決策層進行分類融合,提高了模型識別性能,但模型相關性約束需加強;李煦等[10]將深度神經網絡與非負矩陣分解相結合來估計權值分配,結合特征字典實現說話人語音增強和識別。

已有DNN算法難以描述語音段的深度信息[11],為此在已有研究基礎上,提出基于自適應高斯均值矩陣特征和改進深度卷積神經網絡的說話人識別算法,通過均值矩陣增強信號的幀間關聯和特征,通過幀間信息對準提高特征對背景噪聲環境的適應性,實驗結果驗證了該算法的有效性。

1 改進模型說話人識別

說話人語音識別即為采用一定的方法提取帶有背景噪聲的語音的分類特征,然后根據分類特征進行說話人特征匹配,從而確定說話人身份,文中基于改進DNN網絡的說話人識別過程如圖1所示,算法結合了傳統特征提取方法和DNN網絡的優點,主要包括特征提取、高斯均值矩陣計算和DNN網絡三部分。

圖1 基于改進深度神經網絡的說話人識別過程Fig.1 Speaker recognition based on improved deep neural network

1.1 特征提取

MFCC特征基于人耳聽覺感知特性,其不需要做出前提假設,且其與說話人所說的語音內容不相關,能夠較好地反應語音信號特征。

設原始含噪信號為s(n),對其進行時域分幀,對幀信號x(n)進行離散余弦變換(Discrete Cosine Transform, DCT)變換,得到頻譜X(k),提取其能量譜P(k)為[2]

式中:N為DCT變換點數。采用M階Mel頻率濾波器Hm(k)進行濾波處理,得到

式中:m為濾波器序號,0≤m≤M,對Pm(k)取對數并進行離散余弦變換,可得MFCC,即[2]:

1.2 高斯混合模型均值矩陣

高斯混合模型(Gaussian Mixture Model, GMM)通過概率密度函數描述說話人的語音特征,并通過最大期望算法(Expectation Maximization,EM)提取描述語音特征的模型參數。GMM通過M個單高斯分布來擬合信號的不同分量特征,并通過線性組合擬合語音的特征分布,即[7]:

在計算高斯模型后,文中采用基于高斯模型的均值矩陣作為識別特征,其將GMM模型的特征向量分別送入通用背景模型(Universal Background Model, UBM)中,然后經過MPA(Message Passing Algorithm)自適應后,計算輸出特征的均值矩陣。

1.3 特征補償

由于特征分量對最終的語音識別率的影響不同且對背景噪聲的抗噪性能也不同,文中補償算法采用半升正弦函數(Half Raised-Sine Function,HRSF)對特征進行非線性提升,對特征的不同分量分配不同的權重,以削弱抗噪性能較差的低階分量對識別率的貢獻度[8],其補償過程為:

(1) 對噪聲及純凈語音信號的模型參數進行頻譜域變換,得到對數譜域參數和線性頻譜,即:

式中:C為DCT變換矩陣、L為提升矩陣,其計算式為L(i) =1+ sin (π (i-1) /N)/2,參數ux,m和Σx,m為GMM模型的第m個高斯單元均值矩陣和協方差矩陣,下標x表示純凈語音信號,上標ln和lin分別對數譜域和線性頻譜域。

(2) 將語音信號與噪聲的參數進行非線性合并,得到含噪信號的GMM模型參數,即:

式中:G為模型的補償增益因子,下標n和y表示噪聲及含噪語音信號。

(3) 將式(9)得到的含噪GMM模型參數變換到對數譜域和倒譜域,并優化協方差矩陣,去除非對角元素,提高運算效率,即:

1.4 DRNN網絡結構設計

采用基于多層非線性變換的深度神經網絡模型有助于描述語音特征的結構信息與層次信號,為此,文中設計了基于改進深度卷積神經網絡(Deep CNN, DCNN)的說話人語音識別算法,其網絡結構如圖2所示。

圖2 改進的DCNN網絡結構Fig.2 Improved DCNN network structure

網絡結構改進主要體現在最后的全連接層中用直接目標向量計算替代Softmax層的設計上。盡管結構加深、節點增多或濾波器增多能有效提高網絡模型的識別性能,但同時也帶來網絡模型的高復雜度和訓練的不穩定性。結合文中語音識別特點和數據規模,改進模型結構設計為3個卷積層的2個1024節點的全連接層,網絡輸入層為上文提取的特征矩陣,第一層卷積層包含64個尺寸為7×7的濾波器,第二層和第三層卷積層包含128個尺寸為3×3的濾波器,濾波器的步長統一設置為1×1;激活函數層后面為3個濾波器尺寸3×3、步長2×2的池化層;輸出層為一個129點全連接層。

深度的增加也帶來梯度弱化,反而不利于提高識別率,深度殘差網絡以網絡殘差獲得更穩健的特征表達,通過在網絡層間增加殘差連接避免梯度消失問題,從而提高網絡的識別準確率,其網絡函數設計為理想映射H(x) =F(x) +x的形式,如圖3所示,其中,F(x)為殘差映射,對H(x)求偏導可得:

由圖3和式(11)可以看出,增加殘差連接后,解決了梯度隨網絡深度消失的問題。

圖3 殘差網絡模塊Fig.3 Residual network module

2 實驗驗證與分析

為驗證文中基于改進DCNN網絡的說話人識別模型的識別性能,實驗從TIMIT數據庫[12]隨機選取180人共3 600條語音,以Noisex92噪聲庫作為實驗用背景噪聲,所有數據采樣率調整為8 kHz,分幀長度為64 ms(512點),幀移為32 ms,將每一條語音數據的前80%作為訓練數據,而后20%作為測試數據,采用39維MFCC頻譜系數作為識別特征,GMM混合度設置為32[13],特征補償因子初始值為G=0.5,當背景噪聲較小或無噪聲時,補償算法會調整增益因子G。

將NoiseX-92數據庫中的Factory、Babble及混合Mixed噪聲與純凈訓練數據按一定的分段信噪比進行混合,作為實驗數據,以文獻中已有的身份認證向量(identity vector, i-vector)識別框架[14]加MFCC和Gammatone頻譜倒譜系數(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分別記為IPMFCC和IPGFCC)、GMM-UBM框架[15]加MFCC和補償MFCC特征(分別記為GUMFCC和GUGFCC)及文中改進的DCNN識別網絡加MFCC和補償MFCC特征(分別記為IDMFCC和IDCMFCC),共6種說話人識別算法進行實驗比較,各算法的說話人識別正確率實驗結果如圖4所示,圖中所示為多次實驗結果的平均值[11]。

從圖4中的實驗結果可以看出,隨著信噪比的提高,各算法的識別準確率都大幅提高,但在低信噪比情況下,各個算法的識別率均不高,但文中模型在各個信噪比時均取得較優的識別準確率,尤其在低信噪比時,優勢更加明顯,這主要因為識別網絡的改進,在考慮了語音信號特征基礎上,兼顧了網絡性能和訓練難度,并通過殘差網絡增強了層間梯度,而識別特征的補償,增強了特征對強背景噪聲的抗干擾能力,從而使算法整體上具有較好的抗背景噪聲干擾性能。

圖4 不同背景噪聲下各算法的識別率Fig.4 Recognition rate of each algorithm under different background noises

如圖5所示為三種識別框架在不同訓練階段的均方誤差(Mean Squared Error, MSE)。從圖5可以看出,文中改進DCNN網絡的均方誤差最小,進一步說明該網絡的優勢。

圖5 各算法訓練階段的均方誤差Fig.5 The mean square error in training stage of each algorithm

3 結 論

傳統MFCC等聲學特征大多基于語音信號的短時譜信息,缺乏語音段深度信息,而深度神經網絡缺乏直觀的物理聲學特征描述。為此,在已有研究基礎上,提出基于高斯增值矩陣特征和改進DCNN網絡的說話人識別算法。算法通過自適應高斯均值矩陣增強語音信號的幀間關聯和說話人特征信息,采用改進的DCNN網絡進一步提高說話人識別的特征學習和背景噪聲環境的適應性。實驗結果表明,相比于i-vector和GMM-UBM等識別框架及傳統MFCC特征,文中算法取得最優的識別準確率和識別均方誤差。

猜你喜歡
深度特征信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
深度理解一元一次方程
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
主站蜘蛛池模板: 国产成人高清精品免费| 青青网在线国产| 国产精品视频观看裸模| 91 九色视频丝袜| 国产亚洲日韩av在线| 永久免费AⅤ无码网站在线观看| 日韩精品专区免费无码aⅴ | 亚洲国产综合精品一区| 国产99热| 91美女在线| 欧美精品另类| 色香蕉影院| 国产欧美视频一区二区三区| 亚洲最大福利网站| 精品丝袜美腿国产一区| 青青青国产精品国产精品美女| 亚洲乱码在线视频| 国产男女免费完整版视频| 波多野结衣中文字幕久久| 欧美在线国产| 真实国产乱子伦高清| 亚洲第一成年人网站| 国产午夜人做人免费视频中文| 国产亚洲欧美日韩在线一区| 日韩 欧美 小说 综合网 另类 | 成人伊人色一区二区三区| 色婷婷狠狠干| 国产人成乱码视频免费观看| 亚洲精品成人片在线播放| 国产一区二区精品福利| 亚洲不卡网| 欧洲亚洲欧美国产日本高清| 日韩欧美国产中文| 国产精品主播| 精品无码日韩国产不卡av | 高h视频在线| 强奷白丝美女在线观看| 美女国内精品自产拍在线播放| 久久久国产精品免费视频| 在线播放真实国产乱子伦| 欧美中出一区二区| 亚洲中文字幕无码爆乳| 国产成人精品亚洲77美色| 国产精品熟女亚洲AV麻豆| 精品久久人人爽人人玩人人妻| 午夜a级毛片| 久久精品亚洲热综合一区二区| 久久特级毛片| 国产极品粉嫩小泬免费看| 一级全免费视频播放| 欧美第一页在线| 国产精品无码AⅤ在线观看播放| 久久香蕉国产线看观看精品蕉| 97在线观看视频免费| 国产女人喷水视频| 男女男精品视频| 美女扒开下面流白浆在线试听| 亚洲专区一区二区在线观看| 国产精品美女自慰喷水| 欧美成人精品欧美一级乱黄| 青青久视频| 欧美在线视频a| 亚洲欧洲日产无码AV| 色AV色 综合网站| 亚洲人成在线免费观看| 广东一级毛片| 国产成人精品日本亚洲| 九色91在线视频| 亚洲国产清纯| 久久国产精品嫖妓| 欧美一级高清免费a| 一区二区三区高清视频国产女人| 欧美啪啪网| 无码AV高清毛片中国一级毛片| 国产高清国内精品福利| 国产一区二区免费播放| 国产欧美日韩va另类在线播放| 爱爱影院18禁免费| 亚洲一区二区三区在线视频| 国产亚洲视频免费播放| AV老司机AV天堂| 沈阳少妇高潮在线|