999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小波包倒譜系數(shù)和ECAPA-TDNN的調(diào)度說話人確認(rèn)研究

2023-03-11 06:46:52張志偉楊可林馮志常王天俁
山東電力技術(shù) 2023年2期
關(guān)鍵詞:特征提取特征信號(hào)

張志偉,楊可林,馮志常,王天俁

(國(guó)網(wǎng)山東省電力公司菏澤供電公司,山東 菏澤 274002)

0 引言

在電力調(diào)度通話過程中,工作指令的下達(dá)越來越規(guī)范化,身份認(rèn)證是不可或缺的一環(huán)[1-2],由于調(diào)度指令下達(dá)的特殊性,遠(yuǎn)程身份認(rèn)證至關(guān)重要,說話人確認(rèn)就是一種合適的身份認(rèn)證技術(shù)。在下達(dá)工作指令時(shí)使用說話人確認(rèn)技術(shù)驗(yàn)證其身份,既規(guī)范操作流程,又明確相關(guān)責(zé)任。

說話人確認(rèn)主要分為特征提取和說話人建模兩個(gè)部分[3]。Davis 等人提出Mel 倒譜系數(shù)(Melfrequency Cepstral Coefficients,MFCC)[4]進(jìn)行特征提取,然而該方法存在著抗噪性能差、不能提取聲音信號(hào)深層動(dòng)態(tài)信息的問題。目前很多研究致力于提高說話人確認(rèn)系統(tǒng)的抗噪能力。Babak 等提出Mel 子帶頻譜減法和Mel 子帶能量壓縮[5]針對(duì)Mel 子帶能量以及MFCC 特征的噪聲進(jìn)行補(bǔ)償提高抗噪性。Paresh 等提出基于維納濾波器改進(jìn)的MFCC[6],該濾波器有利于在頻域范圍內(nèi)處理語音中的噪聲。Adam 等提出小波倒譜系數(shù)[7],運(yùn)用小波變換進(jìn)行特征提取,小波變換使用的是有限長(zhǎng)會(huì)衰減的小波基,使噪聲只能對(duì)局部信號(hào)造成影響而不會(huì)干擾整個(gè)特征提取過程。

隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的說話人識(shí)別對(duì)聲音進(jìn)行深層處理提取深層特征也帶來了識(shí)別性能的提升[8]。Snyder 等人提出x-vector[9-10]將任意長(zhǎng)度的輸入轉(zhuǎn)化成固定維度的說話人嵌入特征表達(dá)。目前性能優(yōu)異的網(wǎng)絡(luò)模型大多數(shù)是基于x-vector 的變體[11-13]。強(qiáng)調(diào)通道注意、傳播和聚合的時(shí)延神經(jīng)網(wǎng)絡(luò)(Emphasized Channel Attention,Propagation and Aggregation in Time Delay Neural Network,ECAPA-TDNN)[14]也是基于x-vector 改進(jìn)而來的結(jié)構(gòu),它通過引入擠壓激勵(lì)殘差模塊(Squeeze-Excitation Res2Block,SE-Res2Block)、注意力統(tǒng)計(jì)池化(Attentive Statistics Pooling,ASP)和多層聚合等結(jié)構(gòu)改善了x-vector 幀級(jí)時(shí)間背景限制和特征層次單一的問題。

為提高說話人確認(rèn)特征提取過程的抗噪性能以及深層動(dòng)態(tài)信息的提取能力,提出一種基于小波包倒譜系數(shù)(Wavelet Packet Cepstral Coefficients,WPCC)和ECAPA-TDNN 的說話人確認(rèn)模型,該模型在原有MFCC 的基礎(chǔ)上將快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)更換為小波包分解,增加了倒譜均值方差歸一化以及delta、delta-delta 系數(shù),為ECAPA-TDNN 提供具有深層動(dòng)態(tài)特征的WPCC 聲學(xué)特征。該模型加強(qiáng)了對(duì)說話人特征的提取能力,提升了電網(wǎng)指令調(diào)度過程的安全性和規(guī)范化。

1 Mel倒譜系數(shù)

傳統(tǒng)MFCC 的提取流程如圖1所示,其關(guān)鍵部分是利用FFT 將固定語音幀由時(shí)域變換到頻域。FFT通過三角函數(shù)(正弦函數(shù)或余弦函數(shù))線性組合得到,而三角函數(shù)是全時(shí)域函數(shù),局部信號(hào)中的噪聲會(huì)對(duì)整個(gè)聲音信號(hào)的特征提取造成影響,導(dǎo)致在MFCC提取過程中容易受到噪聲的干擾。

圖1 MFCC特征提取

同時(shí)由于FFT 計(jì)算過程中其窗函數(shù)固定,該方法無法對(duì)聲音信號(hào)進(jìn)行深層頻率分析,導(dǎo)致其提取的特征向量?jī)H包含該語音幀的靜態(tài)信息和淺層信息,不能凸顯相鄰語音幀之間的動(dòng)態(tài)關(guān)系以及聲音信號(hào)中的深層特征。

2 小波包倒譜系數(shù)

為了提高特征提取過程的抗噪性、穩(wěn)健性以及充分挖掘聲音信號(hào)中的動(dòng)態(tài)信息和深層特征,提出小波包倒譜系數(shù)進(jìn)行特征提取,其流程如圖2 所示,主要改進(jìn)策略是用小波包分解代替FFT 進(jìn)行特征變換,對(duì)經(jīng)過倒譜計(jì)算后的聲學(xué)特征進(jìn)行倒譜均值方差歸一化(Cepstral Mean and Variance Normalization,CMVN)[15]以及通過計(jì)算delta 和delta-delta 系數(shù)獲取相鄰語音幀之間的動(dòng)態(tài)關(guān)系。

圖2 WPCC特征提取

小波包分解流程如圖3 所示,它是一種局部分析工具,受到噪聲干擾后不會(huì)影響整個(gè)頻譜變換過程,僅對(duì)局部提取造成影響,且信號(hào)被多層分解,這使WPCC 能提取更加深層的特征。CMVN 通過計(jì)算補(bǔ)償?shù)牡棺V系數(shù),將倒譜系數(shù)限定在固定范圍內(nèi),來消除異常樣本數(shù)據(jù)導(dǎo)致的不良影響,保證特征向量的穩(wěn)健性。delta 和delta-delta 系數(shù)包含了鄰近語音幀之間的交互關(guān)系,在獲取說話人的風(fēng)格、停頓和持續(xù)時(shí)間等信息中發(fā)揮著重要作用。

圖3 小波包分解

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理可以分為數(shù)據(jù)預(yù)加重、分幀兩個(gè)部分。由于聲音信號(hào)的功率隨頻率升高而降低,故其大部分能量集中在低頻信號(hào)中,在通過濾波器時(shí),高頻信號(hào)發(fā)生的衰減更加嚴(yán)重。為減少高頻部分的信息衰減,采用預(yù)加重對(duì)高頻分量進(jìn)行補(bǔ)償,如式(1)所示。

式中:a為預(yù)加重系數(shù),本文取a=0.98;n為聲音信號(hào)中采樣點(diǎn)的序號(hào);s(n)和s(n-1)為原始信號(hào);s′(n)為預(yù)加重之后的信號(hào)。分幀將聲音信號(hào)分為每幀20 ms 的長(zhǎng)度,同時(shí)也設(shè)定10 ms 的重疊幀,保證每一幀都盡量的平穩(wěn)。

2.2 小波包分解

小波包分解由一對(duì)遞歸的帶通濾波器實(shí)現(xiàn),令輸入的聲音信號(hào)x(n)=(n);j為小波包分解的分解層數(shù),其公式如式(2)所示。

式中:k為小波函數(shù)的位置參數(shù);h(·)和g(·)分別為高通濾波器和低通濾波器(·)是經(jīng)過j層小波包分解得到的第p個(gè)子帶分量是(·)的高頻部分是的低頻部分。

2.3 倒譜計(jì)算

由于經(jīng)過倒譜分析后的參數(shù)包含更多的說話人信息,具有更好的代表性,對(duì)語音信號(hào)進(jìn)行倒譜計(jì)算后將得到其倒譜系數(shù)。

設(shè)wi(z)為長(zhǎng)度為Z的子帶分量,z為wi的位置數(shù),對(duì)其進(jìn)行對(duì)數(shù)計(jì)算得到對(duì)數(shù)譜為

將對(duì)數(shù)譜進(jìn)行離散余弦變換,得到w i的第l個(gè)倒譜系數(shù)為

2.4 倒譜均值方差歸一化

首先根據(jù)計(jì)算得到的倒譜系數(shù)計(jì)算所有倒譜系數(shù)的均值和方差,設(shè)聲音信號(hào)的總幀數(shù)為T,聲音信號(hào)第t幀的倒譜系數(shù)向量為ct。均值以及方差分別如式(5)和式(6)所示。

則每一幀的補(bǔ)償?shù)棺V系數(shù)向量為

2.5 delta/delta-delta系數(shù)

經(jīng)過倒譜均值方差歸一化后共生成16 組倒譜系數(shù),再對(duì)16 組倒譜系數(shù)計(jì)算delta 系數(shù)和deltadelta系數(shù)。

delta系數(shù)計(jì)算公式為

式中:q 表示dt計(jì)算時(shí)包含周圍t+q和t-q位置的倒譜系數(shù);Q為q的上限值,且本文取Q=2。

將計(jì)算得到的倒譜系數(shù)、delta 和delta-delta 系數(shù)拼接在一起得到最終的WPCC特征。

2 ECAPA-TDNN

目前應(yīng)用廣泛的說話人建模方法是基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)[16]的x-vector,該方法僅處理了最后一個(gè)幀級(jí)提取器中的特征,且對(duì)所有幀級(jí)特征的重視程度相同。為提高幀級(jí)特征的利用率,突出區(qū)分度強(qiáng)的深層動(dòng)態(tài)特征,將ECAPA-TDNN 的輸入MFCC 更換為包含深層動(dòng)態(tài)特征的WPCC。

ECAPA-TDNN 的結(jié)構(gòu)如圖4 所示,圖中Conv1D為一維卷積運(yùn)算;ReLU 為非線性激活函數(shù);BN 為批歸一化;FC 為全連接層。該模型運(yùn)用SE-Res2Block增強(qiáng)了幀級(jí)特征的提取能力,并構(gòu)建了一個(gè)多層次的剩余連接,通過多層特征聚合提高了深層特征的表達(dá)能力。

圖4 ECAPA-TDNN 結(jié)構(gòu)

SE-Res2Block模塊如圖5所示,該結(jié)構(gòu)將殘差結(jié)構(gòu)[17]與擠壓激勵(lì)模塊(Squeeze and Excitation Block,SE-Block)[18]相互結(jié)合,通過在幀級(jí)層之間添加殘差連接來增強(qiáng)說話人嵌入特征。該結(jié)構(gòu)被用于建模通道間的互相依賴關(guān)系,并構(gòu)建了分層剩余連接來處理多尺度特征。SE-Block 根據(jù)全局聲音屬性重新縮放每個(gè)通道的時(shí)間上下文限制的幀級(jí)特征。

圖5 SE-Res2Block模塊

ECAPA-TDNN 使用多層特征聚合,將最終的幀級(jí)特征與通過SE-Res2Block 計(jì)算得到的前兩層幀級(jí)特征融合起來,為統(tǒng)計(jì)池化層提供多層次的特征信息。然后通過注意力統(tǒng)計(jì)池化層的處理,將每一個(gè)幀級(jí)特征的重要性賦予其不同的權(quán)重,把網(wǎng)絡(luò)的注意力集中在具有代表性的幀級(jí)特征中,并將幀級(jí)特征聚合成段級(jí)特征。最后利用全連接層將段級(jí)特征映射為512維的說話人嵌入。

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)集

實(shí)驗(yàn)采用TIMIT數(shù)據(jù)集[19]進(jìn)行訓(xùn)練和測(cè)試,該數(shù)據(jù)集由630 名說話人構(gòu)成,每個(gè)說話人提供10 條語音。訓(xùn)練集包括6 100條語音,這些語音被用于模型參數(shù)訓(xùn)練。測(cè)試集由200 條語音隨機(jī)生成13 191對(duì)語音組成,用于說話人確認(rèn)性能評(píng)估。

為測(cè)試模型的抗噪性能,在語音樣本中加入信噪比(Signal-Noise Ratio,SNR)分別為30 dB、20 dB和10 dB 的高斯白噪聲來模擬噪聲環(huán)境,信噪比越小代表信號(hào)中的噪音成分越大,識(shí)別難度越高。

3.2 實(shí)驗(yàn)參數(shù)

為獲得更好的性能,在訓(xùn)練階段均采用AAMSoftmax[20]損失函數(shù)(m被設(shè)置為0.20,s被設(shè)置為30)進(jìn)行迭代訓(xùn)練。在測(cè)試階段,余弦距離被用來衡量?jī)蓚€(gè)嵌入特征的相似度。實(shí)驗(yàn)采用等錯(cuò)誤率(Equal Error Rate,EER)來評(píng)估模型性能。

4 實(shí)驗(yàn)分析

4.1 不同提取方法對(duì)比

使用MFCC+x-vector、WPCC+x-vector、MFCC+ECAPA-TDNN 和WPCC+ECAPA-TDNN 在干凈條件下進(jìn)行對(duì)比實(shí)驗(yàn),其中WPCC 使用消失距為26 的Daubechies 小波進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示。

分析表1的結(jié)果,發(fā)現(xiàn)本文提出的基于WPCC和ECAPA-TDNN 模型EER 最低,該模型相較于傳統(tǒng)的MFCC 與x-vector 模型提升巨大。本文構(gòu)建的WPCC無論結(jié)合ECAPA-TDNN還是x-vector性能都有增強(qiáng)。使用ECAPA-TDNN 說話人建模時(shí),WPCC 相較于MFCC 提升接近26%,使用傳統(tǒng)的x-vector 時(shí)提升更大,達(dá)到51%。小波包分解通過多尺度變換和delta、delta-delta 系數(shù)提取了原始音頻中的深層特征和動(dòng)態(tài)信息,使倒譜系數(shù)擁有了更好的表征能力。

表1 不同模型性能對(duì)比 單位:%

圖6 是4 種不同模型分別在干凈、30 dB、20 dB和10 dB 條件下的實(shí)驗(yàn)結(jié)果。分析圖6 可知,隨著信噪比的降低,4 種模型的識(shí)別性能都有所降低,這說明噪聲是一個(gè)極大影響識(shí)別性能的因素;使用WPCC 的模型性能在不同信噪比條件下均優(yōu)于MFCC,這是由于WPCC 使用小波包分解獲得一組獨(dú)立頻譜,抑制了聲音信號(hào)中的噪聲表達(dá),且小波包分解比FFT具有更豐富的時(shí)頻分辨率。

圖6 不同信噪比條件下模型結(jié)果

4.2 小波基函數(shù)及其消失矩

小波基函數(shù)是WPCC 的一個(gè)關(guān)鍵問題,合適的小波基函數(shù)可以提高WPCC 的性能。這一部分旨在評(píng)估不同小波基函數(shù)和消失距在不同信噪比條件下的性能表現(xiàn)。考慮Daubechies 小波和Symlets 小波,實(shí)驗(yàn)中分別用DbN和SymN表示Daubechies 小波和Symlets小波,其中N是消失距大小。

圖7 和圖8 分別是本文模型使用Daubechies 小波和Symlets 小波在不同消失距和信噪比條件下的實(shí)驗(yàn)結(jié)果。通過比較這兩張圖發(fā)現(xiàn),當(dāng)信噪比為10時(shí),系統(tǒng)性能最差,除了Db26 以外的所有EER 都大于5%。Db26 在信噪比為10 dB 和30 dB 時(shí),性能最優(yōu),EER分別為1.20%和4.80%。而在信噪比為20 dB的條件下,Db26 的EER 相較于Db14 升高了8.25%。Symlets 小波在信噪比為30 dB、20 dB 和10 dB 條件下得最優(yōu)結(jié)果分別為1.37%、2.40%和5.66%,消失距均為20。

圖7 Daubechies小波不同信噪比實(shí)驗(yàn)

圖8 Symlets小波不同信噪比實(shí)驗(yàn)

這些結(jié)果表明消失距和支撐度的大小是影響小波包倒譜系統(tǒng)性能的兩個(gè)關(guān)鍵因素,提升小波的消失距對(duì)提高模型性能有一定的幫助,當(dāng)增大小波的消失距時(shí),支持度增大,小波基函數(shù)變得平滑,從而可以更好逼近聲音信號(hào)。但從圖7 可以觀察到消失距并不完全與性能呈正相關(guān)趨勢(shì),Db32 在三種信噪比條件下的EER 均高于Db26,當(dāng)小波基函數(shù)的消失距和支撐度增大到一定程度時(shí),小波基函數(shù)會(huì)過于平滑,將丟失聲音信號(hào)中的細(xì)節(jié)特征,不利于特征表達(dá)。所以須在消失距和支撐度大小之間達(dá)到平衡。從上述結(jié)果表明,Db26 是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。

5 結(jié)語

提出一種基于WPCC和ECAPA-TDNN的說話人確認(rèn)模型,并使用TIMIT 數(shù)據(jù)集訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明,該模型性能比傳統(tǒng)的MFCC 和x-vector 模型提升明顯,WPCC特征提取方式相較于MFCC 方式抗噪性能和泛化能力也更好,在不同信噪比條件下均有增強(qiáng)。同時(shí)也研究了不同小波基函數(shù)和消失距對(duì)識(shí)別性能的影響,發(fā)現(xiàn)消失距為26 的Daubechies小波是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。該研究成果將極大地提高說話人確認(rèn)技術(shù)在電力調(diào)度通話過程中的應(yīng)用,促進(jìn)指令調(diào)度流程的規(guī)范化和智能化。

猜你喜歡
特征提取特征信號(hào)
信號(hào)
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于LabVIEW的力加載信號(hào)采集與PID控制
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 操操操综合网| 国产导航在线| 国产日产欧美精品| 日韩大乳视频中文字幕 | 免费一级毛片不卡在线播放| 91无码人妻精品一区| 三上悠亚精品二区在线观看| 日本一本正道综合久久dvd| 国产精品一老牛影视频| 一级福利视频| 欧美日韩导航| 日韩高清一区 | 91视频国产高清| 亚洲成人高清无码| www精品久久| 一区二区三区四区日韩| 国产成人调教在线视频| 亚洲香蕉伊综合在人在线| 老色鬼欧美精品| 欧美不卡视频在线| 欧美日韩中文国产| 91在线精品麻豆欧美在线| 国产精品va免费视频| 欧美日韩国产在线人成app| 免费99精品国产自在现线| 欧美午夜在线播放| 国产办公室秘书无码精品| 久久综合九色综合97婷婷| 国产精品30p| 日韩黄色精品| 国产va欧美va在线观看| 夜色爽爽影院18禁妓女影院| 国产又黄又硬又粗| 国产成人欧美| 在线观看国产精品一区| 五月婷婷综合在线视频| 国产成人精品免费视频大全五级| 精品小视频在线观看| 亚洲人在线| 91精品啪在线观看国产91| 91午夜福利在线观看精品| 亚洲欧美精品一中文字幕| 国产麻豆福利av在线播放| 91成人在线免费观看| 乱系列中文字幕在线视频| 最新精品久久精品| 免费观看精品视频999| 国产人成网线在线播放va| 无码av免费不卡在线观看| 亚洲制服丝袜第一页| 国产成人在线小视频| 亚洲精品视频免费观看| 亚洲福利视频一区二区| 青青草a国产免费观看| 免费人成视频在线观看网站| 午夜无码一区二区三区| 免费观看国产小粉嫩喷水| 国产成人高清精品免费软件 | 国产精品亚洲精品爽爽| 欧美三级视频在线播放| 国产一在线| 亚洲成在人线av品善网好看| 色噜噜狠狠狠综合曰曰曰| 久久人搡人人玩人妻精品| 在线播放91| 六月婷婷综合| 亚洲欧美成人在线视频| 日本亚洲成高清一区二区三区| 全免费a级毛片免费看不卡| 午夜国产理论| 激情成人综合网| 国产男女免费完整版视频| 成人免费午夜视频| 亚洲床戏一区| 国产成人91精品| 97免费在线观看视频| 在线a视频免费观看| 亚洲伊人久久精品影院| 欧美在线精品怡红院| 538国产视频| AV老司机AV天堂| 丝袜久久剧情精品国产|