999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償技術(shù)*

2017-09-03 09:17:09尹主峰徐志京
關(guān)鍵詞:信息模型系統(tǒng)

尹主峰,徐志京

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償技術(shù)*

尹主峰,徐志京

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

在說話人識別系統(tǒng)中,一種結(jié)合深度神經(jīng)網(wǎng)路(DNN)、身份認(rèn)證矢量(i-vector)和概率線性鑒別分析(PLDA)的模型被證明十分有效。為進(jìn)一步提升PLDA模型信道補(bǔ)償?shù)男阅埽瑢⒔翟胱詣泳幋a器(DAE)和受限玻爾茲曼機(jī)(RBM)以及它們的組合(DAE-RBM)分別應(yīng)用到信道補(bǔ)償PLDA模型端,降低說話人i-vector空間信道信息的影響。實(shí)驗(yàn)表明相比標(biāo)準(zhǔn)PLDA系統(tǒng),基于DAE-PLDA和RBM-PLDA的識別系統(tǒng)的等錯誤率(EER)和檢測代價函數(shù)(DCF)都顯著降低,結(jié)合兩者優(yōu)勢的DAE-RBM-PLDA使系統(tǒng)識別性能得到了進(jìn)一步提升。

說話人識別;i-vector;降噪自動編碼器;受限玻爾茲曼機(jī)

0 引言

說話人識別屬于生物特征識別技術(shù)的一種,是一項(xiàng)從說話人語音中提取有效特征信息進(jìn)行說話人識別的技術(shù)。比較流行的說話人識別模型是建立在以混合高斯模型-通用背景模型(GMM-UBM)[1]的基礎(chǔ)上。隨后Patrick等人提出聯(lián)合因子分析(JFA)[2],Najim 等提出全局差異空間因子( i-vector)[3]等建模方法。當(dāng)前i-vector已成為文本無關(guān)的說話人識別最有效的技術(shù),這個框架可以被分為3個步驟:(1)利用GMM-UBM把語音聲學(xué)特征序列表示成充分統(tǒng)計量;(2)轉(zhuǎn)換成低維的特征向量i-vector,提取i-vector;(3)使用PLDA模型進(jìn)行信道補(bǔ)償并通過比較不同語音段的i-vector產(chǎn)生驗(yàn)證分?jǐn)?shù)得出判決結(jié)果。

近年來,深度神經(jīng)網(wǎng)路DNN被成功應(yīng)用于語音識別領(lǐng)域[4]。在說話人識別領(lǐng)域,Lei等[5]利用DNN對語音特征根據(jù)音素分類到不同音素空間中,然后在每個空間中對特征降維提取出不同發(fā)音的聲學(xué)特征,提出基于DNN的i-vector。該模型把UBM中計算各類后驗(yàn)概率的方法利用DNN輸出層Softmax的輸出來表示,為說話人確認(rèn)帶來顯著的性能提升。

降噪自動編碼器(DAE)可通過訓(xùn)練從損壞的數(shù)據(jù)重構(gòu)出原始數(shù)據(jù)。把說話人的特征表示i-vector受說話人信道信息的影響看成是受損的數(shù)據(jù)。因此通過DAE重構(gòu)的方法進(jìn)行信道補(bǔ)償可以獲得更加魯棒的效果,產(chǎn)生抗噪能力,從而降低說話人的信道差異性。在文獻(xiàn)[6]中,基于RBM-PLDA的信道補(bǔ)償技術(shù)被證明性能優(yōu)于傳統(tǒng)PLDA。RBM通過分離出說話人信息和信道信息重構(gòu)i-vector,然后把包含說話人信息的因子應(yīng)用于PLDA端進(jìn)行比較。本文結(jié)合DAE和RBM各自的優(yōu)點(diǎn)提出基于DAE-RBM-PLDA的信道補(bǔ)償方法,從而進(jìn)一步降低說話人信道多樣性的影響。

1 基于i-vector的說話人識別系統(tǒng)

1.1 GMM i-vector技術(shù)

i-vector因子分析模型將說話人差異空間與信道差異空間作為一個整體進(jìn)行建模。模型建立在GMM-UBM所表示的均值超矢量之上。說話人的一段語音相對應(yīng)的均值超矢量可以分解為下式:

M=m+Tω

(1)

其中,m為UBM的均值超矢量,T為低秩的全局差異空間矩陣,ω為全局差異空間因子,它的后驗(yàn)均值即為i-vector矢量。

在i-vector的提取過程中需要使用EM算法估計全局差異空間矩陣T,提取Baum—Welch統(tǒng)計量,說話人s的語音段h在第j個GMM混合成分的零階統(tǒng)計量和一階統(tǒng)計量分別為:

(2)

(3)

(4)

然后進(jìn)行如下計算即可得到對應(yīng)的i-vector:

ωh=E[Wh]=I-1TT∑-1Fh

(5)

1.2 DNN i-vector技術(shù)

GMM具有強(qiáng)大的擬合能力,但它不能有效地對非線性或近似非線性的數(shù)據(jù)進(jìn)行建模是它的不足之處。因此DNN被應(yīng)用于聲學(xué)建模中,DNN的多層非線性結(jié)構(gòu)使其具有強(qiáng)大的表征能力,它使用無監(jiān)督生成式算法進(jìn)行預(yù)訓(xùn)練,然后使用反向傳播算法進(jìn)行參數(shù)微調(diào)。

DNN由輸入層、多隱藏層和Softmax輸出層構(gòu)成。Softmax層給出的是綁定三因素狀態(tài)類在語音幀上的后驗(yàn)概率P(j|xt) ,它被用作對應(yīng)高斯上的占有率,代入式(2)和式(3)可以估計出DNN i-vector的零階統(tǒng)計量和一階統(tǒng)計量,然后根據(jù)式(5)提取i-vcetor。基于DNN的i-vector提取過程及判別過程如圖1所示。

圖1 基于DNN的說話人識別系統(tǒng)流程圖

2 后端PLDA技術(shù)分析

2.1 PLDA模型

PLDA是一種基于i-vector的信道補(bǔ)償算法,i-vector特征包含說話人信息和信道信息。要提取說話人信息,所以需要進(jìn)行信道補(bǔ)償,去除信道的干擾。經(jīng)過簡化的PLDA被證明是信道補(bǔ)償?shù)挠行Х椒╗7]。簡化的PLDA模型如下式所示:

ωsh=μ+Vys+zsh

(6)

其中,ωsh表示第s個人第h段語音的i-vector,μ為所有訓(xùn)練數(shù)據(jù)的均值,矩陣V描述說話人的子空間,表征說話人類間差異,ys為隱藏說話人因子,zsh為殘差噪聲。以上參數(shù)滿足如下分布:

ys~N(0,1)

(7)

zsh~N(0,D)

(8)

PLDA訓(xùn)練階段的目的是根據(jù)一定樣本的說話人語音數(shù)據(jù)集用EM算法估計出模型需要的參數(shù)θ={μ,V,D}。模型訓(xùn)練好之后進(jìn)行識別打分,給定相同說話人注冊和測試的i-vector分別為ωe和ωs,采用下式計算似然比分?jǐn)?shù):

(9)

其中H0表示ωe和ωs來自同一說話人,H1表示來自不同說話人。計算兩個高斯函數(shù)的似然比作為得分進(jìn)行最終判決。

2.2 基于DAE和RBM的PLDA

降噪自編碼器(DAE)是一種通過特殊訓(xùn)練得到的自編碼器。在輸入中接受受損數(shù)據(jù)作為輸入,并訓(xùn)練來預(yù)測原始未損壞數(shù)據(jù)作為輸出的自動編碼器,使其產(chǎn)生抗噪能力,從而得到更加魯棒的數(shù)據(jù)重構(gòu)效果。DAE的訓(xùn)練過程如圖2所示。引入一個損壞過程C(y|x),這個條件代表給定數(shù)據(jù)x產(chǎn)生損壞樣本y的概率。自動編碼器假設(shè)x是原始輸入,降噪自動編碼器利用C(y|x)引入損壞樣本y。然后把y當(dāng)作帶噪聲的損壞輸入,把x當(dāng)作輸出,對自編碼進(jìn)行學(xué)習(xí)訓(xùn)練。把DAE應(yīng)用到說話人識別系統(tǒng)后端模型最早在文獻(xiàn)[8]中被提出,本文將在此基礎(chǔ)上繼續(xù)探討進(jìn)一步提升系統(tǒng)性能。在本系統(tǒng)中把說話人的i-vector受說話人信道信息的影響看成受損的數(shù)據(jù),其訓(xùn)練可簡化為如下過程。

圖2 DAE結(jié)構(gòu)原理圖

圖3 RBM預(yù)訓(xùn)練

實(shí)驗(yàn)中DAE的訓(xùn)練過程是先按圖3進(jìn)行RBM預(yù)訓(xùn)練。隱含層神經(jīng)元取二進(jìn)制值并服從伯努利分布,可見層神經(jīng)元連接兩個服從高斯分布的實(shí)數(shù)值向量i(s)和i(s,h)作為輸入。其中向量i(s)表示說話人s的所有語音段的平均i-vector,向量i(s,h)表示從說話人s的第h段語音提取的i-vector。RBM的訓(xùn)練用CD算法[9],權(quán)重矩陣參數(shù)V、W用來初始化DAE模型。

預(yù)訓(xùn)練之后把模型展開成如圖4所示,此模型可以看作標(biāo)準(zhǔn)DAE模型來重建i-vector。輸出端采用說話人平均i-vector降低說話人信道信息的差異性。之后采用反向傳播算法對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)優(yōu)。DAE的輸出經(jīng)白化和長度規(guī)整處理后可直接作為標(biāo)準(zhǔn)PLDA模型的輸入(DAE-PLDA)進(jìn)行得分驗(yàn)證并根據(jù)事先設(shè)定的閾值進(jìn)行判決。

RBM是一種由隨機(jī)性的一層可見層神經(jīng)元和一層隱藏神經(jīng)元所構(gòu)成的無向圖模型。它可以作用于PLDA信道補(bǔ)償端,隱藏層被分解為說話人信息因子和信道信息因子,如圖5所示。采用文獻(xiàn)[6]類似的算法進(jìn)行訓(xùn)練,不同之處是為保持與前文DAE預(yù)訓(xùn)練時隱藏層數(shù)值類型一致,這里隱藏層采用二進(jìn)制數(shù)值并服從高斯伯努利分布。進(jìn)入識別階段,可見層輸入說話人的i-vector,輸出端包含說話人信息的說話人因子作為PLDA模型(RBM-PLDA)的輸入來進(jìn)行得分比較。

圖4 DAE

圖5 RBM-PLDA

由以上分析可知,基于DAE是無損轉(zhuǎn)換和RBM的有效特征提取原理。考慮使用DAE和RBM混合的方法,第一層為DAE,經(jīng)白化和長度規(guī)整技術(shù)處理后輸出作為RBM的輸入,RBM與標(biāo)準(zhǔn)PLDA結(jié)合后組成判別模型,記為DAE-RBM-PLDA。系統(tǒng)框圖如圖6所示。

圖6 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA流程

3 實(shí)驗(yàn)與結(jié)果

本文采用TIMIT語料庫作為實(shí)驗(yàn)語音數(shù)據(jù)庫,采用等錯誤率(EER)和檢測代價函數(shù)(DCF)作為性能評價指標(biāo)。

在UBM i-vector系統(tǒng)中使用MFCC加一維能量及其一、二階差分共39維MFCC特征。語音幀長25 ms,幀移10 ms。DNN i-vector系統(tǒng)中DNN說話人特征為40維Filter Bank特征以及一、二階差分共120維。DNN共5個隱藏層,每層2 048個結(jié)點(diǎn)。首先比較了標(biāo)準(zhǔn)PLDA模型在UBM i-vector和DNN i-vector系統(tǒng)下的性能,實(shí)驗(yàn)證明DNN系統(tǒng)的識別性能比GMM-UBM系統(tǒng)顯著提高。之后以DNN i-vector的PLDA為基線系統(tǒng),性能對比如圖7和表1所示。

由表1實(shí)驗(yàn)結(jié)果可以看到,相對于標(biāo)準(zhǔn)PLDA模型系統(tǒng),應(yīng)用深度學(xué)習(xí)模型的DAE-PLDA和RBM-PLDA后端信道補(bǔ)償模型等錯誤率和檢測代價函數(shù)都顯著降低。將兩者結(jié)合后的DAE-RBM-PLDA模型,性能提升更加明顯,相對于基線系統(tǒng)性能提升了14.5%,體現(xiàn)了該信道補(bǔ)償方法的有效性。

圖7 模型性能柱狀圖

表1 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA性能比較

4 結(jié)論

本文結(jié)合DAE和RBM的優(yōu)點(diǎn)提出了基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償方法。該方法先把經(jīng)過白化和長度規(guī)整技術(shù)處理的i-vector進(jìn)行RBM預(yù)訓(xùn)練并初始化DAE模型,DAE的輸出為說話人所有語音段的平均i-vector,從而降低了說話人信道信息的影響。然后與RBM相結(jié)合,把DAE的輸出i-vector作為RBM的輸入,隱含層重構(gòu)分離出說話人信息和說話人信道信息,選擇實(shí)驗(yàn)需要的說話人信息進(jìn)行后端PLDA最終的似然比分?jǐn)?shù),進(jìn)一步降低了說話人的信道差異性。在TIMIT數(shù)據(jù)集上的說話人確認(rèn)實(shí)驗(yàn)表明結(jié)合了DAE和RBM兩者優(yōu)勢的DAE-RBM-PLDA模型,可有效提高識別率。

[1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1-3): 19-41.

[2] KENNY P,OUELLET P,DEHAK N,et al. A study of interspeakervariability in speaker verification[J]. IEEE Transaction on Audio,Speech, and Language Processing, 2008,16(5): 980-988.

[3] DEHAK N,KENNY P,DEHAK R,et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4): 788-798.

[4] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[5] VARIANI E, LEI X, MCDERMOTT E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014: 4052-4056.

[6] STAFYLAKIS T, KENNY P, SENOUSSAOUI M, et al. PLDA using gaussian restricted boltzmann machines with application to speaker verification[C].Interspeech, 2012: 1692-1695.

[7] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.

[8] NOVOSELOV S, PEKHOVSKY T, KUDASHEV O, et al. Non-linear PLDA for i-vector speaker verification[C].Interspeech, 2015: 214-218.

[9] HINTON G E. A practical guide to training restricted boltzmann machines[M].Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012: 599-619.

Technology of speaker verification channel compensation based on DAE-RBM-PLDA

Yin Zhufeng, Xu Zhijing

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

A hybrid model combining the deep neural network (DNN), i-vector and probabilistic linear discriminant analysis (PLDA) has been shown effective in the system of speaker recognition. In order to improve the performance of PLDA recognition model, the denoising autoencoder (DAE) and restricted boltzmann machine(RBM) and the combination of them(DAE-RBM) are used to channel compensation on PLDA model to minimize the effect of the speaker i-vector space channel information. The experiment showed that the recognition system based on DAE-PLDA and RBM-PLDA is significantly decreased than the standard PLDA for the equal error rate(EER) and detection function(DCF). The DAE-RBM-PLDA which combined with the advantages of them makes the performance of the recognition system has been further improved.

speaker recognition; i-vector; denoising autoencoders; restricted boltzmann machine

國家自然科學(xué)基金項(xiàng)目(61404083)

TP391

A

10.19358/j.issn.1674- 7720.2017.15.018

尹主峰,徐志京.基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償技術(shù)[J].微型機(jī)與應(yīng)用,2017,36(15):62-64,72.

2017-03-02)

尹主峰(1986-),男,碩士研究生,主要研究方向:智能信息處理。

徐志京(1972-),男,工學(xué)博士,副教授,主要研究方向:無線通信和導(dǎo)航技術(shù)、人工智能、深度學(xué)習(xí)。

猜你喜歡
信息模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲精品国产自在现线最新| 亚洲欧美精品在线| 2020亚洲精品无码| 波多野吉衣一区二区三区av| 亚洲欧洲天堂色AV| 亚洲欧洲日产无码AV| 午夜福利在线观看成人| 91丨九色丨首页在线播放| 亚洲最大福利视频网| 国产一区二区三区日韩精品| 国产大片黄在线观看| 在线观看国产精品第一区免费| 亚洲天堂区| 人妻夜夜爽天天爽| 看看一级毛片| 尤物视频一区| 国产午夜一级淫片| 日韩专区第一页| 国产精品无码AV中文| 色久综合在线| 蜜桃臀无码内射一区二区三区 | 成人午夜免费观看| 国产精品极品美女自在线看免费一区二区| 国产亚洲高清视频| 一区二区三区四区日韩| 日本精品αv中文字幕| 天堂岛国av无码免费无禁网站 | 亚洲男人的天堂久久香蕉网| 四虎影视库国产精品一区| 国产一区二区福利| 欧美久久网| 九九视频免费在线观看| 日韩区欧美区| 色成人亚洲| 欧美国产日产一区二区| 婷婷六月色| 97se亚洲综合在线韩国专区福利| 欧美中文字幕在线二区| 影音先锋丝袜制服| 久久久久久高潮白浆| 欧美日韩精品在线播放| 在线观看的黄网| 自偷自拍三级全三级视频| www精品久久| 欧美精品亚洲精品日韩专区va| 亚洲91在线精品| 狠狠色综合久久狠狠色综合| 九九香蕉视频| 狠狠亚洲婷婷综合色香| 天天综合网色| 亚洲一区二区三区国产精品 | 日韩欧美国产另类| 亚洲妓女综合网995久久| 国产精品性| 欧洲欧美人成免费全部视频| 亚洲成a∧人片在线观看无码| 欧美色综合久久| 亚洲精品波多野结衣| 午夜a视频| 91一级片| 中文字幕调教一区二区视频| 极品国产在线| 欧美性色综合网| 日韩福利视频导航| 成年片色大黄全免费网站久久| 国产成人综合日韩精品无码首页 | 91在线播放免费不卡无毒| 99精品国产自在现线观看| 亚洲三级成人| 欧美一级高清片久久99| 亚洲欧美色中文字幕| 欧美一级视频免费| av大片在线无码免费| 熟妇人妻无乱码中文字幕真矢织江 | 2024av在线无码中文最新| 91视频精品| AV不卡无码免费一区二区三区| 成人久久精品一区二区三区| 一本一道波多野结衣av黑人在线| 色偷偷综合网| av一区二区三区在线观看| 在线国产欧美|