999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大津算法和深度學(xué)習(xí)的開集聲紋識(shí)別自適應(yīng)閾值計(jì)算方法

2021-07-15 02:01:04李旭東周林華
關(guān)鍵詞:深度特征模型

李旭東, 周林華

(長(zhǎng)春理工大學(xué) 理學(xué)院, 長(zhǎng)春 130022)

聲紋識(shí)別是根據(jù)人體自身聲音特征識(shí)別身份的一種生物認(rèn)證技術(shù)[1]. 基于聲紋識(shí)別的數(shù)據(jù)集, 聲紋識(shí)別可分為閉集和開集兩類. 關(guān)于閉集聲紋識(shí)別的研究目前已取得了許多成果, 但關(guān)于開集聲紋識(shí)別的研究報(bào)道較少且難度較大. 在實(shí)際應(yīng)用中, 很難選擇出一個(gè)閾值判斷測(cè)試樣本是否存在于訓(xùn)練集中, 而所選閾值是否合適直接影響模型識(shí)別的準(zhǔn)確性. 目前較經(jīng)典的閾值有固定閾值[2-3]、 自適應(yīng)動(dòng)態(tài)閾值[4]和RS閾值[5-6]. 開集聲紋識(shí)別系統(tǒng)中基于得分規(guī)整法[7-8]、 兩級(jí)決策的說(shuō)話人辨認(rèn)法[9]等方法已取得了一定的成果, 但實(shí)際應(yīng)用中還存在特征參數(shù)提取、 模型算法的缺陷、 閾值計(jì)算等諸多問(wèn)題. 因此, 本文結(jié)合深度置信網(wǎng)絡(luò)(DBN)從Mel倒譜系數(shù)(MFCC)中提取語(yǔ)音深層特征, 通過(guò)Gauss混合模型(GMM)計(jì)算特征的相似度值, 并在此基礎(chǔ)上提出一種基于大津算法的自適應(yīng)閾值計(jì)算方法, 最后計(jì)算出測(cè)試集上的精確度和召回率作為本文方法的性能評(píng)價(jià)指標(biāo).

1 基于大津算法的閾值計(jì)算

大津算法(Otsu)[10-12]是在判別分析或最小二乘原理基礎(chǔ)上推導(dǎo)出來(lái)的. 基于Otsu算法的思想, 將空間分布有一定距離的兩組不同隨機(jī)變量產(chǎn)生的隨機(jī)數(shù)集合分為A,B兩部分, 遍歷閾值得到的類間方差越大, 表示分割效果越好.

對(duì)于總數(shù)為N的隨機(jī)數(shù)集合, 用L表示隨機(jī)數(shù)的最大值,ni表示隨機(jī)數(shù)為i的個(gè)數(shù),pi表示隨機(jī)數(shù)為i的概率, 則

(1)

(2)

將屬于集合A的數(shù)占總隨機(jī)數(shù)的比例記作ω0, 其平均值記作μ0, 則

(3)

將屬于集合B的數(shù)占總隨機(jī)數(shù)的比例記作ω1, 其平均值記作μ1, 則

(4)

集合A,B的方差表示為

(5)

從而可得隨機(jī)數(shù)集合的類內(nèi)方差為

(6)

類間方差為

(7)

最佳閾值T是使分離度η(T)最大時(shí)的數(shù)值, 表示為

(8)

2 深度特征提取與GMM相似度值計(jì)算

2.1 基于深度置信網(wǎng)絡(luò)的深度聲紋特征提取

深度置信網(wǎng)絡(luò)是由多層受限Boltzmann機(jī)(RBM)堆疊再加一層分類器而形成的一種深度學(xué)習(xí)模型, 深度置信網(wǎng)絡(luò)可發(fā)現(xiàn)特征之間的相互聯(lián)系, 選擇并組合特征, 從而提高特征的表征能力, 因此可作為聲紋特征的深度特征提取器[13-14]. RBM是一種基于統(tǒng)計(jì)熱力學(xué)原理的神經(jīng)網(wǎng)絡(luò), 通常情況下, 聲紋特征提取采用Gauss-Bernoulli RBM模型[15].

2.1.1 Gauss-Bernoulli RBM模型

RBM由兩層神經(jīng)元構(gòu)成: 一層是顯層神經(jīng)元vi, 用于表示輸入數(shù)據(jù); 另一層是隱層神經(jīng)元hj, 用于表示通過(guò)對(duì)輸入數(shù)據(jù)學(xué)習(xí)得到的內(nèi)在特征.兩層神經(jīng)元間全連接, 同一層神經(jīng)元間無(wú)連接.如果一個(gè)RBM有n個(gè)顯層神經(jīng)元,m個(gè)隱層神經(jīng)元, 則Gauss-Bernoulli RBM的能量定義為

(9)

其中θ={wij,ai,bj,σi}是RBM的參數(shù),wij表示第i個(gè)顯層神經(jīng)元與第j個(gè)隱層神經(jīng)元之間的權(quán)重,ai和bj表示對(duì)應(yīng)的偏置,σi表示顯層神經(jīng)元的標(biāo)準(zhǔn)差.基于式(9)的能量函數(shù), 可得(v,h)的聯(lián)合概率分布為

(10)

其中Z(θ)為配分函數(shù), 用于歸一化, 通過(guò)顯層神經(jīng)元和隱層神經(jīng)元所有可能分配的能量計(jì)算.訓(xùn)練RBM時(shí), 由于顯層神經(jīng)元之間和隱層神經(jīng)元之間是條件獨(dú)立的, 因此v和h的條件分布如下:

(11)

(12)

為解決RBM的訓(xùn)練速度問(wèn)題, 基于對(duì)比散度算法(CD)[16]得到RBM各參數(shù)的更新準(zhǔn)則:

Δwij=ε(〈vihj〉data-〈vihj〉recon),

(13)

其中ε表示學(xué)習(xí)率, 〈〉data表示模型的期望, 〈〉recon表示通過(guò)Gibbs采樣初始化數(shù)據(jù)得到的樣本分布期望.

2.1.2 RBM的訓(xùn)練

對(duì)一個(gè)多層DBN訓(xùn)練時(shí), 先通過(guò)從語(yǔ)音中提取的MFCC作為第一個(gè)RBM的輸入, 并采用無(wú)監(jiān)督學(xué)習(xí)方式逐一訓(xùn)練RBM, 將訓(xùn)練好的RBM堆疊在一起, 作為DBN的預(yù)訓(xùn)練. 然后利用BP(back propagation)算法對(duì)DBN各層參數(shù)進(jìn)行微調(diào), 將誤差反向傳遞對(duì)其進(jìn)行修正.

2.1.3 聲紋深度特征提取

對(duì)輸入的原始24維MFCC特征做歸一化預(yù)處理, 使每個(gè)說(shuō)話人的特征分布滿足μi=0及σi=1, 從而避免訓(xùn)練樣本分布的重新估計(jì). 深度神經(jīng)網(wǎng)絡(luò)由3個(gè)RBM構(gòu)成, 網(wǎng)絡(luò)結(jié)構(gòu)為24-256-256-256, 輸出層是Softmax函數(shù), 聲紋深度特征輸出層取最后一個(gè)隱藏層, 經(jīng)過(guò)此網(wǎng)絡(luò)即可將24維的MFCC特征轉(zhuǎn)化為256維的深度聲學(xué)特征. 聲紋深度特征提取網(wǎng)絡(luò)如圖1所示.

圖1 聲紋深度特征提取網(wǎng)絡(luò)Fig.1 Voiceprint deep feature extraction network

2.2 GMM相似度值計(jì)算

將DBN提取到的深度聲學(xué)特征作為Gauss混合模型的輸入, 每個(gè)說(shuō)話人的語(yǔ)音信號(hào)都在特定空間形成了特定分布, 可用這些分布描述說(shuō)話人的個(gè)性特征. 通過(guò)訓(xùn)練GMM可得到屬于集內(nèi)說(shuō)話人與屬于集外說(shuō)話人的具有很高區(qū)分度的GMM相似度值.

GMM是一個(gè)可以用權(quán)重系數(shù)和為1的若干個(gè)Gauss分布表示一個(gè)說(shuō)話人不同語(yǔ)音的模型[17-18]. 設(shè)某個(gè)說(shuō)話人的輸入語(yǔ)音特征為X={x1,x2,…,xN},xi是D維特征矢量, 則以該語(yǔ)音特征訓(xùn)練混合度為M的GMM可表示為

(14)

其中:wk為對(duì)應(yīng)pk(xi|θk)的加權(quán)因子;pk(xi|θk)為第k個(gè)單Gauss分布模型, 且滿足

(15)

式中uk是均值,Σk為協(xié)方差矩陣.因此, GMM可用參數(shù)θ={wk,uk,Σk}表示.

由于模型中存在隱變量不易進(jìn)行參數(shù)求解, 因此通常采用最大期望(EM)算法進(jìn)行參數(shù)求解:

(16)

(17)

3 基于大津算法的開集說(shuō)話人識(shí)別實(shí)驗(yàn)

3.1 語(yǔ)音數(shù)據(jù)集及聲學(xué)特征

實(shí)驗(yàn)所用音頻為清華大學(xué)CSLT公開的中文語(yǔ)音數(shù)據(jù)(THCHS-30). 為找到效果最佳的模型及模型所對(duì)應(yīng)的參數(shù), 本文將數(shù)據(jù)分為訓(xùn)練集、 開發(fā)集和測(cè)試集, 其中訓(xùn)練集8人(8人均為集內(nèi)), 每人8條音頻; 開發(fā)集與訓(xùn)練集為相同的8人, 每人20條音頻; 測(cè)試集3人(1人集內(nèi), 2人集外), 每人60條音頻. 實(shí)驗(yàn)分為5組, 每組實(shí)驗(yàn)依次選擇2人作為集外說(shuō)話人, 其余8人輪流作為目標(biāo)說(shuō)話人建模, 共進(jìn)行40次實(shí)驗(yàn).

3.2 基于DBN-GMM的大津算法閾值確定方法

在某說(shuō)話人的DBN-GMM中, 經(jīng)檢驗(yàn)屬于該說(shuō)話人的特征相似度值近似服從正態(tài)分布, 而其他說(shuō)話人的特征相似度值近似服從伽馬分布, 如圖2所示. 由于實(shí)際能參與訓(xùn)練的語(yǔ)音較少, 特征相似度值不足以準(zhǔn)確表征相似度值的分布情況, 故根據(jù)該說(shuō)話人與其他說(shuō)話人的相似度值所服從的分布產(chǎn)生兩個(gè)隨機(jī)數(shù)集合, 如圖3所示. 由圖3可見(jiàn), 相似度值直方圖存在兩個(gè)波峰, 根據(jù)大津算法原理必存在能最合理劃分集內(nèi)與集外的最佳閾值.

圖2 集內(nèi)外相似度值分布Fig.2 Distribution of similarity values of inside and outside set

圖3 相似度值直方圖Fig.3 Histogram of similarity values

基于DBN-GMM的大津算法閾值確定方法實(shí)現(xiàn)步驟如下:

1) 將24維基本聲學(xué)特征MFCC經(jīng)DBN訓(xùn)練得到256維深度聲學(xué)特征;

2) 將256維深度聲學(xué)特征作為GMM的輸入, 計(jì)算特征的相似度值, 記集外特征相似度值的均值為L(zhǎng)1, 集內(nèi)信號(hào)相似度值的均值為L(zhǎng)2, 并根據(jù)相似度值檢驗(yàn)集內(nèi)與集外相似度值符合的分布;

3) 根據(jù)該說(shuō)話人與其他說(shuō)話人相似度值符合的分布各產(chǎn)生10 000個(gè)隨機(jī)數(shù), 限制條件為其他說(shuō)話人產(chǎn)生隨機(jī)數(shù)的最大值不大于該說(shuō)話人相似度值的最小值, 該說(shuō)話人產(chǎn)生隨機(jī)數(shù)的最小值不小于其他說(shuō)話人相似度值的最大值;

5) 在區(qū)間(L1,L2)內(nèi)遍歷T, 并重復(fù)步驟4)計(jì)算出分離度η(T);

6) 取分離度η(T)最大時(shí)的T, 即為所求最佳閾值.

3.3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文算法對(duì)集內(nèi)說(shuō)話人和集外說(shuō)話人的識(shí)別能力, 采用精確度和召回率作為評(píng)價(jià)指標(biāo), 計(jì)算公式為

(18)

(19)

其中TP表示將屬于集內(nèi)說(shuō)話人的樣本正確預(yù)測(cè)為集內(nèi)說(shuō)話人樣本的數(shù)量, FP表示將屬于集外說(shuō)話人的樣本錯(cuò)誤預(yù)測(cè)為集內(nèi)說(shuō)話人樣本的數(shù)量, FN表示將屬于集內(nèi)說(shuō)話人的樣本錯(cuò)誤預(yù)測(cè)為集外說(shuō)話人樣本的數(shù)量.

精確度反映對(duì)集外說(shuō)話人的拒識(shí)能力, 召回率反映對(duì)集內(nèi)說(shuō)話人的識(shí)別能力. 圖4為Otsu和EER的精確度對(duì)比, 圖5為Otsu和EER的召回率對(duì)比. 由圖4和圖5可見(jiàn): 在與大津算法計(jì)算閾值算法相同的實(shí)驗(yàn)環(huán)境下, 等錯(cuò)誤率計(jì)算閾值的算法對(duì)于集內(nèi)說(shuō)話人的識(shí)別率為99.18%, 對(duì)集外說(shuō)話人的拒識(shí)率為98.54%; 本文算法對(duì)集內(nèi)說(shuō)話人的識(shí)別率為99.32%, 對(duì)集外說(shuō)話人的拒識(shí)率為100%. 因此, 本文提出的自適應(yīng)閾值計(jì)算方法無(wú)論是對(duì)集內(nèi)說(shuō)話人的識(shí)別還是集外說(shuō)話人的拒識(shí)都優(yōu)于傳統(tǒng)的等錯(cuò)誤率法.

圖4 Otsu和EER的精確度對(duì)比Fig.4 Accuracy comparison of Otsu and EER

圖5 Otsu和EER的召回率對(duì)比Fig.5 Comparison of recall rate of Otsu and EER

綜上所述, 本文研究了開集聲紋識(shí)別閾值的計(jì)算方法, 提出了一種基于大津算法的開集聲紋識(shí)別動(dòng)態(tài)閾值計(jì)算模型. 首先, 構(gòu)建DBN模型作為深度聲學(xué)特征提取器, 通過(guò)GMM計(jì)算特征的相似度值; 其次, 采用大津算法計(jì)算特征相似度值的最大分離度確定閾值; 最后, 在CSLT公開的語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行測(cè)試驗(yàn)證. 實(shí)驗(yàn)結(jié)果表明, 本文計(jì)算閾值的算法較等錯(cuò)誤率計(jì)算閾值的算法具有更高的識(shí)別準(zhǔn)確率, 該方法可行、 有效.

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 91丝袜乱伦| 久久九九热视频| 成人国产小视频| 99久久精品视香蕉蕉| 日韩欧美中文在线| 亚洲三级成人| 色噜噜中文网| 国产一级视频在线观看网站| 国产网友愉拍精品视频| 波多野结衣视频一区二区| 国产农村1级毛片| 国产第一页第二页| 亚洲无码日韩一区| 自慰高潮喷白浆在线观看| 国产高清又黄又嫩的免费视频网站| 国产交换配偶在线视频| 国产a v无码专区亚洲av| 国产喷水视频| 亚洲精品波多野结衣| 国产在线无码av完整版在线观看| 日本免费a视频| 97久久人人超碰国产精品| 亚洲码在线中文在线观看| 真实国产乱子伦高清| 精品无码一区二区在线观看| 午夜成人在线视频| 国产成人综合日韩精品无码首页| AV无码一区二区三区四区| 亚洲a免费| 深爱婷婷激情网| 欧美国产综合视频| 亚洲国产高清精品线久久| 大香伊人久久| 少妇精品在线| 狼友视频一区二区三区| 亚洲欧美日韩另类在线一| 欧美日韩北条麻妃一区二区| 精品一区二区三区自慰喷水| 亚洲无限乱码| 亚洲爱婷婷色69堂| 日本五区在线不卡精品| 福利姬国产精品一区在线| 19国产精品麻豆免费观看| 免费在线色| 一级香蕉视频在线观看| 熟妇丰满人妻| 91成人在线免费视频| 国产无遮挡猛进猛出免费软件| a级毛片免费看| 久久香蕉国产线| 中文字幕天无码久久精品视频免费| 欧美在线天堂| 亚洲天堂色色人体| 久久久久亚洲av成人网人人软件| 日本高清免费一本在线观看| 欧美性爱精品一区二区三区 | 毛片免费高清免费| 日韩免费毛片| 91视频99| 亚洲欧洲一区二区三区| 欧美视频在线第一页| 97se亚洲综合不卡| 亚洲无线一二三四区男男| 99视频精品全国免费品| 婷婷亚洲天堂| 无码网站免费观看| 亚洲αv毛片| 国产精品亚洲欧美日韩久久| 永久成人无码激情视频免费| 凹凸精品免费精品视频| 永久免费无码日韩视频| 无码内射在线| 日韩欧美成人高清在线观看| 亚洲日本在线免费观看| 99久久免费精品特色大片| 国产成人在线无码免费视频| 欧美成人亚洲综合精品欧美激情| 欧美日韩午夜| 亚洲日本中文综合在线| 人妻丰满熟妇av五码区| 三区在线视频| 九九热在线视频|