999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深層信息散度最大化的說話人確認方法

2021-08-16 10:46:36陳晨肜婭峰季超群陳德運何勇軍
通信學報 2021年7期
關鍵詞:特征方法

陳晨,肜婭峰,季超群,陳德運,何勇軍

(1.哈爾濱理工大學計算機科學與技術學院,黑龍江 哈爾濱 150080;2.哈爾濱理工大學計算機科學與技術博士后流動站,黑龍江 哈爾濱 150080)

1 引言

近年來,以生物識別技術為基礎的身份認證方式正在逐漸取代傳統的靜態身份認證手段。隨著科技的發展,以指紋識別、人臉識別及說話人確認為代表的一系列生物識別技術已在多種認證場景中取得了較廣泛的應用。其中,說話人確認技術能夠根據說話人的聲音特性來有效識別其身份。由于每個人在說話過程中所蘊含的語音特質與發音習慣幾乎獨一無二,因此說話人確認技術兼具生理特性與行為特性,從而使其相較于其他生物識別技術的仿冒難度更大、安全性更高[1]。與此同時,“無接觸”的說話人確認技術能夠有效阻斷“人傳人”的傳播鏈條,為個人健康提供更可靠的保障。

說話人確認能夠通過對說話人語音信號的分析處理,來充分結合知識、數據、算法與算力,是邁向第三代人工智能[2]的典型代表。如何從大量語音數據中凝練出準確的說話人身份信息,則是說話人確認任務中最值得關注的研究焦點。為此,需要深入研究能夠直接代表說話人身份特性的特征表示問題,研究者也針對該問題提出了大量有效的說話人特征表示學習模型。其中,以身份?矢量(I-vector,identity-vector)[3]方法為基礎的一系列特征空間學習方法應運而生,它們均能將具有不同時長的語音信號映射為固定維度的低秩I-vector 特征表示。在這類方法中,因子分析(FA,factor analysis)[4]、廣義變化模型(GVM,generalized variability model)[5]、任務驅動多層結構(TDMF,task-driven multilevel framework)[6]等方法為典型代表。此外,為了去除語音信號中的會話差異性信息(如語音內容間的差異、噪聲、信道畸變等),還需要對I-vector 特征進行會話補償[7-8]等操作。

除此之外,隨著深度神經網絡在圖像處理、音頻處理等方面取得的突破進展,基于深度神經網絡的特征表示方法也逐漸出現在說話人確認研究中。例如,D-vector 方法[9]采用深度神經網絡(DNN,deep neural network)來提取說話人語音對應的嵌入(embedding)特征,為端到端(E2E,end-to-end)說話人確認方法的發展奠定了基礎。X-vector 方法[10-11]則利用時延神經網絡(TDNN,time-delay neural network)[12]、統計池化層與全連接層來提取表示說話人身份的X-vector 特征。由于X-vector 方法能夠取得優良的性能,在此基礎上又出現了基于分解TDNN(F-TDNN,factorized TDNN)[13]、擴展TDNN(E-TDNN,extended TDNN)[14]、聚合殘差擴展TDNN(ARE-TDNN,aggregated residual extended TDNN)[15]以及稠密連接TDNN(DC-TDNN,densely connected TDNN)[16]的X-vector 特征提取方法。此外,視覺幾何組?中等(VGG-M,visual geometry group-medium)[17]網絡則通過多層的卷積層與池化層的疊加來進行說話人特征表示的學習。以上方法均通過構建不同的網絡結構來學習說話人的特征表示,考慮到目標函數能夠對網絡描述能力的提升起到重要的指導作用,因此,設計出有的放矢的目標函數能夠使所提取的特征更適用于當前任務。在這些目標函數中,一類目標函數以多分類為目標,例如softmax 損失、交叉熵損失(CE loss,cross entropy loss);另一類目標函數以度量特征表示之間的相似度為目標,例如對比損失(contrastive loss)[18]與三元組損失(triplet loss)[19-20]等。也有一些目標函數在多分類目標的基礎上加入度量學習的限制,例如角 softmax(A-softmax,angular softmax)損失[21-22]、加性邊沿softmax(AM-softmax,additive margin softmax)損失[23]與加性邊沿質心(AM-centroid,additive margin centroid)損失[24]等。

由于目標函數是整個任務目標的最直觀體現,它能直接影響網絡參數的優化方向,因此一個優秀的目標函數將為網絡的特征表示能力帶來大幅提升。目前,說話人確認研究中所采用的目標函數均基于這一原則取得了卓有成效的成績。然而,說話人的類別不勝枚舉,并無法保證訓練數據能夠涵蓋全部待識別語音的類別,因此采用以多分類為目標的目標函數往往會導致模型的泛化能力不強;反之,以度量學習為目標的目標函數則通過分別控制同類、異類說話人深層特征間的相關性,來驅使網絡朝著提升類內相似性與類間差異性的方向優化,從而為網絡帶來更強的泛化性與普適性。目前,基于度量學習的目標函數大多僅通過簡單的歐氏距離或余弦距離來衡量特征間的相關性,并無法準確捕獲特征間復雜的非線性關系。而此非線性關系才是特征間相關性的真實寫照,其對特征在特征空間的可區分性表示具有十分重要的指導性作用。因此,如何有效度量這種非線性關系是目前亟待解決的關鍵問題。

針對上述問題,考慮到非線性關系無法通過顯性的表達式進行表示,但能夠以計算特征所在分布之間相似度的方式進行隱性表示,因此本文將能夠計算分布間相似度的信息散度(ID,information divergence)[25-26]引入目標函數的表示過程中,提出基于深層信息散度最大化的說話人確認方法。其將最大化特征之間的統計相關性作為優化目標,并以此來控制神經網絡挖掘同類特征之間必然存在的相容性信息、提升異類特征在特征空間的差異性,最終有效提升深層特征空間的區分性。

2 深層信息散度理論

2.1 信息散度表示

在說話人確認任務中,目標函數的定義對區分性網絡學習具有至關重要的作用。同時,由于說話人確認系統應具備開集測試的能力,因此定義基于同類、異類說話人間關系的目標函數能夠為網絡的學習提供普適性更強的下游任務目標。值得注意的是,傳統基于距離的相似度度量方式無法有效表示特征間的非線性關系。為此,本文構建了一種基于深層信息散度的目標函數,其能夠有效度量同類、異類說話人特征所在分布之間的差異性,從而更加準確地刻畫深層特征間的抽象關系。在此目標函數的指導下,神經網絡能夠向著同類更緊湊、異類更分離的方向進行優化。

定義s表示隨機采樣的樣本組,其由2 個深層特征組成。當樣本組中的特征屬于同類時,它們的聯合分布為P(s)=P(za,zp);當屬于異類時,它們的聯合分布為Q(s)=Q(za,zn),其中za、zp、zn分別表示固定(anchor)樣本、正例(positive)樣本、負例(negative)樣本。由于同類、異類樣本分布間的差異應盡可能大,因此本文通過最大化P(s)與Q(s)間的ID 來達到提升同類、異類差異的目標,此信息散度可以表示為

對式(1)進行等價變換,可以得到

定義f(x)=xl ogx,其中,則式(2)可以轉換為

其中,函數f(x)可以由其共軛函數f*(t)進行表示,具體形式為

由式(4)可推導出,f(x)=xl ogx的共軛函數為f*(t)=et?1。由于每個x都有與其對應的t,因此t是關于x的函數,本文將其表示為t=d(x)。將f*(t)與d(x)同時代入式(4),可以得到

將式(5)代入式(3),則P(s)與Q(s)分布之間的信息散度可以進一步表示為

至此,便得到了基于信息散度表示的目標函數的一般形式。其中,P(s)Q(s)為正、負樣本組的似然比,是說話人確認中最常見的評價指標之一,當函數d(?)作用于其上時,所得到的新形式仍可用于衡量2 個樣本間相關性。

2.2 目標函數表示

本節將在第2.1 節的基礎上,進一步展開討論函數d(?)的具體形式。當s~P(s)時,s為正例樣本組;當s~Q(s)時,s為負例樣本組。因此Es~P(s)[d(?)]與 Es~Q(s){exp[d(?) ?1]}分別對應了正、負例樣本組的相關性。基于此,式(6)可以進一步表示為

為了使d(?)繼承似然比的作用,其仍然應該具備相似度計算的功能。基于此,本文將其定義為余弦距離打分(CDS,cosine distance score)的形式

在網絡結構設置方面,考慮到VGG-M 網絡[17]作為說話人確認領域中的經典網絡之一,能夠取得良好的性能,且已經得到了很多研究者的實驗驗證,因此本文采用VGG-M 網絡進行特征表示學習。網絡輸入采用語譜圖特征,對輸入特征進行隨機的三元組采樣,得到樣本xa、xp、xn,它們經VGG-M得到的嵌入特征分別表示為、

圖1 基于深層信息散度最大化與VGG-M 網絡的結構

3 實驗分析

3.1 數據庫與評價指標

本文實驗采用VoxCeleb1 數據庫[17]對不同方法的性能進行對比與分析,該數據庫的全部音頻選自YouTube 視頻網站,是來自復雜場景下的真實語音,包含大量未知噪聲。使用該數據庫官方說話人確認任務的劃分方案:將說話人中不以字母“E”開頭的說話人語音作為開發集數據,其中包含1 211 位說話人、148 642 段語音;以字母“E”開頭的說話人語音作為評估集數據,其中包含50 位說話人、4 874 段語音。測試時采用官方測試計劃,總測試數為37 720 次,目標測試與非目標測試比為1:1。實驗采用等錯誤率(EER,equal error rate)與最小檢測代價函數(Min DCF,minimum detection cost function)來衡量系統的性能,其中Min DCF 的參數設置為Cmiss=1,Cfa=1,Ptarget= 0.01。

為了驗證信息散度最大化目標函數的有效性,本文根據如上所述的數據庫與實驗設置,分別從性能對比與分析、收斂性分析、可視化分析3 個角度進行實驗。

3.2 性能對比與分析

本節將所提方法(簡記為ID-max VGG-M)與其他方法的識別性能進行對比。對比方法除了選擇2 個經典的說話人確認方法,即高斯混合模型?通用背景模型(GMM-UBM,Gaussian mixture model-universal background model)[27]、基于因子分析的I-vector 方法[3]外,還選擇了如下基于深度學習的方法:采用對比(contrastive)損失的孿生(siamese)VGG-M 網絡[17]、采用三元組(triplet)損失[19]的VGG-M 網絡與采用AM-softmax 損失[23]的VGG-M 網絡。為了便于書寫,本文將上述方法分別簡記為GMM-UBM、I-vector+PLDA、Siamese VGG-M、Triplet VGG-M 與AM-softmax VGG-M。

在經典方法的實驗中,先對各說話人語音進行語音活動檢測處理[28],以去除語音中的靜音部分,然后進行特征提取。前端特征采用梅爾倒譜系數(MFCC,Mel-frequency ceptral coefficient)特征,其維度為13 維,并計算其一階、二階差分,組成39 維的聲學特征。通用背景模型(UBM,universal background model)的高斯混合分量個數為1 024,總變化空間維度為400 維,概率線性判別分析模型(PLDA,probabilistic linear discriminant analysis)的子空間維度為200 維。在識別階段,GMM-UBM 通過計算測試語音在目標說話人GMM 上的似然概率密度來獲得匹配得分;I-vector+PLDA 方法采用PLDA 模型作為后端分類器;Siamese VGG-M、Triplet VGG-M 與AM-softmax VGG-M 方法采用CDS 方法進行說話人確認匹配。

在深度學習方法的實驗中,網絡的輸入為語譜圖特征,為了保證實驗對比的公平性與有效性,其參數設置與文獻[17]一致,即滑動窗的窗長設置為25 ms,幀移為10 ms,快速傅里葉變換的點數為512 個。基于此,對于一段3 s 的語音,可以提取512×300 維的語譜圖特征。對于VGG-M 網絡,其結構同樣采用文獻[17]中的設置,最后一層全連接層的節點數為1 024 個,由此可得說話人深層特征表示的維度為1 024 維。訓練VGG-M 網絡的優化器采用隨機梯度下降(SGD,stochastic gradient descent)算法,學習率與迭代次數則根據多次的參數調優來確定,最終選擇性能最佳時對應的初始學習率、最終學習率與迭代次數,分別為0.001、0.000 1與80。根據上述實驗設置,不同方法對應的系統性能情況如表1 所示。

表1 不同方法的性能對比

由表1 的實驗結果可以得出,相比于其他方法,本文提出的ID-max VGG-M 方法具有更低的EER。其與Siamese VGG-M 方法、Triplet VGG-M 方法、AM-softmax VGG-M 方法3 種方法相比,相對EER分別降低了10.1%、15.8%、14.3%。這也這也驗證了本文所提出的ID-max 目標函數能夠指導網絡學習更具表示能力的說話人深層特征。

3.3 收斂性分析

本節將對ID-max VGG-M 方法的收斂性進行驗證與分析,通過記錄每次VGG-M 網絡訓練時在評估集數據上的EER,來繪制收斂性曲線。根據上述的實驗設置,4 種方法的收斂性曲線如圖2所示。

圖2 收斂性曲線對比

從圖2 中可得到以下結論。

1) 從整體上看,隨著迭代次數的增加,這4 種方法對應的等錯誤率呈下降趨勢,系統性能逐漸上升。相比于其他3 種方法,ID-max VGG-M 方法的等錯誤率更低。

2) 這4 種方法均能夠在有限的迭代次數內達到收斂狀態,其中ID-max VGG-M 方法在第79 次迭代時,等錯誤率達到最低,為6.61%,這是說話人確認系統最優的性能。

3.4 可視化分析

本節將采用t-SNE 方法[29]對提取的深層特征表示(embedding)進行2D 可視化處理,其中t-SNE初始降維的維度為30 維,困惑度為10。在評估集中隨機選擇5 位說話人,并從這5 位說話人的全部數據中隨機選擇80 段語音,各方法均采用以上設置進行數據選擇。根據上述設置,不同方法對應的可視化圖像如圖3 所示,其中,不同灰度的點代表不同說話人。將所對比方法的說話人特征表示分別記為I-vector 特征、PLDA 說話人隱變量、Siamese VGG-M embedding 特征、Triplet VGG-M embedding特征、AM-softmax VGG-M embedding 特征與ID-max VGG-M embedding 特征。

由圖3 中的實驗結果可以得出以下結論。

1) 由圖3(a)與圖3(b)可知,相同類別的說話人特征能夠在一定程度上聚集在一起,這是因為經典的I-vector 特征與PLDA 隱變量已具有一定的區分能力。但是同類數據仍然較分散,異類數據之間也有相互交疊。

2) 對比圖3(c)、圖3(d)與圖3(f)可知,圖3(f)中的同類特征點更加緊湊。矩形框1 內的這一現象尤其明顯:圖3(c)與圖3(d)中的特征點分散在多個簇內,而圖3(f)中的特征點則相對更加集中。

3) 由圖3(e)與圖3(f)可知,與ID-max 目標函數相比,當以AM-softmax 為目標函數提取說話人特征時,同類特征點在空間中仍然較分散,圖3(e)矩形框2 中的特征點分散得尤其明顯。

圖3 說話人特征表示的可視化圖像對比

由此可見,本文提出的基于深層信息散度最大化的目標函數能夠使同類的說話人特征表示更加緊湊,異類的特征更加分散。由此得到的說話人特征表示的區分性更強,相應說話人確認系統的性能也能更優。

4 結束語

本文提出一種基于深層信息散度最大化的目標函數表示方法,其將最大化同類、異類說話人特征表示所在分布之間的信息散度作為優化目標,挖掘其中存在的非線性關聯信息。并以此來控制神經網絡挖掘同類樣本之間相關性信息,從而有效提升不同說話人數據在特征空間的區分性。實驗結果表明,與其他方法相比,所提方法能夠有效改善說話人確認系統的性能。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久精品国产亚洲AV忘忧草18| 亚洲国产无码有码| 亚洲天堂首页| 在线观看免费国产| 日韩国产综合精选| 亚洲第一页在线观看| 美女啪啪无遮挡| 久久无码高潮喷水| 熟妇丰满人妻av无码区| 国产美女丝袜高潮| 一级黄色网站在线免费看| 国产又爽又黄无遮挡免费观看| 91 九色视频丝袜| 高清不卡一区二区三区香蕉| 久久性妇女精品免费| 国产成人毛片| 国产成人亚洲欧美激情| 成人综合在线观看| 欧美三级日韩三级| 99精品高清在线播放| 青青草91视频| 99在线视频免费观看| 久草国产在线观看| 日本免费福利视频| 毛片在线区| 99久久精品免费观看国产| 青青操国产| 国产理论精品| 亚洲一区精品视频在线| 国产亚洲视频免费播放| 在线观看精品自拍视频| 亚洲永久色| 国产菊爆视频在线观看| 91色老久久精品偷偷蜜臀| 色综合a怡红院怡红院首页| 无码国产偷倩在线播放老年人| 亚洲精品老司机| 91成人在线免费观看| 99青青青精品视频在线| 九九九九热精品视频| 欧类av怡春院| 少妇露出福利视频| 91久久国产热精品免费| 亚洲免费人成影院| 国产成人成人一区二区| 一级福利视频| 亚洲日韩高清在线亚洲专区| 婷婷综合缴情亚洲五月伊| 国产精品美乳| 欧美日韩国产综合视频在线观看| 婷婷久久综合九色综合88| 国产第二十一页| 欧美成人在线免费| 一区二区三区在线不卡免费| h网址在线观看| 精品国产成人av免费| 二级特黄绝大片免费视频大片| 国产黄网站在线观看| 日韩乱码免费一区二区三区| 伊人久久大香线蕉综合影视| 成年人国产视频| 国产精品视频3p| 日韩精品毛片| 国产成人一区| 国产国拍精品视频免费看 | 亚洲精品无码久久久久苍井空| 无码人中文字幕| 国产成人精品日本亚洲77美色| 亚洲Va中文字幕久久一区| 欧美日韩一区二区在线播放| 亚洲性影院| 免费人成在线观看视频色| 丁香婷婷激情综合激情| 亚洲精品天堂在线观看| 伊人久久大线影院首页| av手机版在线播放| 乱系列中文字幕在线视频| 亚洲一区国色天香| 国产va在线观看免费| 成人在线欧美| 国产a在视频线精品视频下载| 丁香婷婷久久|