999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于角度間隔嵌入特征的端到端聲紋識別模型

2019-11-15 04:49:03王康董元菲
計算機應用 2019年10期

王康 董元菲

摘 要: 針對傳統身份認證矢量(i-vector)與概率線性判別分析(PLDA)結合的聲紋識別模型步驟繁瑣、泛化能力較弱等問題,構建了一個基于角度間隔嵌入特征的端到端模型。該模型特別設計了一個深度卷積神經網絡,從語音數據的聲學特征中提取深度說話人嵌入;選擇基于角度改進的A-Softmax作為損失函數,在角度空間中使模型學習到的不同類別特征始終存在角度間隔并且同類特征間聚集更緊密。在公開數據集VoxCeleb2上進行的測試表明,與i-vector結合PLDA的方法相比,該模型在說話人辨認中的Top-1和Top-5上準確率分別提高了58.9%和30%;而在說話人確認中的最小檢測代價和等錯誤率上分別減小了47.9%和45.3%。實驗結果驗證了所設計的端到端模型更適合在多信道、大規模的語音數據集上學習到有類別區分性的特征。

關鍵詞:聲紋識別;端到端模型;損失函數;卷積神經網絡;深度說話人嵌入

中圖分類號:TN912.34;TP391.42

文獻標志碼:A

Abstract:? An end-to-end model with angular interval embedding was constructed to solve the problems of complicated multiple steps and weak generalization ability in the traditional voiceprint recognition model based on the combination of identity vector (i-vector) and Probabilistic Linear Discriminant Analysis (PLDA). A deep convolutional neural network was specially designed to extract deep speaker embedding from the acoustic features of voice data. The Angular Softmax (A-Softmax), which is based on angular improvement, was employed as the loss function to keep the angular interval between the different classes of features learned by the model and make the clustering of the similar features closer in the angle space. Compared with the method combining i-vector and PLDA, it shows that the proposed model has the identification accuracy of Top-1 and Top-5 increased by 58.9% and 30% respectively and has the minimum detection cost and equal error rate reduced by 47.9% and 45.3% respectively for speaker verification on the public dataset VoxCeleb2. The results verify that the proposed end-to-end model is more suitable for learning class-discriminating features from multi-channel and large-scale datasets.

Key words: voiceprint recognition; end-to-end model; loss function; convolutional neural network; deep speaker embedding

0 引言

聲紋識別是一種從語音信息中提取生物特征的識別技術[1]。在該技術發展的幾十年中,由Dehak等[2]提出的身份認證矢量(identity vector, i-vector)方法一度成為聲紋識別領域的主流研究技術之一。該方法主要有三個步驟:1)利用高斯混合模型通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)計算充分統計量;2)在全因子空間上提取i-vector;3)利用概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)計算i-vector間的似然比分數并作出判斷[3]。

深度神經網絡(Deep Neural Network, DNN)在圖像識別、機器翻譯和語音識別等諸多領域取得了非常矚目的成績,所以聲紋識別技術同樣引入了這一思想。利用DNN對聲紋建模一般有兩種方式:一種是利用DNN取代i-vector框架中GMM-UBM來計算充分統計量[4];另一種是從DNN的瓶頸層中提取幀級別的特征,利用這些特征獲得話音級別表示[5-6],Variani等[7]將DNN最后一個隱藏層中提取的特征整體取平均來替代i-vector,是這種思想的典型代表。目前,將DNN和i-vector融合的技術已經較為成熟,并且在部分小規模的商業產品上得到了實現。但利用該方法仍然存在兩大問題:1)提取i-vector作為話音級別的表示形式后,還需要長度標準化和后續分類器的步驟[8],比較繁瑣;2)由于加性噪聲的存在,利用i-vector構建的模型泛化能力較弱[9]。

基于上述研究背景,本文構建一個端到端的聲紋識別模型,利用卷積神經網絡(Convolutional Neural Network, CNN)和重新設計的度量方式,提取到類別區分能力更強的嵌入表示。這些方法在人臉識別領域得到了驗證,但在聲紋識別中比較少見。模型用于文本無關的開集識別任務,也就是訓練和測試數據沒有交集,并通過嵌入之間的余弦距離直接來比較說話人之間的相似性。為使模型學習到的深度說話人嵌入有足夠的類別區分性,損失函數選擇A-Softmax(Angular Softmax)來替代分類網絡中最常使用的Softmax。A-Softmax損失函數能學習角度判別特征,將不同類別的特征映射到單位超球面上的不同區域內[10],更適合大規模數據集的訓練,得到泛化能力更強的模型。

1 端到端聲紋模型——深度說話人嵌入開集識別任務本質上是一種度量學習任務,其中的關鍵是使模型學習到類別間隔較大的特征,所形成的特征空間足以概括沒訓練過的說話人,所以模型訓練過程中的目標是在特征空間中不斷縮小同類距離的同時增大異類之間的距離。

目前,已有一些研究通過改進主干神經網絡結構來提升模型效果,如文獻[11]利用循環神經網絡(Recurrent Neural Network, RNN)提取話音級別特征作為說話人嵌入,文獻[12]則利用NIN(Network In Network)建模。

CNN最初在圖像領域應用廣泛,將其應用到語音分析中也能有效地在聲學特征中減少譜之間的變化并對譜之間的相關性進行建模[13],故本文選擇CNN從聲學特征中提取語音數據幀級別的特征。

從平衡訓練時間和模型深度的角度來看,選取CNN提取特征也要優于語音識別中常用的長短期記憶(Long Short-Term Memory, LSTM)網絡[3]。

另一方面,模型的度量方式也可以進行改進,基于這種改進思想一般有兩種方式[8]:一種是訓練分類網絡作為深度說話人嵌入的提取器,在損失函數上加上限制條件約束網絡學習方向,提取輸出層前一層的特征作為深度說話人嵌入;另一種是直接在特征空間中訓練,使不同類別說話人之間的歐氏距離有一定的間隔,并將歸一化后的特征作為深度說話人嵌入,這樣特征空間中的歐氏距離與余弦距離意義等價,測試階段可以直接利用余弦相似性計算分數。直接度量特征之間距離最具代表性的是三元組損失[14],但三元組的挖掘非常復雜,導致模型訓練非常耗時,且對性能敏感,所以本文主要研究分類網絡,即輸出層神經元的個數等于訓練的說話人類別數,這種思想的系統流程如圖1所示。

系統的整體流程分為訓練過程和測試過程兩個部分。在訓練過程中,將從語音數據中提取的聲學特征送入CNN生成幀級別的特征,幀級別的特征被激活后送入平均池化層得到話音級別的特征,再利用仿射層進行維度轉換,得到固定維度的深度說話人嵌入,輸出層將固定維度的說話人嵌入映射到訓練說話人類別數。損失函數是構建的端到端網絡訓練過程的最后一步,通過不斷減小網絡預測值和實際標簽的差距來提高網絡性能。在測試階段,先把語音數據送入已經訓練好的網絡模型,從仿射層中得到深度說話人嵌入,再計算每對嵌入之間的余弦距離,根據閾值即可判斷該對語音數據是屬于相同說話人還是不同說話人。

2 具有角度區分性的深度說話人嵌入

基于Softmax損失函數學習到的深度說話人嵌入在本質上就有一定的角度區分性[10],這一點在文獻[15]中也得到了證實,但在由Softmax直接映射的角度空間中對異類說話人嵌入沒有明確的限制條件,這樣同時優化了特征之間的夾角和距離。A-Softmax損失函數將特征權值進行歸一化,使CNN更集中于優化不同特征之間的夾角,學習到具有角度區分性的深度說話人嵌入[10],以提高模型性能。

2.1 A-Softmax原理

延用文獻[16]中的定義,將分類網絡的全連接輸出層,Softmax函數以及交叉熵損失函數三個步驟聯合定義為Softmax損失函數,表達式為:

其中:xi表示第i個訓練樣本的輸入特征; yi為其對應的類別標簽;Wj、Wyi分別是全連接輸出層權重矩陣W的第j列和第yi列;bj、byi為其對應的偏置。訓練數據時一般會分批處理,N即為每一批次中的訓練樣本個數,K為所有訓練樣本中的類別數。

將W與xi展開成模長與夾角余弦的乘積,同時限制‖Wj‖=1和bj=0,即在每次迭代中都將權重矩陣W每列的模進行歸一化,并將偏置設為0,損失函數表達式轉化為:

其中:θj,i(0≤θj,i≤π)為向量Wj與特征xi間的夾角,式(2)表明了訓練樣本i被預測為類別j的概率僅與θj,i有關。A-Softmax不僅在角度空間上使不同類別的樣本分離,同時利用倍角關系增大了類別之間的角度間隔[10],表達式為:

2.2 A-Softmax角度間隔的性質

A-Softmax損失函數不僅通過角度間隔增加了特征之間的類別區分能力,同時能將學習到的特征映射到單位超球面上解釋。權重Wyi與特征xi之間的夾角對應于該單位超球面上的最短弧長,同一類別在超球面上形成一個類似于超圓的區域。通過角度間隔參數m的設定可以調節學習任務的難易程度,m越大,單個類別形成的超圓區域也就越小,學習任務也越困難。但m存在一個最小值mmin使同類特征之間最大角度間隔小于異類特征之間最小角度間隔,文獻[10]中未給出推導過程,本文將在二維空間中定量分析mmin。

二分類情況下不同類別之間的角度間隔如圖2所示,其中W1、W2分別是類1、類2的權重向量,W1與W2之間的夾角為θ12,令輸入的特征x屬于類1,則有cos(mθ1)>cos(θ2),即mθ1<θ2。當特征x在W1、W2之間時,θ1存在一個屬于類1的最大角

θin1_max;當特征x在W1、W2之外時,θ1存在一個屬于類1的最大角θout1_max,θ1的范圍即在θin1_max與θout1_max之間。如圖2(a),當x在W1、W2之間時有:

選擇滿足期望特征分布的參數m,理論上可使所有訓練特征按標準分布在單位超球面上,不同類別之間始終存在角度間隔,在此基礎上訓練盡可能多的類別數,則可以得到類別區分能力更強的深度說話人嵌入,提高模型的泛化能力。

2.3 網絡模型設計

本文設計的網絡模型主要分為三個部分:首先是語音信號聲學特征的提取;其次是主干神經網絡的構建;最后,利用A-Softmax損失函數衡量模型預測值,并更新參數。

在聲學特征提取階段,為保留更豐富的原始音頻信息,將語音信號利用幀長25ms、幀移10ms的滑動窗口轉化為64維FBank(FilterBank)特征。每個樣本隨機截取多個約0.6s的語音段,生成64×64的特征矩陣,經過零均值,單位方差歸一化后,轉化為單通道的特征圖送入構建好的CNN。

主干網絡是基于殘差網絡設計[17],網絡層細節如表1所示。

每個殘差塊由兩個卷積核為3×3、步長為1×1的卷積層構成,包含低層輸出到高層輸入的直接連接,每一種殘差塊只有一個。當輸出通道數增加時,利用一個卷積核為5×5、步長為2×2的卷積層使頻域的維度保持不變,將經過多個卷積層和殘差塊提取到的幀級別特征送入時間平均池化層。時間平均池化層將特征在時域上整體取均值,得到話音級別的特征,使得構建的網絡在時間位置上具有不變性,再經過仿射層將話音級別的特征映射成512維的深度說話人嵌入。

A-Softmax損失函數中的角度間隔參數m設為3,利用反向傳播更新模型參數。測試數據直接從仿射層提取512維深度說話人嵌入,通過L2歸一化后直接計算余弦相似性,設置分數閾值評判一對嵌入屬于相同說話人還是不同說話人,模型的訓練算法和測試算法分別如算法1和算法2所示。

3 實驗與結果分析

3.1 實驗數據集

為得到一個強魯棒性模型,需要訓練一個多類別、多信道的大規模數據集,本實驗采用VoxCeleb2數據集進行驗證。VoxCeleb是一個從YouTube網站的采訪視頻中提取的視聽數據集,由人類語音的短片段組成,其中VoxCeleb2數據集的規模比目前任何一個公開的聲紋識別數據集仍大數倍,包含近6000個說話人產生的百萬多條語音數據[18]。

VoxCeleb2中的語音數據包含不同種族、口音、職業和年齡的說話人演講,數據在無任何約束條件下采集,背景有說話聲、笑聲、重疊的語音等符合實際環境的各種噪聲[18],更適合訓練端到端的神經網絡模型。同時該數據集提供了幾種不同方法在不同評價指標下的基礎分數,本實驗構建自己的網絡模型與i-vector結合PLDA的方法進行比較。

3.2 模型訓練方法

模型共訓練40輪,每輪每批處理的樣本數為64個音頻文件。每個卷積層后都加入批標準化(Batch Normalization, BN)和激活層,以提高模型訓練速度,激活函數選擇上限值為20的線性整流函數(Rectified Linear Unit, ReLU)。優化器選擇動量為0.9的隨機梯度下降法,權重衰減設為0。

為防止訓練過程中損失函數出現震蕩,利用指數衰減法控制模型學習率,衰減系數設為0.98,每隔1000個批處理步驟當前學習率乘以衰減系數,模型初始學習率為0.001。

3.3 實驗結果分析

訓練好的端到端模型可以同時進行說話人辨認和說話人確認兩個實驗,前者是“多選一”問題,后者是“一對一判別”問題。VoxCeleb2中的測試集共有118類,36237條語音,兩個實驗設計的方法均參考文獻[19]。實驗訓練了基于Softmax和A-Softmax兩種損失函數的模型,以驗證本文模型的優勢。

對于說話人辨認實驗,在118個說話人中每人選擇5條語音數據構建聲紋庫,即聲紋庫中一共包含590條語音。再從每個說話人中選擇一條不同于聲紋庫的測試語音與聲紋庫中的所有語音進行比對,按相似性分數從大到小排序,計算相似度最大匹配成功的概率Top-1和前5名匹配成功的概率Top-5,結果見表2。

由表2的實驗結果可知,采用提取深度說話人嵌入的方式,模型性能要明顯優于i-vector結合PLDA的方法。選擇A-Softmax作為損失函數構建的模型與之相比,Top-1和Top-5準確率分別提高了58.9%和30%。原因在于傳統方法提取的i-vector中既包含說話人信息又包含信道信息,利用信道補償的方法來減少信道影響不能充分擬合多種信道下采集的訓練數據集,CNN卻可以很好地擬合這種多種信道樣本和標簽之間的關系。損失函數選擇A-Softmax與Softmax相比,Top-1和Top-5準確率分別提高了17.53%和7.41%。原因在于A-Softmax能學習到具有角度區分性的特征,對于從大規模的數據集訓練得到的說話人嵌入在單位超球面上聚集更集中,這使得采用A-Softmax的模型比采用Softmax的模型具有更強的泛化能力。

在說話人確認實驗中,測試集中共有36237條語音,對于每條測試語音組成兩對與該條語音屬于同種說話人的語音數據和兩對屬于不同說話人的語音數據,實驗一共組成了144948對測試對。計算所有測試對中錯誤接受率(False Acceptance Rate, FAR)和錯誤拒絕率(False Rejection Rate, FRR)相等時等錯誤率(Equal Error Rate, EER)的值。同時該實驗還有一個評價標準為最小檢測代價函數(Minimum Detection Cost Function, minDCF),檢測代價函數DCF的公式為:

其中:CFR和CFA分別表示錯誤拒絕和錯誤接受的懲罰代價;Ptarget和1-Ptarget分別為真實說話測試和冒認測試的先驗概率。實驗設 ,結果見表3。同時針對兩種不同損失函數所構建的模型,繪制了檢測錯誤權衡(Detection Error Tradeoff, DET)曲線圖,結果如圖4所示。

由表3和圖4的實驗結果可知,采用提取深度說話人嵌入的方式,模型性能受損失函數的影響非常大。選擇A-Softmax作為損失函數構建的模型與傳統方法相比,minDCF和EER分別減小了47.9%和45.3%。原因是采用A-Softmax損失函數構建的模型增加了角度間隔,學習到的深度說話人嵌入有非常好的類別區分性。但選擇Softmax作為損失函數構建的模型,minDCF反而大于傳統方法,EER的減少程度也不明顯,這也說明了Softmax并不適用于學習具有類別區分性的深度說話人嵌入。

4 結語

本文構建了一個端到端聲紋識別模型,該模型利用類似于殘差網絡的卷積神經網絡,從聲學特征中提取深度說話人嵌入,選擇A-Softmax作為損失函數來學習具有角度區分性的特征。通過對角度間隔參數m的分析,推導出滿足期望的特征分布時m的最小值。本文從實驗中得出,端到端的聲紋模型能訓練出結構更簡單、泛化能力更強的模型,該模型在說話人辨認實驗上有明顯的優勢,但在說話人確認實驗中,模型性能受損失函數的影響較大。對于更大規模的數據集,本文構建的網絡模型可能達不到更好的效果,需要構建更深的網絡且減少過擬合對模型效果的影響,為保持特征在頻域上的維度不變,可以對每一層的殘差塊個數進行增加。后續將會進一步研究在大規模數據集的條件下,所設計的模型中殘差塊的個數對聲紋識別模型性能的影響。

參考文獻(References)

[1] KINNUNEN T, LI H. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech Communication, 2010, 52(1): 12-40.

[2] DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798.

[3] LI C, MA X, JIANG B, et al. Deep speaker: an end-to-end neural speaker embedding system[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1705.02304.pdf.

[4] LEI Y, SCHEFFER N, FERRER L, et al. A novel scheme for speaker recognition using a phonetically-aware deep neural network[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014: 1695-1699.

[5] FU T, QIAN Y, LIU Y, et al. Tandem deep features for text-dependent speaker verification[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_1327.pdf.

[6] TIAN Y, CAI M, HE L, et al. Investigation of bottleneck features and multilingual deep neural networks for speaker verification[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/interspeech_2015/papers/i15_1151.pdf.

[7] VARIANI E, LEI X, McDERMOTT E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014: 4052-4056.

[8] CAI W, CHEN J, LI M. Analysis of length normalization in end-to-end speaker verification system[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1806.03209.pdf.

[9] 王昕, 張洪冉. 基于DNN處理的魯棒性I-Vector說話人識別算法[J]. 計算機工程與應用, 2018, 54(22): 167-172. (WANG X, ZHANG H R. Robust i-vector speaker recognition method based on DNN processing[J]. Computer Engineering and Applications, 2018, 54(22): 167-172.)

[10] LIU W, WEN Y, YU Z, et al. SphereFace: deep hypersphere embedding for face recognition[C]// Proceedings of the IEEE 2017 Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6738-6746.

[11] HEIGOLD G, MORENO I, BENGIO S, et al. End-to-end text-dependent speaker verification[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 5115-5119.

[12] SNYDER D, GHAHREMANI P, POVEY D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification[C]// Proceedings of the 2016 IEEE Spoken Language Technology Workshop. Piscataway: IEEE, 2016: 165-170.

[13] ZHANG Y, PEZESHKI M, BRAKEL P, et al. Towards end-to-end speech recognition with deep convolutional neural networks[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1701.02720.pdf.

[14] ZHANG C, KOISHIDA K. End-to-end text-independent speaker verification with triplet loss on short utterances[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/Interspeech_2017/pdfs/1608.PDF.

[15] WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9911. Cham: Springer, 2016: 499-515.

[16] LIU W, WEN Y, YU Z, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1612.02295.pdf.

[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[18] CHUNG J S, NAGRANI A, ZISSERMAN A. VoxCeleb2: deep speaker recognition[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1806.05622.pdf.

[19] NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: a large-scale speaker identification dataset[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1706.08612.pdf.

主站蜘蛛池模板: 91精品国产丝袜| 天天色天天综合网| 91精品免费久久久| 四虎精品黑人视频| 国产杨幂丝袜av在线播放| 亚洲精品无码AⅤ片青青在线观看| 一级高清毛片免费a级高清毛片| 国产剧情国内精品原创| 久久久久夜色精品波多野结衣| 中文字幕久久亚洲一区| 亚洲 成人国产| 一级一毛片a级毛片| 日本黄色a视频| 无码一区中文字幕| 99精品免费欧美成人小视频| 国产JIZzJIzz视频全部免费| Aⅴ无码专区在线观看| 欧美日韩成人在线观看| 欧美成人怡春院在线激情| 亚洲欧美精品一中文字幕| 91啦中文字幕| 一级毛片a女人刺激视频免费| 亚洲欧美日韩中文字幕在线| 成人一级黄色毛片| 亚洲久悠悠色悠在线播放| www亚洲天堂| 国产成人精品优优av| 综合色区亚洲熟妇在线| 大陆国产精品视频| 国产在线观看91精品亚瑟| 欧美特黄一级大黄录像| 男女男免费视频网站国产| 久久www视频| 久久国产精品电影| 99爱在线| 日本久久网站| 久久熟女AV| 久久青青草原亚洲av无码| AV网站中文| 亚洲a级毛片| 国产黑丝一区| 婷婷色婷婷| 五月综合色婷婷| 国产黑丝视频在线观看| 欧美成人午夜视频| 992Tv视频国产精品| 欧美中文字幕在线播放| 久久a毛片| 久久综合色视频| 女同国产精品一区二区| 成人亚洲视频| 精品国产毛片| 91综合色区亚洲熟妇p| 成人欧美日韩| 国产综合色在线视频播放线视| 东京热一区二区三区无码视频| 国产成人成人一区二区| 中文字幕亚洲精品2页| 久久黄色视频影| 亚洲第一页在线观看| 国产一区二区三区夜色| AV无码无在线观看免费| 欧美中文一区| 天天摸夜夜操| 精品视频一区二区三区在线播| 国产香蕉一区二区在线网站| 国产熟睡乱子伦视频网站| 国产精品xxx| 伊人天堂网| 成人毛片在线播放| 日本国产精品| 亚洲精品国产成人7777| 免费一看一级毛片| 99久久国产综合精品2023| 亚洲欧美日韩久久精品| 九色在线观看视频| 久久久久无码精品| 在线另类稀缺国产呦| 国产在线精品99一区不卡| 国产欧美日韩va另类在线播放| 久青草免费在线视频| 国产探花在线视频|