




















摘 要:說話人身份識別是一項重要的生物識別技術,多種基于深度卷積神經網絡(DNN)的模型結構表現出越來越強的特征表達能力,并形成了統一的端到端說話人識別系統,取得了優于傳統識別模型的性能。其中聚合模型聚合的話語級特征是影響說話人識別系統準確率的關鍵因素之一。目前大多數的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型經常會無法準確地進行幀選擇,聚合出的話語級特征不準確、魯棒性弱。在SAP聚合模型的聚合方式上進行了改進,通過引入平均向量方法,構建了一種改進的聚合模型mSAP。它以一種更細粒化和更穩定的工作方式,將變長的輸入序列聚合為話語級特征,可以更有效地捕捉輸入序列的長期變化。實驗表明,mSAP模型的等錯誤率(EER)相較于TAP、SAP、NetVLAD聚合模型分別有7.4、1.75和0.24的下降,而DCF值相較于這三種聚合模型分別有0.018、0.137和0.242的下降。改進的mSAP聚合模型能夠聚合出魯棒性更強、更準確的話語級特征,有效地提高了端到端說話人識別模型的性能。
關鍵詞:說話人識別;聚合模型;注意力機制
中圖分類號:TP391.4 文獻標志碼:A
文章編號:1001-3695(2022)03-013-0721-05
doi:10.19734/j.issn.1001-3695.2021.08.0391
基金項目:國家自然科學基金資助項目(61972324);四川省科技計劃資助項目(2021YFS0313,2021YFG0133)
作者簡介:鄧飛(1980-),男,重慶人,教授,碩導,博士,主要研究方向為圖像與模式識別、深度學習;鄧力洪(1998-),男,四川閬中人,碩士研究生,主要研究方向為機器學習、語音識別;胡文藝(1975-),女,江西安高人,副教授,碩導,博士,主要研究方向為大數據分析;張葛祥(1974-),男(通信作者),四川綿陽人,教授,碩導,博士,主要研究方向為人工智能、智能裝備及機器人、智能電網和自然計算等(zhgxdylan@126.com);楊強(1988-),男,四川遂寧人,講師,博士,主要研究方向為智能.
Research on aggregation model in speaker recognition deep network
Deng Fei1a,Deng Lihong1a,Hu Wenyi1a,Zhang Gexiang1b,2?,Yang Qiang2
(1.a.School of Computer amp; Network Security(Oxford Brookes College),b.Artificial Intelligence Research Center,Chengdu University of Technology,Chengdu 610059,China;2.School of Control Engineering,Chengdu University of Information Technology,Chengdu 610059,China)
Abstract:Speaker identification is an important biometric technology,and multiple deep convolutional neural network(DNN)-based model architectures have shown increasing feature representation capabilities and have resulted in unified end-to-end speaker identification systems that have achieved better performance than traditional recognition models.Among them,the speech level features aggregated by the aggregation model are one of the key factors affecting the accuracy of the speaker recognition system.Most current approaches use the self-attention pooling(SAP) aggregation model.However,SAP aggregation models often fail to perform frame selection accurately,and the aggregated speech level features are inaccurate and weakly robust.This paper constructed an improved aggregation model mSAP by introducing a mean vector approach to the aggregation approach of the SAP aggregation model.It worked in a more fine-grained and stable way to aggregate variable-length input sequences into discourse-level features,which could capture long-term changes in the input sequences more effectively.Experiments show that the equal error rate(EER) of the mSAP model decreases by 7.4,1.75,and 0.24 compared to the TAP,SAP,and NetVLAD aggregation models,respectively,while the DCF values decrease by 0.018,0.137,and 0.242 compared to these three aggregation models,respectively.The improved mSAP aggregation model is able to aggregate more robust and accurate discourse-level features effectively improving the performance of the end-to-end speaker recognition model.
Key words:speaker recognition;aggregation model;attention mechanism
0 引言
說話人識別是利用語音波形中包含的說話人信息識別說話人的過程[1]。隨著語音指令的使用越來越普遍,說話人識別是保護用戶安全和隱私的重要安全措施。在說話人識別中,一個關鍵的挑戰是將可變長度的輸入語音聚合成一個固定維的話語級特征。然而在實際情況下,錄音的環境可能是嘈雜的如包含音樂、笑聲、聊天背景聲等,并且說話人本身的因素如口音、情感、語調和說話方式也會帶來影響,導致部分音頻可能不包含說話人身份的鑒別信息,不能聚合出有效的、魯棒的話語級特征[2]。
在深度神經網絡(DNN)出現之前,帶有概率線性判別分析(PLDA)的i-vector系統在說話人領域一直處于領先地位[3,4]。隨著深度學習的發展,深度神經網絡給語音識別領域帶來了實質性的改進,它們可以處理噪聲數據集,而且不需要手工提取特征[5,6]。相比于傳統的i-vector方法,DNN架構可以直接應用原始的聲譜圖,通過深度神經網絡提取出幀級特征,再經過聚合模型將變長的幀級特征聚合成話語級特征后進行端到端的訓練。基于DNN的端到端說話人識別系統已經取得了優于i-vector系統的性能[7]。端到端說話人識別系統接受可變長度的輸入并產生一個話語級特征,其中聚合模型是將網絡提取出的幀級特征聚合成一個話語級特征的關鍵技術[8]。2017年Nagrani等人[7]使用TAP池化模型來聚合幀級特征向量,以獲得固定長度的話語級特征。2018年Chen等人[9]將計算機視覺界的NetVLAD聚合模型引入到語言識別中,并取得了優于TAP池化模型的識別效果。2018年Cai等人[8]采用注意模型將權重分配給更特別的幀級特征,提出了SAP聚合模型。TAP聚合模型沿時間軸進行簡單的平均聚合,將變長的幀級特征聚合為定長的話語級特征。然而聲音有時會變化,甚至在說話時發生停頓,TAP聚合模型無法關注到這些特殊部分。SAP聚合模型解決了這一問題,在SAP中幀級特征根據環境向量(一種可學習的向量)的相似度進行加權。然而SAP聚合模型在有噪聲數據集中經常無法準確地選擇出信息更豐富的幀級特征,導致表現出與TAP聚合模型相近甚至更低的性能。
本文在SAP聚合模型的基礎上改進提出了一種新的聚合模型mSAP。該方法使用線性注意力機制的方式計算幀級特征重要性生成重要性權重,并通過重要性權重加權產生平均向量,使得聚合模型可以更準確和有效地捕獲幀級特征的長期變化。經過實驗證明,改進的聚合模型可以取得魯棒性更強、更準確的話語級特征,提升模型識別準確率。
1 端到端說話人識別系統
通常說話人識別可以分為閉集和開集。對于閉集,所有測試說話人身份都被登記在訓練集中,將測試話語分類是比較容易的,因此閉集可以很好地解決說話人分類問題。而在開集中,測試集中的說話人和訓練集中的說話人是分離的,這使得說話人識別更具有挑戰性,也更接近實踐。由于不可能將測試集中的語音分類為訓練集中已知的身份,需要將說話人特征映射到一個判別空間。在這種情況下,開集驗證的本質是一個度量學習問題,其中的關鍵是學習到有區別的特征向量。
傳統i-vector說話人識別系統中每個步驟都是在子任務上獨立訓練的,不是聯合優化的[10,11]。另外一些基于DNN的說話人識別系統中需要額外的步驟來聚合幀級特征并執行驗證[12]。隨著說話人識別領域的不斷發展,出現了端到端的說話人識別系統,將子任務整合到一起,進行統一的訓練并取得了優于傳統說話人識別系統的效果[13~18]。本文采用了文獻[19]構建的實現閉集和開集的統一端到端系統,整個系統包括音頻數據輸入接口、幀級特征提取器、聚合模型、損失函數和相似性度量五個關鍵部分,如圖1所示。其中任何類型的深度卷積網絡都可以作為幀級特征提取器,如VGG、ResNet、DensNet等。由于ResNet廣泛應用于圖像分割和圖像識別領域,具有較強的特征提取能力和計算效率,因此被文獻[7~12,16]選取作為特征提取網絡。本文選取ThinResNet-34網絡作為幀級特征提取器[20],ThinResNet-34網絡與標準34層ResNet結構相同,只是為了減少計算成本每個殘差塊的通道數變為標準網絡的1/4,如表1所示。本文通過研究不同的聚合模型來提高識別準確率。
2 說話人識別網絡中的聚合模型研究
為了將幀級特征聚合為話語級特征,出現了不同的聚合模型以及不同領域的聚合模型也被應用于說話人識別系統中,如SAP聚合模型[9],端到端說話人識別系統中固有的TAP聚合模型[7],以及原本用于場景識別中提取圖像特征的NetVLAD聚合模型[8]等。文獻[19]對這些聚合模型進行了對比測試,NetVLAD在相同條件下取得了最好的測試結果等錯誤率低于SAP和TAP聚合模型,SAP聚合模型則略優于TAP聚合模型。
2.1 NetVLAD聚合模型
NetVLAD[8]是計算機視覺學界中一種通過聚類將一組特征聚合成固定維度的聚合方法。文獻[8]將其應用于語言識別中并取得了優秀的識別結果。在一組幀級特征{x1,x2,x3,…,xL},x∈?C×H×W中假設有K簇即{μ1,μ2,μ3,…,μk},將每個xi對應到一個簇μk中。NetVLAD的大小表示定義為
其中:如果μk是距離xi最近的簇,那么βk(xi)表示為1,否則表示為0,如式(2)所示。控制響應xi隨聚類中心μk距離大小的衰減,最終完整的NetVLAD公式如式(3)所示。將式(3)歸一化后輸出,生成最終的話語級表示。
2.2 TAP聚合模型
為了將變長的輸入特征序列聚合為定長的話語級特征,在早期的端到端說話人識別系統中[15,16],一般采用時間平均聚合(TAP)[7]作為聚合方法將幀級特征轉換為固定長度的話語級特征。TAP聚合模型是端到端系統中固有的一種聚合模型,它將神經網絡提取出的幀級特征沿著時間方向平等地聚合為話語級特征。
2.3 self-attention pooling(SAP)聚合模型
與TAP聚合模型平等的聚合幀級特征不同。通常情況下,話語中的某些幀級特征比其他的幀級特征更獨特、更重要、包含的信息更多,SAP聚合模型可以自動計算每一幀的重要性進行幀選擇,并將這些信息聚合形成一個話語級特征[9]。
將幀級特征{x1,x2,x3,…,xL}x∈?C×H×W輸入到多層感知器(MLP)中得到隱層表示{h1,h2,h3,…,hL}h∈?C×H×W,對隱層表示的空間信息進行擠壓后(h∈RC)通過softmax函數得到每幀的重要程度表示,即每幀的重要性權重wt,公式表示為
其中:u可以被看做一個進行信息查詢的環境向量,即查詢整個幀中的信息幀是哪些。然后根據重要性權值,將幀級特征映射加權求和得到話語級特征e。
2.4 改進的mSAP聚合模型
SAP聚合模型能根據幀級特征的重要性進行幀選擇。然而,SAP經常表現出與TAP相近甚至更低的性能,這表明SAP聚合模型沒有有效地選擇出信息更豐富的幀級特征。因此,本文提出了一種改進的SAP聚合方式,它通過線性注意力機制產生重要性權重及平均向量。
將神經網絡輸出的L幀大小為H×W(其中H表示特征維度,W表示持續時間)的特征序列{x1,x2,x3,…,xL},x∈?C×H×W作為源信息,將源信息變形后(x∈?C×N,N=H×W)通過線性注意力機制的方式產生每幀對應的重要性權重wt。考慮到神經網絡提取出的幀級特征已經具備了較強的甄別性,因此在聚合時不應用非線性激活函數改變特征的分布,造成特征失真。所以改進的mSAP聚合模型采用了線性注意力機制,如式(6)所示,線性注意力機制能夠對幀級特征中重要的部分進行增強,不重要的部分進行抑制,且不會造成特征失真。而在SAP聚合模型中研究者將幀級特征送入多層感知器獲取隱層特征的方式與非線性注意力機制相似。如式(7)所示,其中非線性激活函數的映射方式改變了幀級特征中信息改變了特征的分布,導致特征失真環境向量也無法準確地查詢幀級特征中的有效信息。因此改進的聚合模型得到的權重相較于SAP聚合模型得到的權重會更準確。
為了提高特征的準確性和甄別性,mSAP模型增加了平均向量計算,用來捕獲特征長期的變化。平均向量方法最早由文獻[18]首次應用到說話人識別系統中,通過計算幀級特征的平均向量和標準差向量,并將它們連接在一起獲取話語級特征。平均向量和標準差向量計算公式為
其中:ht為提取出的幀級特征;☉為阿達瑪積。本文引入統計聚合模型中的平均向量并對其進行了改進,相比于統計聚合模型中對幀級加和平均的方式求得的平均向量,在改進的聚合模型中通過加權求和的方式得到平均向量,可以跟隨神經網絡的訓練一起進行訓練是可以進行學習的。
其中:wt為生成的重要性權重;α為生成的與幀級特征同大小的向量。
再將幀級特征xt和權重wt連接后與平均向量μ相減得到新的特征表示{ht,t=1,2,3,…,L}h∈?C×H×W,ht與xt擁有相同的性質。
幀級特征都是通過光譜圖卷積得到的,TAP和SAP聚合模型都選擇沿著時間方向進行累加,但是光譜圖中的能量分布是不均勻的,直接累加的結果存在偶然性,因此在時間方向上累加后再平均消除了這種偶然性,最終得到一個固定長度的話語級特征e。如式(12)所示,其中w是可微的,會隨著訓練的進行而逐漸優化,整個公式以一種類似于標準差的方式進行計算。由于標準差包含在長時間上下文中的時間可變性方面的其他說話者特征[18],所以類似于標準差的計算方式也能夠捕獲特征的長期變化,平均向量也是其中不可缺少的組成。其中平均向量由于在訓練過程中能進行學習,所以它對于噪聲具有一定的抑制作用,可以有效過濾掉一部分干擾信息,保留更多的有效信息。mSAP聚合流程如圖2所示。將幀級特征生成的重要性權重wt與一個可學習的向量a生成平均向量μ。幀級特征與重要性權重連接后與平均向量相減,在時間方向上累加平均后即得到話語級特征e。
3 實驗分析
3.1 數據集
實驗的語音數據集采用的是近年說話人通用的VoxCeleb數據集[19]。如表2所示,VoxCeleb是一個大型的不依賴于文本的說話人識別數據集包含VoxCeleb1和VoxCeleb2數據集。VoxCeleb1包含1 211名說話人10萬多條音頻,這些語音是從YouTube的視頻中提取出來的,數據集中性別比例平衡,55%的說話人是男性,這些說話人來自不同的民族,有不同的口音和年齡,VoxCeleb1還提供了每個說話人的國籍和性別(可從維基百科獲得)。VoxCeleb2數據集是VoxCeleb1數據集的擴展版本,包含了5 994名說話人的超過百萬條音頻語句。為了與已有文獻結果[21,22]進行對比,本文選用與已有文獻一致的訓練集和測試集,用VoxCeleb2數據集進行網絡訓練,用VoxCeleb1、VoxCeleb1-H、VoxCeleb1-E測試集進行測試,具體情況如表2、3所示。
其中:VoxCeleb1testset是從VoxCeleb1中獨立出來的測試集,包括說話人40人,不與VoxCeleb1訓練集中的說話人重合,總共有4 715句語句組成了37 720個測試對;VoxCeleb1-E測試集使用的是整個VoxCeleb1數據集,總共1 251人包括訓練集的1 211名說話人和測試集的40名說話人,由145 375句語句組成了581 480個測試對,能夠更有效地測試模型的性能;VoxCeleb1-H測試集是比較特殊的測試集,由同一國籍和性別組成,從VoxCeleb1數據集中提取了552 536對來自相同國籍和性別的樣本,包括18個國籍—性別組合,每對至少5個人。
3.2 訓練參數設置
為了驗證聚合模型對于系統性能的提升,實驗采用與對比文獻[21,22]相同的樸素訓練方法。選取40維濾波器特征(filter banks,FBank)。首先將所有的音頻轉換為單通道,16位流16 kHz采樣率,然后對音頻數據進行濾波(40組梅爾濾波器)、加窗(25 ms窗口重疊,步長10 ms)、特征對齊,再在頻譜的每個頻域方向上進行均值和方差歸一化(MVN)生成FBank特征,作為深度卷積神經網絡的輸入。
訓練時先進行分類訓練。模型的損失函數采用margin=1,scale=15的AM-softmax[23],相比于softmax,損失函數AM-softmax通過在角空間中引入邊界提高了驗證精度。計算公式為
其中:Li是將樣本正確分類的代價;θy=arccos(wTx)指樣本特征和決策超平面(w)之間的角度,兩個向量都經過L2標準化。因此盡可能使cos(θyi)-m大,其中m是角度邊界,從而使角最小化。超參數s控制損失函數的溫度,對分離良好的樣本產生更高的梯度并進一步縮小類內方差。
使用初始學習率為0.001的Adam優化器進行網絡參數優化。在模型訓練好后使用測試集進行測試,測試集與訓練集是完全脫離的。測試時,從每個測試音頻中抽取10個3 s的片段作為樣本,然后送入系統中抽取每個片段的話語級特征并計算每對片段中所有組合(10×10=100)之間的距離,再將100個距離的平均值作為說話人身份判別依據,進行說話人身份識別。
3.3 評價標準
為了客觀地評估不同聚合模型的性能,本文采用常用的等錯誤率(equal error rate,EER)[7]和最小檢測代價標準(minimum detection cost function 2010,DCF10)[24]作為系統性能的評價指標,其值越小代表性能越好。最小檢測代價函數計算公式為
其中:CFR與CFA分別為錯誤拒絕率EFR和錯誤接收率EFA的懲罰系數;Ptarget和1-Ptarget分別為真實說話測試和冒充測試的先驗概率。本文采用NIST SRE2010 設定的參數CFA=1, CFR=1, Ptarget=0.01(DCF10-2)。MinDCF不僅考慮錯誤拒絕和錯誤接收不同的代價,還充分考慮到測試情況的先驗概率,因此在模型性能評價上MinDCF比EER更具參考價值。
3.4 實驗結果
將訓練好的端到端說話人識別系統在VoxCeleb1的測試集上進行測試,并與已有文獻得到的測試結果進行對比,如表4~6所示。
mSAP聚合模型由于可以更有效地捕獲幀級特征的長期變化聚合出更魯棒、更準確的話語級特征,因此比基線系統擁有更好的識別效果。如表4所示,在閉集測試中使用mSAP聚合模型的系統表現出了最好的性能,比基線TAP系統的等錯誤率下降了7.4。而相比于SAP和NetVLAD兩種聚合模型也分別下降了1.75和0.24。這證明了mSAP能夠捕獲幀級特征的長期變化,線性注意力機制產生的權重相比于SAP聚合模型也更準確。使用最小檢測代價進行測試,mSAP依然取得了最小的DCF值0.322,領先于其他三種聚合模型。
實驗接下來采用規模更大也更困難的測試集VoxCeleb1-E和VoxCeleb1-H再次測試上述系統的識別性能。由表5可以看出,mSAP聚合模型的等錯誤率相比于SAP和TAP聚合模型分別有1.55和7.26的下降,相比于NetVLAD聚合模型也有0.36的下降。DCF值相比于NetVLAD聚合模型下降了0.039,相比于TAP和SAP,mSAP聚合模型分別下降了0.216和0.146。mSAP聚合模型在VoxCeleb1-E測試集依然具有更高的準確率。
在使用同一國家和性別的VoxCeleb1-H測試集上,由于口音和語調的差別減小,相似性更高更難以區別,四種模型的等錯誤和DCF值都有所上升,如表6所示。但相比NetVLAD、SAP、TAP三種聚合模型,mSAP聚合模型在兩種測試方式中取得了最小的誤差。實驗結果可以看出,線性注意力機制的方式能夠有效增強特征,從而生成更有效的權重,可學習的平均向量也有效地抑制了噪聲帶來的影響,保留了更多的有效信息,因此mSAP聚合模型得到的幀級特征更準確,同時甄別性也更好。經過三種不同的測試集測試比較之后,本文mSAP聚合模型能夠聚合出魯棒性更強的話語級特征,更有效地提高端到端說話人識別系統的準確率。
為了直觀地評估特征聚合效果,本文使用了文獻[22]使用的聲紋特征向量可視化方法將SAP與mSAP所聚合出的話語級特征用t-SNE方法降維后形成可視化效果圖。實驗在VoxCeleb1測試集(不與訓練集重合)中隨機選取9名說話人,每人截取100個3 s的測試片段,用網絡提取特征后分別使用mSAP和SAP模型進行聚合,得到最終的說話人特征向量。如圖3所示,SAP聚合模型得到的特征經過t-SNE方法降至二維后形成的可視化數據后已經完全不可分了。而如圖4所示,mSAP得到的特征降至二維后依然明顯可分。這表明mSAP模型聚合得到的話語級特征相比于SAP模型團聚效果更好、更具有甄別性,因此在測試集上等錯誤率有明顯的提升。
由表7可以看出,本文mSAP聚合模型參數量相對于SAP聚合模型增加了0.1 M,推理時間增加了0.06 ms,但是模型在VoxCeleb1的等錯誤率降低了1.75。而相對于NetVLAD聚合模型參數量則減少了0.23 M,同時推理時間也減少了0.02 ms,但識別的等錯誤率卻低于NetVLAD聚合模型0.24。
4 結束語
本文在SAP聚合模型的基礎上提出了一種改進的mSAP聚合模型,嵌入到端到端的說話人識別系統中。它通過線性注意力機制以及引入平均向量方法,在參數量增加0.1 M和推理時間增加0.06 ms的情況下,更有效地捕捉輸入序列的長期變化,從而在沒有任何語音增強和后端處理的情況下在有噪環境的VoxCeleb1測試集上達到了3.08的等錯誤率和0.412的最小檢測代價標準。數值計算實驗表明,本文mSAP聚合模型,比現有的TAP、SAP和NetVLAD具有更好的特征聚合能力,且計算效率較高,從而有效改進和提高了端到端說話人身份識別系統的性能。目前本文mSAP聚合模型能夠有效地對幀級特征進行選擇并聚合出更準確的話語級特征,下一步將針對短時音頻進行研究,短時音頻信息更少更復雜,但也更符合實際情況和企業實踐。
參考文獻:
[1]Hansen J,Hasan T.Speaker recognition by machines and humans:a tutorial review[J].IEEE Signal Processing Magazine,2015,32(6):74-99.
[2]Stoll L L.Finding difficult speakers in automatic speaker recognition[D].Berkeley:University of California,2011.
[3]Matejka P,Glembek O,Castaldo F,et al.Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2011:4828-4831.
[4]Cumani S,Plchot O,Laface P.Probabilistic linear discriminant analysis of i-vector posterior distributions[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2013:7644-7648.
[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[EB/OL].(2015-12-10).https://arxiv.org/abs/ 1512.03385.
[6]McLaren M,Ferrer L,Castan D,et al.The speakers in the wild(SITW) speaker recognition database[C]//Proc of InterSpeech.2016:818-822.
[7]Nagrani A,Chung J S,Zisserman A.VoxCeleb:a large-scale speaker identification dataset[C]//Proc of InterSpeech.2017:2616-2620.
[8]Cai Weicheng,Chen Jinkun,Li Ming.Exploring the encoding layer and loss function in end-to-end speaker and language recognition system[EB/OL].(2018-04-14).https://arxiv.org/abs/1804.05160.
[9]Chen Jinkun,Cai Weicheng,Cai Danwei,et al.End-to-end language identification using NetFV and NetVLAD[C]//Proc of the 11th International Symposium on Chinese Spoken Language Processing.Pisca-taway,NJ:IEEE Press,2018:319-323.
[10]Dehak N,Kenny P J,Dehak R,et al.Front-end factor analysis for speaker verification[J].IEEE Trans on Audio Speech amp; Language Processing,2011,19(4):788-798.
[11]Dehak N,Torres-Carrasquillo P A,Reynolds D A,et al.Language re-cognition via i-vectors and dimensionality reduction[C]//Proc of InterSpeech.2011:857-860.
[12]Variani E,Lei Xin,McDermott E,et al.Deep neural networks for small footprint text-dependent speaker verification[C]//Proc of IEEE International Conference on Acoustics.Piscataway,NJ:IEEE Press,2014:4052-4056.
[13]Lopez-Moreno I,Gonzalez-Dominguez J,Plchot O,et al.Automatic language identification using deep neural networks[C]//Proc of IEEE International Conference on Acoustics.Piscataway,NJ:IEEE Press,2014:5337-5341.
[14]Gonzalez-Dominguez J,Lopez-Moreno I,Sak H,et al.Automatic language identification using long short-term memory recurrent neural networks[C]//Proc of InterSpeech.2014:2155-2159.
[15]Snyder D,Ghahremani P,Povey D,et al.Deep neural network-based speaker embeddings for end-to-end speaker verification[C]//Proc of IEEE Spoken Language Technology Workshop.Piscataway,NJ:IEEE Press,2016:165-170.
[16]Li Chao,Ma Xiaokong,Jiang Bing,et al.Deep speaker:an end-to-end neural speaker embedding system[EB/OL].(2017-05-05).https://arxiv.org/abs/1705.02304.
[17]Jin M,Song Y,Mcloughlin I,et al.LID-senones and their statistics for language identification[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2018,26(1):171-183.
[18]Okabe K,Koshinaka T,Shinoda K.Attentive statistics pooling for deep speaker embedding[C]//Proc of InterSpeech.2018:2252-2256.
[19]Nagrani A,Chung J S,Xie W,et al.VoxCeleb:large-scale speaker verification in the wild[J].Computer Speech and Language,2020,60:101027.
[20]Wang Feng,Cheng Jian,Liu Weiyang,et al.Additive margin softmax for face verification[J].IEEE Signal Processing Letters,2018,25(7):926-930.
[21]Xie W,Nagrani A,Chung J S,et al.Utterance-level aggregation for speaker recognition in the wild[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:5791-5795.
[22]Kye S M,Jung Y,Lee H B,et al.Meta-learning for short utterance speaker recognition with imbalance length pairs[EB/OL].(2020-08-11).https://arxiv.org/abs/2004.02863.
[23]汪海彬,郭劍毅,毛存禮,等.基于通用背景—聯合估計(UB-JE) 的說話人識別方法[J].自動化學報,2018,44(10):1888-1895.(Wang Haibin,Guo Jianyi,Mao Cunli,et al.Speaker recognition method based on universal background-joint estimation(UB-JE)[J].Acta Automatica Sinica,2018,44(10):1888-1895.)
[24]Chung J S,Nagrani A,Zisserman A.VoxCeleb2:deep speaker recognition[C]//Proc of InterSpeech.2018:1086-1090.