







摘 要:聲紋身份驗證技術(shù)越來越多的應(yīng)用于IoT智能設(shè)備中,針對多說話人語音環(huán)境,應(yīng)用傳統(tǒng)VAD模塊的聲紋驗證系統(tǒng)錯誤拒絕率嚴(yán)重升高,甚至無法工作。本文從語音分離技術(shù)入手,設(shè)計實現(xiàn)了一種只對目標(biāo)說話人觸發(fā)的輕量化SD-VAD模型。首先,通過在基線模型中引入CNN和BiLSTM結(jié)構(gòu),使神經(jīng)網(wǎng)絡(luò)獲得更強大的特征提取能力和上下文依賴性。其次,重新定義類內(nèi)加權(quán)損失,對不同的分類混淆錯誤施加不同的懲罰,使模型重點關(guān)注目標(biāo)說話人相關(guān)的分類,最大程度保留目標(biāo)語音的完整性。最后,本文將SD-VAD應(yīng)用于聲紋驗證模型的前端。實驗結(jié)果表明,本文改進的結(jié)構(gòu)相較于基線模型,mAP提升了1.5%,目標(biāo)說話人類的AP提升了1.9%。相較于傳統(tǒng)VAD模塊,使基于ECAPA-TDNN的聲紋驗證系統(tǒng)錯誤拒絕率(FRR)降低了13.95%,較大提升了聲紋驗證系統(tǒng)的魯棒性和使用靈活性。
關(guān)鍵詞:物聯(lián)網(wǎng);聲紋驗證;語音分離;多說話人環(huán)境;語音活動檢測(VAD);ECAPA-TDNN
中圖分類號:TP391.4;TN912-34 文獻標(biāo)識碼:A 文章編號:2095-1302(2024)02-000-05
0 引 言
聲紋識別作為一種生物識別技術(shù),相比于其他身份認證方法,具有無需直接接觸、安全性高、使用靈活等優(yōu)勢[1],在國內(nèi)正逐漸被應(yīng)用于公安、金融、智能家居等領(lǐng)域。
在聲紋識別系統(tǒng)架構(gòu)中,聲紋匹配方法經(jīng)過數(shù)十年的發(fā)展,從經(jīng)典的GMM-UBM[2],到i-vector+PLDA[3],再到深度學(xué)習(xí)下的d-vector[4]、x-vector[5]等體系結(jié)構(gòu)及其變體,都使聲紋特征的表達能力得到顯著提高。目前,在信噪比較高的單說話人背景下,聲紋識別系統(tǒng)性能優(yōu)越。但在多說話人語音環(huán)境下,聲紋識別系統(tǒng)很難找到不同說話人語音的切換點,無法分辨哪些語音幀是使用者希望它采集的。導(dǎo)致在一些聲紋身份驗證的應(yīng)用場景中,其他說話人語音也會和目標(biāo)說話人語音摻雜在一起進行深度特征提取和匹配,使系統(tǒng)錯誤地拒絕合法的目標(biāo)說話人。此類情況對用戶體驗造成極大的影響,增加了聲紋識別技術(shù)應(yīng)用的限制性。
針對此類問題,現(xiàn)有的解決方案是引入語音分離技術(shù)。語音分離又稱說話人日志(Speaker Diarization, SD),其主要任務(wù)是在多說話人混合語音中,分離出每個說話人的語音并進行聚類。傳統(tǒng)的語音分離可以是基于頻域的最優(yōu)掩膜比[6]或時域的非負矩陣分解[7]來實現(xiàn)每個說話人的分離。隨著深度學(xué)習(xí)在語音領(lǐng)域的發(fā)展,一些學(xué)者將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)和長短時記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)應(yīng)用于語音分離中[8-9],取得了不錯的效果。但是,這些語音分離方法實用性較差,在說話人數(shù)量未知的情況下存在一定的局限性。在我們的聲紋驗證場景中,并不需要區(qū)分不同的非目標(biāo)說話人語音,僅僅希望將它們同噪聲、靜音歸于一類并過濾掉。
近年來,針對目標(biāo)說話人語音的提取技術(shù)陸續(xù)被提出,例如SBF-MTSAL[10]、VoiceFilter[11]、DENet[12]。也有多位學(xué)者將它們作為語音分離前端,應(yīng)用于說話人驗證框架中,例如文獻[13-14]。這類方法通常以提取目標(biāo)說話人參考語音的深度特征為條件,在混合語音中通過匹配來選擇目標(biāo)說話人語音。雖然性能表現(xiàn)不錯,但體量龐大,參數(shù)量高,并且大部分方法是基于片段或全序列計算,延遲較長。一些學(xué)者嘗試將語音分離與語音活動檢測(Voice Activity Detection, VAD)結(jié)合起來,例如文獻[15-16],通過訓(xùn)練一種端到端的分類模型,將混合語音的逐幀深度嵌入與聲學(xué)特征直接拼接作為網(wǎng)絡(luò)輸入,使模型直接學(xué)習(xí)到在混合語音的融合特征中抽取目標(biāo)說話人語音幀的能力。
為了能在多說話人語音環(huán)境下實現(xiàn)實時準(zhǔn)確的聲紋驗證,本文基于文獻[15]對用于目標(biāo)說話人提取的網(wǎng)絡(luò)結(jié)構(gòu)進行進一步改進,提升其分類性能,之后根據(jù)系統(tǒng)的需要,做更具體的設(shè)置,最后將其應(yīng)用于聲紋驗證模型前端。本文聲紋驗證模型使用ECAPA-TDNN[17]。
1 系統(tǒng)方案設(shè)計
本聲紋驗證系統(tǒng)在使用流程上分為注冊階段和驗證階段,在完成聲紋識別模型預(yù)訓(xùn)練后,進行目標(biāo)說話人聲紋注冊。系統(tǒng)對錄入的說話人語音進行預(yù)加重、分幀加窗等預(yù)處理操作后,進行聲學(xué)特征提取并輸入預(yù)訓(xùn)練聲紋識別模型中,聲紋識別模型輸出說話人的聲紋嵌入碼(Embedding)。同時,在后端使用目標(biāo)說話人語音段訓(xùn)練引入語音分離功能的VAD模型,在本文中稱之為SD-VAD(Speaker Diarization-Voice Activity Detection, SD-VAD)。
在說話人驗證階段,系統(tǒng)激活后從連續(xù)的多人聲場景中對每幀音頻信號做預(yù)處理,之后輸入訓(xùn)練完成的SD-VAD模塊,其可以過濾掉非語音段和明顯的非目標(biāo)說話人語音段,僅將識別為目標(biāo)說話人語音的幀進行拼接,然后輸入到聲紋識別模型中,得到其聲紋嵌入碼,并與注冊階段得到的目標(biāo)說話人嵌入碼進行相似度打分判決,最后輸出接受或拒絕動作。系統(tǒng)總體架構(gòu)如圖1所示。
2 SD-VAD設(shè)計
本文使用的SD-VAD模型的結(jié)構(gòu)如圖2所示。模型的核心部分由兩層卷積核為3的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、兩層隱層單元數(shù)為64的雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, BiLSTM)以及作為分類器的兩層全連接層(FC)組成。比基線結(jié)構(gòu)[15]多使用兩層CNN,是為了使網(wǎng)絡(luò)擁有更強大的特征提取能力,從多說話人混合語音的Fbank-d-vector融合特征中實現(xiàn)更好的幀級分類。因為層數(shù)較少,且CNN具有權(quán)值共享機制,所以參數(shù)量并不會提升太多,依然保證其能夠兼顧VAD功能的輕量化和低延遲性。
本文將原始結(jié)構(gòu)中的LSTM換為BiLSTM,相當(dāng)于在每層原始LSTM后多加入了一層反向的LSTM,這樣的結(jié)構(gòu)設(shè)計使模型不僅獲得了之前的上下文信息,也參考了未來的上下文信息,使得網(wǎng)絡(luò)在處理輸入幀序列時有了更強的表達能力。在BiLSTM中,我們設(shè)置正向和反向的LSTM使用相同的權(quán)重矩陣,嚴(yán)格控制模型的參數(shù)數(shù)量。
2.1 Fbank-d-vector融合特征
僅使用輕量化的網(wǎng)絡(luò)結(jié)構(gòu)對抽象的Fbank特征做幀級的說話人分類是不現(xiàn)實的,需要一個幀級音頻的深度表征向量來幫助SD-VAD關(guān)注到語音中不同的聲紋信息,故使用Fbank-d-vector融合特征向量作為SD-VAD網(wǎng)絡(luò)的輸入。
在混合語音聲學(xué)特征的選擇上,基線結(jié)構(gòu)[15]中使用的是40維的MFCC,本文使用80維的Fbank,原因是在基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)中,F(xiàn)bank會保留原始語音信號中的更多非線性成分,表現(xiàn)更佳。并且本文的后端聲紋驗證網(wǎng)絡(luò)也使用同樣參數(shù)的Fbank特征訓(xùn)練,在SD-VAD處理后可以直接將分類為目標(biāo)說話人的幀特征拼接輸入聲紋驗證模型中。
在完成語音信號預(yù)加重、分幀加窗等預(yù)處理操作后,對得到的成序列的語音幀進行快速傅里葉變換,然后逐幀通過梅爾濾波器組并計算對數(shù)能量,即得到Fbank特征。
因為SD-VAD模型需要對音頻流中每個幀做分類決策,所以x-vector體系的音頻段級嵌入并不適用,本文選擇使用DNN提取語音的幀級深度表征向量d-vector,其結(jié)構(gòu)示意圖如圖3所示。
全連接DNN網(wǎng)絡(luò)使用最后一層隱藏層輸出的d-vector作為幀級音頻嵌入碼。訓(xùn)練過程中其后兩層DNN中使用了Dropout,使隨機的50%神經(jīng)元失活,以此來增強網(wǎng)絡(luò)模型對不同樣本特征的認知能力,從而避免過擬合的產(chǎn)生,提高了提取深度特征的泛化性。
此結(jié)構(gòu)的應(yīng)用類似于知識蒸餾中的學(xué)生網(wǎng)絡(luò),它在更大規(guī)模的數(shù)據(jù)集上單獨預(yù)訓(xùn)練,在SD-VAD中只負責(zé)提取512維
的幀級嵌入碼并與相同幀的Fbank特征直接拼接后輸入CNN中。如此,輸入SD-VAD的Fbank-d-vector融合特征為592維度的向量集合,使網(wǎng)絡(luò)在長時間上下文中不僅可以關(guān)注到聲學(xué)特征的時序變化,還可以關(guān)注到深度聲紋特征的異同,直接實現(xiàn)語音幀分類的目的。
2.2 類內(nèi)加權(quán)損失
將每幀信號特征輸入網(wǎng)絡(luò),以三分類問題進行網(wǎng)絡(luò)訓(xùn)練,SD-VAD模型為每幀信號生成幀級類概率:
(1)
式中:Zt=[Ztts, Ztnts, Ztns],三類分別是目標(biāo)語音(target speech, ts),非目標(biāo)語音(non-target speech, nts),非語音(non-
speech, ns)。
設(shè)輸出的預(yù)測值為Zt,則第m類的非正則化概率表示為Zt(m),幀級標(biāo)簽為y,那么使用的交叉熵損失函數(shù)表示
如下:
(2)
式中:y, m∈{ns, ts, nts}。在SD-VAD系統(tǒng)中,我們的目標(biāo)是盡可能只保留目標(biāo)說話人的語音活動,被識別為ns和nts的音頻幀都會被裁剪丟棄,所以[ns, nts]之間的混淆錯誤對系統(tǒng)的性能影響小于[ts, ns]和[ts, nts]這兩種混淆。此外,因為SD-VAD模塊下游還有魯棒性較強的說話人驗證模型,考慮到系統(tǒng)實現(xiàn)目標(biāo)說話人語音識別的拓展可能,最大程度保留目標(biāo)語音,所以對一些因信噪比較低等因素導(dǎo)致的難以分辨的音頻幀來說,錯誤接受ns或nts要比錯誤拒絕ts代價小。基于上述需求,我們對交叉熵損失做個性化改進,給定Zt(m)和y,則類間加權(quán)損失函數(shù)定義為:
(3)
式中:W[m, y]是m類和標(biāo)簽y之間的權(quán)重,其值與損失值成正相關(guān),可以理解為將y錯誤的識別為m類時,施加的額外懲罰。在基線系統(tǒng)中,W[m, y]與W[y, m]不做區(qū)分,定義的是兩類互相混淆的代價權(quán)重,本文根據(jù)系統(tǒng)實際需要做進一步區(qū)分。設(shè)置W[ns, ts]=W[nts, ts]=1;W[ts, ns]=W[ts, nts]=0.7;W[ns, nts]=
W[nts, ns]=0.5,如此網(wǎng)絡(luò)經(jīng)過訓(xùn)練更新,對[ns, nts]兩類之間的混淆容忍度最高,對將其他兩類識別為目標(biāo)說話人語音幀的錯誤容忍度適中,對將目標(biāo)說話人識別為其他兩類,導(dǎo)致注冊用戶語音信息被裁剪掉的錯誤容忍度最低。
3 聲紋驗證模型
本文使用的聲紋驗證模型為ECAPA-TDNN,其基于時延神經(jīng)網(wǎng)絡(luò)引入了多項改進,來獲取更強大的深度特征向量提取能力。首先,池化層使用依賴于通道和上下文的注意力機制,使網(wǎng)絡(luò)關(guān)注每個特征圖在不同時間步長上的特征屬性,擴展池化層的時間上下文信息。其次,提出了SE-Res2Block模塊,構(gòu)建分層殘差連接來處理多尺度特征,從而減少了模型參數(shù)的數(shù)量。最后,使用多層特征聚合將所有SE-Res2Block的輸出特征映射相連,在池化之前合并信息,獲取了更細粒度的語音特征以增強系統(tǒng)的魯棒性。
在聲紋識別領(lǐng)域中,ECAPA-TDNN網(wǎng)絡(luò)是當(dāng)前基于x-vector段級識別模型中最先進的架構(gòu)[18]。本文將SD-VAD應(yīng)用于其前端,代替?zhèn)鹘y(tǒng)的VAD模塊,來測試帶有語音分離的語音活動檢測能給聲紋驗證系統(tǒng)帶來怎樣的提升。
4 實驗
4.1 數(shù)據(jù)集與參數(shù)設(shè)置
SD-VAD模型訓(xùn)練和測試需要使用的數(shù)據(jù)集中大多數(shù)音頻都應(yīng)該包含目標(biāo)說話人片段以及隨機的其他說話人片段和非語音片段,本文基于此需求,使用VoxCeleb1[19]和MUSAN[20]噪聲數(shù)據(jù)集進行數(shù)據(jù)集制作。
VoxCeleb1的訓(xùn)練集有1 211位說話人,在其中確定一個目標(biāo)說話人A,將A的語音切分成2~3 s不等的小段,將它們與隨機的0~3名其他說話人的語音小段拼接起來模擬單說話人或多說話人環(huán)境,此時訓(xùn)練語音中就有了ts、nts兩類語音幀,在得到的混合語音中插入MUSAN隨機噪聲段或空白段作為非語音類。圖4所示為基于目標(biāo)說話人語音制作訓(xùn)練集語音的示意圖。
生成了共計18 617條混合語音用于訓(xùn)練,300條混合語音用于測試,如圖5所示,其中大部分語音時長在8~14 s。
實驗使用Ubuntu18.04操作系統(tǒng),基于pytorch1.9.0在NVIDIA GeForce RTX 3080 Ti上進行訓(xùn)練。在幀長為25 ms,步長10 ms的語音幀上提取80維Fbank特征輸入網(wǎng)絡(luò)。訓(xùn)練中使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為10-4。聲紋驗證模型ECAPA-TDNN按原文[17]方式搭建和訓(xùn)練,訓(xùn)練集使用VoxCeleb2[21],與SD-VAD訓(xùn)練集不重合。
4.2 實驗一
在使用數(shù)據(jù)增強和不使用數(shù)據(jù)增強的策略下,分別訓(xùn)練基線[15]的結(jié)構(gòu)和本文SD-VAD結(jié)構(gòu),損失函數(shù)使用本文設(shè)置的類間加權(quán)損失,得到三個分類的AP和模型mAP,結(jié)果見表1所列。
由上表整體來看,本文SD-VAD模型在無噪環(huán)境下目標(biāo)說話人類的準(zhǔn)確率達到93.5%,三類平均精確度達到92%,基本滿足設(shè)計要求。此外,無論是否使用數(shù)據(jù)增強,SD-VAD的檢測結(jié)果都優(yōu)于基線模型。而且加噪訓(xùn)練較不加噪訓(xùn)練,基線模型mAP下降了7.2%,SD-VAD的mAP下降了3.6%,低于基線結(jié)構(gòu)。證明加入了CNN和雙向LSTM的結(jié)構(gòu)對于長時間序列數(shù)據(jù)的檢測精度更高,且受噪聲影響較小,具有更好的魯棒性。
4.3 實驗二
注意到表1中在所有情境下ts類的AP值都稍高于ns類和nts類,推斷其可能是類間加權(quán)損失函數(shù)的作用,為排除樣本不均衡的可能,我們對使用交叉熵損失的模型和類間加權(quán)損失的模型做對比。為了更關(guān)注目標(biāo)說話人語音的識別精度,在每輪測試時,我們將網(wǎng)絡(luò)視為二分類模型,ts為正類,ns、nts為負類,計算ts類的誤報率(False Positive Rate, FPR)和漏報率(False Negative Rate, FNR),其中,誤報率就是負類判定為正類的數(shù)量除以負類總數(shù),漏報率就是正類判定為負類的數(shù)量除以正類總數(shù),結(jié)果如圖6所示。
由圖中可以看出,按本文設(shè)置的參數(shù)使用了類間加權(quán)損失的模型相比使用普通的交叉熵損失,目標(biāo)說話人類的誤報率有小幅度升高,漏報率有大幅下降,說明類間加權(quán)損失在訓(xùn)練中起到了根據(jù)實際需要重點降低ts類漏報的作用,以增加其他語音摻雜進目標(biāo)說話人語音特征為代價,減少丟失目標(biāo)語音信息,對下游的聲紋識別或語音識別系統(tǒng)更為友好。
4.4 實驗三
本小節(jié)實驗將SD-VAD應(yīng)用于ECAPA-TDNN聲紋驗證模型的前端,替換傳統(tǒng)的VAD模塊,以驗證在多說話人場景下,SD-VAD為系統(tǒng)帶來的性能改善。
使用上述說話人A的單人語音注冊ECAPA-TDNN,測試使用的實驗數(shù)據(jù)分為兩部分。一部分是多說話人場景數(shù)據(jù),使用SD-VAD模型測試集作為正樣本,2~3位其他說話人語音使用同樣策略拼接作為負樣本。另一部分是單說話人場景數(shù)據(jù),VoxCeleb1中A的單人語音作為正樣本,其他說話人單人語音作為負樣本。生成兩個部分?jǐn)?shù)據(jù)集正負樣本各300個。
聲紋驗證是二分類問題,使用錯誤拒絕率(False Rejection Rate, FRR)和錯誤接受率(False Acceptance Rate, FAR)作為評價指標(biāo)。
在不進行額外數(shù)據(jù)增強的情況下進行如下評估。
實驗一:測試音頻無VAD處理直接輸入聲紋驗證模型;
實驗二:測試音頻經(jīng)基于GMM的傳統(tǒng)VAD[22]算法處理后輸入聲紋驗證模型;
實驗三:測試音頻經(jīng)本文預(yù)訓(xùn)練的SD-VAD模型處理后輸入聲紋驗證模型。
實驗結(jié)果見表2所列。
由上表可以看出,在單說話人語音測試中,VAD模塊的加入對聲紋驗證性能沒有太大提升,因為VoxCeleb1數(shù)據(jù)集中的語音基本沒有靜音段,傳統(tǒng)VAD和SD-VAD的工作是過濾掉少量的噪聲幀,性能差異不大。但在多說話人語音測試中,應(yīng)用SD-VAD的聲紋驗證系統(tǒng)錯誤拒絕率(FRR)顯著低于應(yīng)用傳統(tǒng)VAD和無VAD的系統(tǒng),錯誤接受率(FAR)也較傳統(tǒng)VAD有所降低。無VAD的系統(tǒng)在復(fù)雜的多說話人場景下基本沒有匹配成功(接受)的語音,故其錯誤接受率沒有比較價值。
5 結(jié) 語
本文實現(xiàn)并改進了一個具有單一目標(biāo)說話人語音分離能力的語音活動檢測模型。在基線網(wǎng)絡(luò)上通過引入CNN和BiLSTM結(jié)構(gòu),使網(wǎng)絡(luò)關(guān)注到了更深更廣的全局特征,提高了SD-VAD模型檢測精度。此外,將SD-VAD應(yīng)用于聲紋驗證模型前端,通過實驗驗證,其顯著提升了整個聲紋驗證系統(tǒng)的性能。本系統(tǒng)假設(shè)每個語音幀中只存在一名說話人,對重疊語音檢測效果不好,在未來的工作中,將重點關(guān)注更多的時頻域語音分離方法,繼而做進一步研究。
參考文獻
[1] AGHAJAN H,AUGUSTO J C,DELGADO R L C. Human-centric interfaces for ambient intelligence [M]. Academic Press. 2009.
[2] REYNOLDS D A,QUATIERI T F,DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital signal processing,2000,10(1/2/3):19-41.
[3] MATEJKA P,GLEMBEK O,CASTALDO F,et al. Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2011:4828-4831.
[4] VARIANI E,XIN L,MCDERMOTT E,et al. Deep neural networks for small footprint text-dependent speaker verification [C]// IEEE International Conference on Acoustics,Speech and Signal Processing,ICASSP 2014,F(xiàn)lorence,Italy,May 4-9,2014:4052-4056.
[5] SNYDER D,GARCIA-ROMERO D,POVEY D,et al. Deep neural network embeddings for text-independent speaker verification.[C]// Interspeech,2017:999-1003.
[6]趙鶴鳴,葛良,陳雪勤,等.基于聲音定位和聽覺掩蔽效應(yīng)的語音分離研究[J].電子學(xué)報,2005,44(1):158-160.
[7] YOSHII K,TOMIOKA R,MOCHIHASHI D,et al. Beyond nmf:time-domain audio source separation without phase reconstruction [C]// Proceedings of the 14th International Society for Music Information Retrieval Conference (ISMIR). Curitiba,2013:369-374.
[8] XU Y,DU J,DAI L R,et al.An experimental study on speech enhancement based on deep neural networks [J]. IEEE signal processing letters,2014,21(1):65-68.
[9] WENINGER F,EYBEN F,SCHULLER B. Single-channe speech separation with memory-enhanced recurren neural networks [C]// IEEE International conference on acoustics,speech and signal processing(ICASSP). IEEE,2014:3709-3713.
[10] XU C,RAO W,CHNG E S,et al. Optimization of speaker extraction neural network with magnitude and temporal spectrum approximation loss [C]// IEEE International conference on acoustics,speech and signal processing (ICASSP). Brighton,2019:6990-6994.
[11] WANG Q,MUCKENHIRN H,WILSON K,et al. VoiceFilter:Targeted voice separation by speaker conditioned spectrogram masking [C]// 20th annual conference of the international speech communication association. Graz,2019:2728-2732.
[12] WANG J,CHEN J,SU D,et al. Deep extractor network for target speaker recovery from single channel speech mixtures [C]// 19th annual conference of the international speech" communication association(Interspeech). Hyderabad,2018:307-311.
[13] RAO W,XU C,CHNG E S,et al. Target speaker extraction for multi-talker speaker verification [C]// Proceedings of the annual conference of the international speech communication association(Interspeech). Graz,2019:1273-1277.
[14] HAN J,SHI Y,LONG Y,et al. Exploring single channel speech separation for short-time text dependent speaker verification [J]. International journal of speech technology,2022,25(1):261-268.
[15] DING S,WANG Q,CHANG S,et al. Personal VAD:Speaker-conditioned voice activity detection [Z]. arXiv preprint arXiv:1908.04284(2019).
[16] MEDENNIKOV I,KORENEVSKY M,PRISYACH T,et al. Target-speaker voice activity detection:a novel approach for multi-speaker diarization in a dinner party scenario [Z]. arXiv preprint arXiv:2005.07272 (2020).
[17] DESPLANQUES B,THIENPONDT J,DEMUYNCK K. Ecapa-tdnn:Emphasized channel attention,propagation and aggregation in tdnn based speaker verification [Z]. arXiv preprint arXiv:2005.07143(2020).
[18] TONG F,ZHAO M,ZHOU J,et al. ASV-Subtools:Open source toolkit for automatic speaker verification [C]// In ICASSP 2021-2021 IEEE international conference on acoustics,speech and signal processing(ICASSP),2021:6184-6188.
[19] NAGRANI A,CHUNG J S,ZISSERMAN A. Voxceleb:a large-scale speaker identificationdataset [Z]. arXiv preprint arXiv:1706.08612(2017).
[20] SNYDER D,CHEN G,POVEY D. Musan:A music,speech,and noise corpus [Z]. arXiv preprint arXiv:1510.08484(2015).
[21] CHUNG J S,NAGRANI A,ZISSERMAN A. Voxceleb2:Deep speaker recognition [Z]. ar Xivpreprint ar Xiv:1806.05622,(2018).
[22] Google WebRTC[EB/OL]. https://webrtc.org/. Accessed,2016-3-20.