999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認(rèn)方法

2024-01-09 04:00:14張玉蓮姚姍姍王超暢江
計(jì)算機(jī)應(yīng)用 2023年12期
關(guān)鍵詞:特征方法模型

張玉蓮,姚姍姍,王超,暢江

基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認(rèn)方法

張玉蓮,姚姍姍*,王超,暢江

(山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006)(?通信作者電子郵箱 yaoshanshan@sxu.edu.cn)

說話人確認(rèn)任務(wù)旨在判斷注冊(cè)語音與測(cè)試語音是否屬于同一說話人。針對(duì)說話人識(shí)別系統(tǒng)提取的聲紋特征通常會(huì)受到與身份信息無關(guān)的因素干擾進(jìn)而導(dǎo)致系統(tǒng)的準(zhǔn)確性嚴(yán)重下降的問題,提出一種基于不確定性學(xué)習(xí)(UL)的文本無關(guān)的說話人確認(rèn)(TISV)方法。首先,在說話人主干網(wǎng)絡(luò)中引入不確定性同時(shí)學(xué)習(xí)聲紋特征(均值)和話語數(shù)據(jù)的不確定性(方差),以建模語音數(shù)據(jù)集中的不確定性;其次,通過重采樣技巧得到特征的分布表示;最后,在說話人分類損失中引入KL散度正則化約束噪聲的分布,從而解決計(jì)算分類損失過程中的退化問題。實(shí)驗(yàn)結(jié)果表明,當(dāng)訓(xùn)練集為VoxCeleb1和VoxCeleb2開發(fā)集時(shí),與基于確定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O測(cè)試集上的等錯(cuò)誤率(EER)分別降低了9.9%和10.4%,最小檢測(cè)代價(jià)函數(shù)(minDCF)分別降低了10.9%和4.5%。可見,所提方法在有噪聲、無約束場(chǎng)景下的準(zhǔn)確度有所提高。

說話人確認(rèn);數(shù)據(jù)不確定性;分布嵌入;AAM-softmax;KL散度

0 引言

人類具有通過說話聲音判別說話人的能力。為了使計(jì)算機(jī)獲得這種能力,基于語音的認(rèn)證技術(shù)應(yīng)運(yùn)而生,該技術(shù)被稱為自動(dòng)說話人識(shí)別(Automatic Speaker Recognition,ASR)。ASR通過分析從說話人聲音中提取的語音信號(hào)和特征識(shí)別說話人的身份,由于它獲取語音成本低、用戶接受程度高、適合遠(yuǎn)程身份認(rèn)證和不涉及用戶隱私等優(yōu)點(diǎn),近年來備受關(guān)注,已快速發(fā)展并廣泛應(yīng)用于公安電信反欺詐、刑事調(diào)查和移動(dòng)支付等領(lǐng)域。

說話人確認(rèn)是說話人識(shí)別的任務(wù)之一,用于判斷給定的兩段語音是否屬于同一個(gè)人。根據(jù)應(yīng)用場(chǎng)景,又可分為文本相關(guān)的說話人確認(rèn)(Text-Dependent Speaker Verification,TDSV)和文本無關(guān)的說話人確認(rèn)(Text-Independent Speaker Verification,TISV)。文本無關(guān)指說話人識(shí)別系統(tǒng)對(duì)說話的內(nèi)容無任何要求,在訓(xùn)練和識(shí)別階段說話人只需要隨意地錄制達(dá)到一定長(zhǎng)度的語音即可;而文本相關(guān)指說話人識(shí)別系統(tǒng)要求用戶必須按照事先指定的文本內(nèi)容進(jìn)行發(fā)音。由于TISV對(duì)語音內(nèi)容沒有施加任何限制,更加方便靈活,具有更好的推廣性和適應(yīng)性,但也比TDSV更具挑戰(zhàn)性,因此本文聚焦TISV的研究。

基于深度學(xué)習(xí)的體系結(jié)構(gòu)可以從大型標(biāo)記數(shù)據(jù)集同時(shí)學(xué)習(xí)特征表示和決策框架,不需要再為任何特定的問題手工制作特征。大規(guī)模數(shù)據(jù)集(如用于圖像分類的ImageNet[1]、用于人臉識(shí)別的LFW(Labeled Faces in the Wild)[2]和用于說話人識(shí)別的VoxCeleb[3])的可用性促進(jìn)了深度學(xué)習(xí)的進(jìn)展。作為智能語音領(lǐng)域的熱點(diǎn)研究方向,近年來,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的TISV技術(shù)在可控場(chǎng)景下已取得了卓越的性能;然而,數(shù)據(jù)驅(qū)動(dòng)方法無法定義模型在訓(xùn)練過程中學(xué)習(xí)的信息——是數(shù)據(jù)集中存在的有用信息,還是不希望被學(xué)習(xí)的偏差。在實(shí)際應(yīng)用場(chǎng)景中,由于外在和內(nèi)在的變化(外在的變化包括背景聊天、音樂、笑聲、混響、頻道和麥克風(fēng)效果等;內(nèi)在的變化是說話者本身固有的因素,如年齡、口音、情感、語調(diào)和說話方式等),TISV系統(tǒng)性能嚴(yán)重下降。為此,大量的研究者提出了不同的網(wǎng)絡(luò)架構(gòu)、池化方式、損失函數(shù)等,以提升說話人確認(rèn)系統(tǒng)的魯棒性和泛化性。

與這些工作不同,本文從數(shù)據(jù)的不確定性角度出發(fā),提出一種基于不確定性學(xué)習(xí)(Uncertainty Learning, UL)的文本無關(guān)的說話人確認(rèn)方法。

本文的主要工作內(nèi)容如下:

1)不同于目前常用的說話人確認(rèn)模型將說話人特征表示為潛在空間中的點(diǎn)估計(jì),為了應(yīng)對(duì)真實(shí)環(huán)境存在的噪聲等干擾,本文方法為說話人特征提供了分布估計(jì)的方式。分布的均值代表最可能的說話人特征,即理想的聲紋特征;而分布的方差是對(duì)不確定的噪聲進(jìn)行估計(jì),代表聲紋特征受說話人無關(guān)信息干擾的程度。

2)本文方法學(xué)習(xí)的分布表示可以直接用于各種分類損失和傳統(tǒng)的相似性度量,并使用KL(Kullback-Leibler)散度[4]正則化約束噪聲的分布,解決計(jì)算分類損失時(shí)的退化問題。

實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的確定性模型相比,本文方法提高了說話人確認(rèn)系統(tǒng)的性能。這一改進(jìn)在有噪聲、無約束的場(chǎng)景下更顯著,表明具有數(shù)據(jù)不確定性學(xué)習(xí)的模型更加適用于真實(shí)的復(fù)雜環(huán)境和實(shí)際場(chǎng)景。

1 相關(guān)工作

1.1 文本無關(guān)的說話人確認(rèn)

1.1.1傳統(tǒng)方法

1.1.2深度學(xué)習(xí)方法

基于DNN的說話人嵌入提取系統(tǒng)通常由3個(gè)部分組成:幀級(jí)特征處理、話語(說話人)級(jí)特征處理和訓(xùn)練損失。幀級(jí)特征處理提取局部短跨度的聲學(xué)特征,可以通過時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-Delay Neural Network,TDNN)或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)完成;話語級(jí)特征處理基于幀級(jí)特征形成說話人的表示,即用池化層收集幀級(jí)信息以形成語句級(jí)別的特征表示,例如統(tǒng)計(jì)池[7]、最大池化[8]、注意力統(tǒng)計(jì)池[9]和多頭注意力統(tǒng)計(jì)池[10]等,通過使用統(tǒng)計(jì)池、自注意力和可學(xué)習(xí)字典編碼(Learnable Dictionary Encoding, LDE)[11]等方法,神經(jīng)網(wǎng)絡(luò)能從話語中提取更有意義的低維向量;常用的訓(xùn)練損失有交叉熵?fù)p失和三元損失,基于交叉熵?fù)p失的方法[6]側(cè)重減少訓(xùn)練數(shù)據(jù)中所有說話者的混淆,基于三元損失的方法[12]聚焦增大相似說話人之間的差距。此外,為了進(jìn)一步增強(qiáng)說話人嵌入的判別力,一些更復(fù)雜有效的網(wǎng)絡(luò)架構(gòu)和損失函數(shù)[13-19]被提出。

1.2 不確定性學(xué)習(xí)

深度學(xué)習(xí)算法可以將高維數(shù)據(jù)映射到低維向量,得到特征表示;然而,在諸如自動(dòng)駕駛、人臉識(shí)別等應(yīng)用中,深度學(xué)習(xí)模型的結(jié)果并非總是可信的。因此,算法如果能夠判斷模型給出的結(jié)果是否可信,即對(duì)模型的結(jié)果給出一個(gè)置信度,那么系統(tǒng)就可以根據(jù)這個(gè)置信度作出更好的決策,并有可能避免災(zāi)難。如圖1所示是一個(gè)判別數(shù)據(jù)對(duì)的相似度的系統(tǒng),判別系統(tǒng)給出的相似度結(jié)果都是90%,由于系統(tǒng)對(duì)給出的判斷具有一定程度的“不確定性”,一個(gè)置信度為10%,另一個(gè)為90%,人們需要類似置信度分?jǐn)?shù)這類的“不確定性”指標(biāo)輔助以作出更好的決策。

圖1 不確定性示意圖

長(zhǎng)期以來,為了幫助解決可靠性評(píng)估和基于風(fēng)險(xiǎn)的決策問題,不確定性的性質(zhì)和處理方法已被廣泛研究。近年來,深度學(xué)習(xí)中的不確定性研究也備受關(guān)注。針對(duì)深度不確定性學(xué)習(xí),不確定性可以分為在DNN中捕獲參數(shù)噪聲的模型不確定性和測(cè)量給定訓(xùn)練數(shù)據(jù)中固有噪聲的數(shù)據(jù)不確定性。目前許多計(jì)算機(jī)視覺任務(wù),如語義分割[20-21]、目標(biāo)檢測(cè)[22]、行人再識(shí)別[23]和人臉識(shí)別[24-25]都將深度不確定性學(xué)習(xí)引入中樞神經(jīng)網(wǎng)絡(luò),提高模型的魯棒性和可解釋性。

本文將不確定性學(xué)習(xí)引入說話人確認(rèn)任務(wù)的中樞神經(jīng)網(wǎng)絡(luò)。本文主要關(guān)注數(shù)據(jù)的不確定性,通過使網(wǎng)絡(luò)模型同時(shí)學(xué)習(xí)聲紋特征(均值)與不確定的噪聲(方差),以實(shí)現(xiàn)同一說話人的語句提取的聲紋特征距離更近,不同說話人的聲紋特征距離更遠(yuǎn)。

2 本文方法

2.1 確定性的說話人識(shí)別

經(jīng)典的確定性的說話人確認(rèn)模型的網(wǎng)絡(luò)框架如圖2所示。在訓(xùn)練階段,訓(xùn)練一個(gè)閉集的分類模型,分類頭的維數(shù)等于訓(xùn)練數(shù)據(jù)集中的說話人數(shù),使用殘差網(wǎng)絡(luò)(Residual Network, ResNet)[26]提取幀級(jí)特征,再使用自注意力池(Self-Attentive Pooling, SAP)[27]將幀級(jí)特征聚合成話語級(jí)特征,最后計(jì)算采用了非線性softmax的分類頭與真實(shí)標(biāo)簽的交叉熵?fù)p失,圖2中采用的損失函數(shù)是AAM-softmax(Additive Angular Margin-softmax)[28]。訓(xùn)練完成后,去除分類頭,將模型作為說話人特征的提取器,提取話語對(duì)的說話人特征,然后進(jìn)行相似度打分。

圖2 確定性的說話人確認(rèn)模型

2.2 基于不確定性學(xué)習(xí)的說話人識(shí)別

2.2.1語音數(shù)據(jù)集中的不確定性

2.2.2分布表示

2.2.3訓(xùn)練損失

2.2.4DNN實(shí)現(xiàn)

整個(gè)聲紋不確定性模型的框架如圖3所示。

圖3 基于UL的TISV方法的模型架構(gòu)

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

3.1.1數(shù)據(jù)集

本文使用目前主流的VoxCeleb1和VoxCeleb2數(shù)據(jù)集[31],VoxCeleb1和VoxCeleb2是沒有重復(fù)交集的兩個(gè)說話人識(shí)別數(shù)據(jù)集,它們均來自YouTube網(wǎng)站中的視頻。VoxCeleb1包含1 251位名人的10多萬句話語,VoxCeleb2包含超過6 000位名人的100多萬句話語。這兩個(gè)數(shù)據(jù)集的性別比例都較均衡(VoxCeleb1包含55%男性,VoxCeleb2包含61%男性)。數(shù)據(jù)集中的演講者跨越了不同的種族、口音、職業(yè)和年齡,并且所有話語都受現(xiàn)實(shí)世界的噪聲干擾,包括背景聊天、笑聲、重疊語音和房間聲學(xué)等。

本文包含兩組實(shí)驗(yàn):一組使用VoxCeleb1開發(fā)集作為訓(xùn)練集,包含除測(cè)試集以外的1 211位說話人的21 819條語音,采用VoxCeleb1-O作為測(cè)試集;另一組使用VoxCeleb2開發(fā)集作為訓(xùn)練集,包含除測(cè)試集以外的5 994位說話人的1 092 009條語音,采用VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H這3個(gè)數(shù)據(jù)集作為測(cè)試集。以下對(duì)3個(gè)測(cè)試集進(jìn)行介紹:

1)VoxCeleb1-O:包含37 720組采樣自VoxCeleb1中的40位說話人的測(cè)試對(duì),其中18 860組測(cè)試對(duì)為真。

2)VoxCeleb1-E:是VoxCeleb1-O的擴(kuò)展,包含采樣自VoxCeleb1的1 251位說話人的581 480組測(cè)試對(duì)。

3)VoxCeleb1-H:包含采樣自VoxCeleb1的1 251位說話人的552 536個(gè)測(cè)試對(duì)。因?yàn)槊拷M測(cè)試對(duì)中說話人的國(guó)家和性別都相同,所以更難。

數(shù)據(jù)增強(qiáng)可以增加訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性,有效減少過擬合,提升模型的性能,本文在語音處理中采用了兩種流行的增強(qiáng)方法——加性噪聲和房間脈沖響應(yīng)(Room Impluse Response, RIR)模擬。加性噪聲使用來自MUSAN語料庫的語音片段[32];RIR從文獻(xiàn)[33]中發(fā)布的中小房間的模擬濾波器進(jìn)行采樣得到。

3.1.2評(píng)價(jià)指標(biāo)

本文使用了兩個(gè)評(píng)價(jià)指標(biāo):

1)等錯(cuò)誤率(Equal Error Rate, EER)[34]。是錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的閾值,能夠衡量說話人確認(rèn)系統(tǒng)的性能,EER越小,說明模型性能越好。本文將EER作為主要評(píng)價(jià)指標(biāo)。

2)最小檢測(cè)代價(jià)函數(shù)(minimum Detection Cost Function,minDCF)[34]。旨在系統(tǒng)對(duì)錯(cuò)誤接受率(False Accept Rate, FAR)和錯(cuò)誤拒絕率(False Reject Rate, FRR)兩種錯(cuò)誤判別設(shè)定不同的權(quán)重,minDCF越小越好。minDCF計(jì)算公式如式(6)所示:

3.2 基線網(wǎng)絡(luò)架構(gòu)及本文的網(wǎng)絡(luò)架構(gòu)

本文以確定性模型為基線,采用殘差網(wǎng)絡(luò)[35-36]作為幀級(jí)特征提取器,使用Thin ResNet34提取幀級(jí)特征。Thin ResNet34與原始的ResNet34相同,有34層,但在每個(gè)殘差塊中只使用1/2的通道以減少計(jì)算成本。SAP作為池化層,將幀級(jí)特征聚合為話語級(jí)表示,通過自動(dòng)計(jì)算每一幀的重要性選擇重要的幀級(jí)特征,利用注意力機(jī)制將更多的注意力集中到為話語級(jí)說話人識(shí)別提供更多信息的幀。在池化層之后,引入一個(gè)維度為256的全連接層,作為256維的說話人嵌入提取層。最后,設(shè)置一個(gè)維數(shù)為訓(xùn)練集說話人數(shù)的分類頭,使用AAM-softmax分類損失,即式(4)。

表1基線Thin ResNet34和本文方法的網(wǎng)絡(luò)架構(gòu)

Tab.1 Network architectures of baseline Thin ResNet34 and proposed method

注:為輸入序列的長(zhǎng)度。

3.3 模型輸入及訓(xùn)練策略

本文實(shí)驗(yàn)在Linux下的PyTorch 1.11.0環(huán)境運(yùn)行,使用8張Tesla P100顯卡進(jìn)行訓(xùn)練,每張顯卡顯存為16 GB,實(shí)驗(yàn)batchsize設(shè)置為256。以長(zhǎng)度為3 s的隨機(jī)片段提取的梅爾頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficient, MFCC)特征作為訓(xùn)練樣本,使用窗長(zhǎng)為25 ms,窗移為10 ms的漢明窗進(jìn)行滑動(dòng)分幀處理,每幀提取64維MFCC特征,不進(jìn)行語音活動(dòng)檢測(cè)。作為最后的增強(qiáng)步驟,對(duì)大小為64×300的對(duì)數(shù)梅爾譜圖應(yīng)用了SpecAugment[37],在時(shí)域隨機(jī)掩碼0~10幀,在頻域隨機(jī)掩碼0~8個(gè)通道。

模型訓(xùn)練使用Adam優(yōu)化器,模型學(xué)習(xí)率均為2×10-3,使用余弦退火(Cosine Annealing)學(xué)習(xí)率調(diào)節(jié)算法[38],AAM-softmax損失函數(shù)中scale設(shè)為30,margin設(shè)置為0.2。為了防止過擬合,對(duì)模型中的所有參數(shù)使用了2×10-5權(quán)重衰減。

3.4 實(shí)驗(yàn)結(jié)果對(duì)比

表2、3展示了基線Thin ResNet34和本文方法在測(cè)試集上的評(píng)估結(jié)果。

表2訓(xùn)練集為VoxCeleb1開發(fā)集時(shí),VoxCeleb1-O測(cè)試集上的評(píng)估結(jié)果

Tab.2 Evaluation results on VoxCeleb1-O test set after training on VoxCeleb1 development set

相較于確定性架構(gòu),本文方法的模型性能有明顯提升,如表2所示,訓(xùn)練集為VoxCeleb1開發(fā)集時(shí),在VoxCeleb1-O測(cè)試集上EER從2.413%降到了2.175%,EER相較于基線減小了9.9%,minDCF相較于基線減小了10.9%;如表3所示,訓(xùn)練集為Voxceleb2開發(fā)集時(shí),在VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H上EER相較于基線分別減小了10.4%、5.3%和3.0%,minDCF相較于基線分別減小了4.5%、5.3%和2.9%。實(shí)驗(yàn)結(jié)果驗(yàn)證了對(duì)語音數(shù)據(jù)集中的不確定性建模的必要性,說明它有助于說話人確認(rèn)模型的性能提升。

表3訓(xùn)練集為VoxCeleb2開發(fā)集時(shí),VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H測(cè)試集上的評(píng)估結(jié)果

Tab.3 Evaluation results on VoxCeleb1-O、VoxCeleb1-E and VoxCeleb1-H test sets after training on VoxCeleb2 development set

3.5 參數(shù)分析

表4超參數(shù)取不同值,不同訓(xùn)練集和測(cè)試集上所提方法的評(píng)估結(jié)果

Tab.4 Evaluation results of proposed method on different test sets and development sets with different hyperparameter λ values

3.6 消融分析

表5消融實(shí)驗(yàn)結(jié)果

Tab.5 Ablation experimental results

4 結(jié)語

本文提出了一種基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認(rèn)方法,該方法通過使網(wǎng)絡(luò)模型同時(shí)學(xué)習(xí)聲紋特征(均值)與不確定的噪聲(方差),可以對(duì)與說話人確認(rèn)相關(guān)的數(shù)據(jù)集中與身份信息無關(guān)的數(shù)據(jù)進(jìn)行不確定性建模,并使用KL散度正則化方法約束噪聲的分布,解決了建模中出現(xiàn)的退化問題。使用VoxCeleb數(shù)據(jù)集訓(xùn)練和評(píng)估了所提出的方法在說話人確認(rèn)任務(wù)上的性能,實(shí)驗(yàn)結(jié)果表明,該方法的性能超過了基于確定性的基線模型。下一步將考慮在說話人確認(rèn)中引入表示解糾纏,使聲紋特征與不相關(guān)的特征解糾纏。

[1] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[2] HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments [EB/OL]. [2019-02-25]. http://vis-www.cs.umass.edu/papers/eccv2008-lfw.pdf.

[3] NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: a large-scale speaker identification dataset[EB/OL]. [2018-05-30]. https://arxiv.org/pdf/1706.08612.pdf.

[4] JOYCE J M. Kullback-Leibler divergence[M]// International Encyclopedia of Statistical Science. Cham: Springer, 2011: 720-722.

[5] DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 19(4): 788-798.

[6] HANSEN J H L, HASAN T. Speaker recognition by machines and humans: a tutorial review[J]. IEEE Signal Processing Magazine, 2015, 32(6): 74-99.

[7] SNYDER D, GARCIA-ROMERO D, POVEY D, et al. Deep neural network embeddings for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2017. [S.l.]: International Speech Communication Association, 2017:999-1003.

[8] NOVOSELOV S, SHULIPA A, KREMNEV I, et al. On deep speaker embeddings for text-independent speaker recognition[EB/OL]. [2018-04-26]. https://arxiv.org/pdf/1804.10080.pdf.

[9] OKABE K, KOSHINAKA T, SHINODA K. Attentive statistics pooling for deep speaker embedding [EB/OL]. [2019-02-25]. https://arxiv.org/pdf/1803.10963.pdf.

[10] ZHU Y, KO T, SNYDER D, et al. Self-attentive speaker embeddings for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2018. [S.l.]: International Speech Communication Association, 2018: 3573-3577.

[11] CAI W, CAI Z, ZHANG X, et al. A novel learnable dictionary encoding layer for end-to-end language identification[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5189-5193.

[12] LI C, MA X, JIANG B, et al. Deep Speaker: an end-to-end neural speaker embedding system[EB/OL]. [2017-05-05]. https://arxiv.org/pdf/1705.02304.pdf.

[13] KWON Y, HEO H-S, LEE B-J, et al. The ins and outs of speaker recognition: lessons from VoxSRC 2020[C]// Proceedings of the 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2021: 5809-5813.

[14] DESPLANQUES B, THIENPONDT J, DEMUYNCK K. ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/2005.07143.pdf.

[15] WU Y, ZHAO J, GUO C, et al. Improving deep CNN architectures with variable-length training samples for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2021. [S.l.]: International Speech Communication Association, 2021: 81-85.

[16] LIU T, DAS R K, LEE K A, et al. MFA: TDNN with multi-scale frequency-channel attention for text-independent speaker verification with short utterances[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 7517-7521.

[17] KIM S-H, NAM H, PARK Y-H. Temporal dynamic convolutional neural network for text-independent speaker verification and phonemic analysis[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 6742-6746.

[18] 陳晨,肜婭峰,季超群,等. 基于深層信息散度最大化的說話人確認(rèn)方法[J]. 通信學(xué)報(bào), 2021, 42(7): 231-237.(CHEN C, RONG Y F, JI C Q, et al. Speaker verification method based on deep information divergence maximization[J]. Journal on Communication, 2021, 42(7): 231-237.)

[19] 姜珊,張二華,張晗. 基于 Bi-GRU+BFE模型的短語音說話人識(shí)別[J]. 計(jì)算機(jī)與數(shù)字工程, 2022, 50(10): 2233-2239.(JIANG S, ZHANG E H, ZHANG H. Speaker recognition under short utterance based on Bi-GRU+BFE model[J]. Computer and Digital Engineering, 2022, 50(10): 2233-2239.)

[20] ISOBE S, ARAI S. Deep convolutional encoder-decoder network with model uncertainty for semantic segmentation[C]// Proceedings of the 2017 IEEE International Conference on INnovations in Intelligent SysTems and Applications. Piscataway: IEEE, 2017: 365-370.

[21] HU P, SCLAROFF S, SAENKO K. Uncertainty-aware learning for zero-shot semantic segmentation[J]. Advances in Neural Information Processing Systems, 2020, 33: 21713-21724.

[22] CHOI J, CHUN D, KIM H, et al. Gaussian YOLOv3: an accurate and fast object detector using localization uncertainty for autonomous driving[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE,2019: 502-511.

[23] YU T, LI D, YANG Y, et al. Robust person re-identification by modelling feature uncertainty [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 552-561.

[24] SHI Y, JAIN A K. Probabilistic face embeddings[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE,2019: 6901-6910.

[25] CHANG J, LAN Z, CHENG C, et al. Data uncertainty learning in face recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 5709-5718.

[26] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016: 770-778.

[27] CAI W, CHEN J, LI M. Exploring the encoding layer and loss function in end-to-end speaker and language recognition system[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1804.05160.pdf.

[28] DENG J, GUO J, XUE N, et al. ArcFace: additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2019: 4690-4699.

[29] KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1312.6114.pdf?source=post_page.

[30] ALEMI A A, FISCHER I, DILLON J V, et al. Deep variational information bottleneck[EB/OL]. [2019-10-23]. https://arxiv.org/pdf/1612.00410.pdf.

[31] NAGRANI A, CHUNG J S, XIE W, et al. VoxCeleb: large-scale speaker verification in the wild[J]. Computer Speech & Language, 2020, 60: 101027.

[32] SNYDER D, CHEN G, POVEY D. MUSAN: a music, speech, and noise corpus[EB/OL]. [2019-10-23].https://arxiv.org/pdf/1510.08484.pdf.

[33] KO T, PEDDINTI V, POVEY D, et al. A study on data augmentation of reverberant speech for robust speech recognition[C]// Proceedings of the 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2017: 5220-5224.

[34] DODDINGTON G R, PRZYBOCKI M A, MARTIN A F, et al. The NIST speaker recognition evaluation — overview, methodology, systems, results, perspective[J]. Speech Communication, 2000, 31(2/3): 225-254.

[35] CHUNG J S, NAGRANI A, ZISSERMAN A. VoxCeleb2: deep speaker recognition[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1806.05622.pdf.

[36] CAI W, CHEN J, LI M. Exploring the encoding layer and loss function in end-to-end speaker and language recognition system[EB/OL]. [2018-04-14].https://arxiv.org/pdf/1804.05160.pdf.

[37] PARK D S, CHAN W, ZHANG Y, et al. SpecAugment: a simple data augmentation method for automatic speech recognition [EB/OL]. [2019-12-03].https://arxiv.org/pdf/1904.08779.pdf.

[38] LOSHCHILOV I, HUTTER F. SGDR: stochastic gradient descent with warm restarts[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1608.03983.pdf.

Text-independent speaker verification method based on uncertainty learning

ZHANG Yulian, YAO Shanshan*, WANG Chao, CHANG Jiang

(,,030006,)

The speaker verification task aims to determine whether a registration speech and a test speech belong to the same speaker. A Text-Independent Speaker Verification (TISV) method based on Uncertainty Learning (UL) was proposed to address the problem that the voiceprint features extracted by speaker recognition systems are usually disturbed by factors unrelated to identity information, thereby leading to serious degradation of the system accuracy. Firstly, uncertainty was introduced in the speaker backbone network to simultaneously learn the voiceprint features (mean) and the uncertainty of the speech data (variance), so as to model the uncertainty in the speech dataset. Then, the distribution representation of the features was obtained by a resampling technique. Finally, the degradation problem in the calculation process of classification loss was solved by constraining the distribution of the noise through the introduction of KL (Kullback-Leibler) divergence regularization into the speaker classification loss. Experimental results show that after training on VoxCeleb1 and VoxCeleb2 development sets and testing on VoxCeleb1-O test set, compared with the certainty method-based model Thin ResNet34,the model of the proposed method has the Equal Error Rate (EER) reduced by 9.9% and 10.4% respectively, and minimum Detection Cost Function (minDCF) reduced by 10.9% and 4.5% respectively. It can be seen that the accuracy of the proposed method is improved in noisy and unconstrained scenarios.

speaker verification; data uncertainty; distribution embedding; AAM-softmax (Additive Angular Margin-softmax); KL (Kullback-Leibler) divergence

This work is partially supported by National Natural Science Foundation of China (61906115), Shanxi Province Science Foundation for Youths (20210302124556).

ZHANG Yulian, born in 1997, M. S. candidate. Her research interests include voiceprint recognition.

YAO Shanshan, born in 1989, Ph. D., associate professor. Her research interests include voiceprint recognition, multimedia big data search.

WANG Chao, born in 1995, M. S. candidate. His research interests include voiceprint recognition.

CHANG Jiang, born in 1988, Ph. D., lecturer. Her research interests include speech sentiment analysis.

TN912.34; TP391.42

A

1001-9081(2023)12-3727-06

10.11772/j.issn.1001-9081.2022121902

2022?12?29;

2023?03?07;

2023?03?08。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61906115);山西省青年科學(xué)基金資助項(xiàng)目(20210302124556)。

張玉蓮(1997—),女,山西晉城人,碩士研究生,主要研究方向:聲紋識(shí)別;姚姍姍(1989—),女,山西晉中人,副教授,博士,CCF會(huì)員,主要研究方向:聲紋識(shí)別、多媒體大數(shù)據(jù)檢索;王超(1995—),男,山西大同人,碩士研究生,主要研究方向:聲紋識(shí)別;暢江(1988—),女,山西運(yùn)城人,講師,博士,主要研究方向:語音情感分析。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 免费一级大毛片a一观看不卡| 国产精品自拍合集| 毛片在线播放网址| 91九色最新地址| 丁香婷婷久久| 亚洲成人高清无码| 日本不卡在线播放| 91精品久久久无码中文字幕vr| 久久精品国产999大香线焦| 日韩欧美国产精品| 青青久视频| 婷婷激情亚洲| 福利姬国产精品一区在线| 伊人AV天堂| 中文无码伦av中文字幕| 国产剧情国内精品原创| 日日拍夜夜操| 91成人在线免费视频| 在线观看亚洲天堂| 四虎影视库国产精品一区| 亚洲Av综合日韩精品久久久| 伊人久久精品无码麻豆精品| 三级毛片在线播放| 久久久久九九精品影院| 青青国产在线| 欧美高清三区| 国产成人亚洲精品蜜芽影院| 91成人精品视频| 综合色在线| 亚洲中文字幕国产av| 亚洲综合专区| 亚洲视频黄| h网站在线播放| 美女无遮挡被啪啪到高潮免费| 91青青视频| 成人韩免费网站| 成人午夜免费观看| 99re视频在线| 99热免费在线| 亚洲无码37.| 久久综合色播五月男人的天堂| 欧美日韩亚洲国产主播第一区| 黄色在线不卡| 老司机精品久久| 亚洲无码高清免费视频亚洲| 青草午夜精品视频在线观看| 久久人人妻人人爽人人卡片av| 国产网站在线看| 国产剧情一区二区| 精品一区二区三区中文字幕| 欧美激情福利| 国产精品人莉莉成在线播放| 青青青视频免费一区二区| 亚洲一级毛片在线观播放| 国产在线观看一区精品| 免费女人18毛片a级毛片视频| 午夜综合网| 免费A级毛片无码无遮挡| 成人福利免费在线观看| 亚洲精品波多野结衣| 精品国产成人a在线观看| 欧美全免费aaaaaa特黄在线| 国产精品女人呻吟在线观看| av色爱 天堂网| 久久不卡精品| 国产成人永久免费视频| 54pao国产成人免费视频| 午夜激情婷婷| 国产成人永久免费视频| 亚洲无码熟妇人妻AV在线| 久久综合激情网| 久久99国产综合精品1| 嫩草国产在线| 中文字幕亚洲精品2页| 激情五月婷婷综合网| 26uuu国产精品视频| 中文字幕亚洲精品2页| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产91视频免费| 国产精品网址在线观看你懂的| 黄色一及毛片| 国产无码精品在线播放|