陳佳,章堅武,張浙亮
基于上下文信息與注意力特征的欺騙語音檢測
陳佳1,章堅武1,張浙亮2
(1. 杭州電子科技大學,浙江 杭州 310018;2. 浙江宇視科技有限公司,浙江 杭州 310051)
隨著語音合成和語音轉換技術的快速發展,欺騙語音檢測方法仍存在欺騙檢測準確率低、通用性差等問題。因此,提出一種基于上下文信息與注意力特征的端到端的欺騙檢測方法。該方法基于深度殘差收縮網絡(DRSN),利用雙分支上下文信息協調融合模塊(DCCM)聚集豐富的上下文信息,融合基于協調時頻注意力機制(CTFA)的特征以獲得具有上下文信息的跨維度交互特征,從而最大化捕獲偽影的潛力。與最佳基線系統相比,在ASVspoof 2019 LA數據集中,所提方法在EER和t-DCF性能指標上分別降低68%和65%;在ASVspoof 2021 LA數據集中,所提方法的EER和t-DCF分別為4.81和0.311 5,分別降低48%和10%。實驗結果表明,所提方法能有效提高欺騙語音檢測的準確率和泛化能力。
欺騙語音檢測;上下文信息;注意力特征;端到端;偽影
自動說話人驗證(automatic speaker verification,ASV)系統作為一種身份識別技術,旨在從語音信號中驗證說話人的身份[1],大力推動基于人類行為和生理特征監測及認證系統的發展[2]。ASV系統驗證過程不需要任何面對面的接觸[3],不會給用戶帶來不適和健康風險,但會導致該系統容易受到欺騙攻擊。目前常用的反欺騙方法框架主要由前端特征提取和后端分類構成,將前端生成的手工聲學特征輸入后端分類器。徐劍等[4]直接從語譜圖中提取完整局部二進制模式(completed local binary pattern,CLBP)紋理特征以提高欺騙語音檢測的準確率。于佳祺等[5]將常量Q倒譜系數(constant Q cepstral coefficient,CQCC)聲學特征與均勻局部二值模式(uniform local binary pattern,ULBP)紋理特征進行聯合并輸入隨機森林分類模型以檢測欺騙語音。手工聲學特征在檢測不可見的攻擊時可能存在缺陷,因此已有工作提出了直接對原始音頻波形進行操作的端到端(end-to-end,E2E)解決方案[6],這種方案有效避免了手工聲學特征帶來的限制。Ge等[7]探索了自動學習欺騙語音檢測的方法,將架構搜索與E2E學習結合,提出了原始部分連接可差分結構搜索(raw partially-connected differentiable architecture search,Raw PC-DARTS)系統,該系統允許對網絡架構和網絡參數進行聯合優化。為了有效捕獲給定語音譜圖中與欺騙攻擊相關的偽影,Kang等[8]建議在端到端欺騙對抗系統中采用注意力激活函數AReLU[9]。盡管這些端到端系統的性能優于經典的欺騙檢測系統,但研究結果表明其仍有很大的改進空間。
在ASVspoof 2019[10]的邏輯訪問(logical access,LA)場景中,合成語音欺騙攻擊主要采取語音合成和語音轉換的方式。用于指示欺騙攻擊的人工制品稱為欺騙偽影,人工制品的性能往往取決于攻擊的性質和特定的攻擊算法。在ASVspoof 2021[11]LA場景中,真實語音和欺騙語音通過各種電話網絡進行未知編解碼和傳輸。當語音數據在跨電話系統之間傳輸時,傳輸通道中可能會產生一些干擾性變化使數據中的欺騙偽影受到未知編解碼和傳輸的影響,加大了欺騙檢測的難度,從而提高了對欺騙檢測系統的性能要求。在合成語音檢測中,欺騙偽影用于區分真實語音與欺騙語音,主要存在于特定的時間和頻譜間隔中,具有高區分性的時間特征和頻率特征,但是目前沒有一種較好的方法能夠捕獲存在于時域和頻域間的偽裝線索。無論在時域還是在頻域,不同的注意力機制都會存在互補的、有區別的信息,且都適用于不同的欺騙攻擊。Ling等[12]利用頻率注意力機制和通道注意力機制捕獲頻域和通道之間的關系,不僅將注意力集中到語音表示中信息量較大的頻域中,還減少了通道冗余,但是該模型忽略了時域上的特征信息。Zhou等[13]在欺騙語音檢測中引入輕量級跨維度交互注意(lightweight cross-dimensional interaction attention,LCIA)模塊以學習跨越不同頻域和時域的欺騙線索,但該注意力機制沒有充分融合上下文信息,導致容易忽略偽影的相關特征,高效地融合跨維度特征對于欺騙語音檢測來說也十分重要。雖然現有方法的檢測性能相比傳統方法均有所提升,但隨著各種高質量欺騙攻擊的發展,現有的欺騙檢測方法仍然缺乏對未知的欺騙攻擊的有效性和通用性。針對以上問題,本文基于原始音頻波形,提出一種上下文信息和注意力特征融合網絡(context information and attention feature fusion network,CAFNet),該網絡將上下文信息和基于注意力的跨維度交互特征進行融合以學習具有上下文信息的跨維度交互特征,同時克服由未知編解碼和傳輸所帶來的干擾,從而精確地識別并檢測欺騙偽影。
本文的主要貢獻包括以下3個方面。
?設計了雙分支上下文信息協調融合模塊(dual-branch context information coordination fusion module,DCCM),提取有價值的上下文信息以獲得不同欺騙偽影之間的相關信息,融合基于注意力機制的跨維度交互特征以聚集區分性線索,集成具有上下文信息的跨維度交互特征來細化欺騙偽影的重要信息以獲得全面的信息特征表示,有助于提高網絡的抗干擾能力和高效地檢測出欺騙偽影。
?設計了協調時頻注意力(coordinate time-frequency attention,CTFA)機制,捕獲并融合時域和頻域間的交互特征以及局部細粒度特征,最大限度地挖掘捕捉區分性線索的潛力,利用更多的細粒度特征信息以防止忽略細微偽影。
?針對不同數據集之間存在數據組成、傳輸途徑等差異,分析了所提網絡的檢測性能、通用性以及抗干擾能力。
在卷積神經網絡(convolutional neural network,CNN)中,深度殘差網絡(residual network,ResNet)[14]是其極具影響力的變體。對于早期的CNN模型,增加網絡深度可能會使網絡退化從而導致較高的訓練誤差,ResNet使用恒等路徑(identity shortcut)來解決這一問題以提高訓練的正確率。Hua等[15]基于原始語音波形,以ResNet的跳躍連接和Inception[16]的并行卷積為網絡架構,提出了一種端到端的輕量級欺騙檢測模型,實現了較好的檢測性能。但在處理噪聲信號時,ResNet的特征學習能力有待提升。深度殘差收縮網絡(deep residual shrinkage network,DRSN)[17]在ResNet的基礎上學習基于注意力機制的閾值函數,并將學習到的最佳閾值提供給軟閾值以自適應地從數據集中獲得有用的特征并去除無關的噪聲干擾。其中,閾值函數也稱為收縮函數,通常用于信號去噪。周曄等[18]利用DRSN的去噪能力實現復雜聲學環境下的欺騙語音檢測,但其使用手工聲學特征,容易丟失一些用于欺騙檢測的有效信息。本文在DRSN的基礎上,提出一種端到端的欺騙語音檢測網絡。
在實際應用場景中,欺騙對象不可能單獨存在,其周圍的對象一定會和該對象有或多或少的聯系。當多個欺騙對象同時存在時,準確識別出欺騙對象是一項挑戰,而增大感受野以獲取有效的上下文信息有助于識別和檢測欺騙對象。王金華等[19]提出一種基于卷積循環神經網絡(convolutional recurrent neural network,CRNN)的語音情感識別算法,利用雙向長短期記憶(bi-directional long short-term memory,BiLSTM)獲得數據的序列上下文信息,有效提高算法的泛化性和區分性。Lei等[20]設計分層上下文編碼器來提取有效的上下文信息,顯著提高合成語音的自然度和表達能力。注意力機制直觀上可捕獲全局和局部的依賴關系,防止網絡過擬合,提高網絡的泛化能力。擠壓和激勵網絡(squeeze-and-excitation network,SENet)[21]在通道維度上增加注意力機制,但是沒有考慮空間信息。卷積塊注意力模塊(convolutional block attention module,CBAM)[22]在SENet的基礎上引入了空間注意力,同時對兩個維度進行注意力分配,增強了注意力機制對模型性能的提升效果,但保留局部信息的效果較差。協調注意力(coordinate attention,CA)[23]將位置信息嵌入通道注意,有助于更準確地捕獲方向和位置信息,但不能很好地整合全局和局部上下文信息。近年來,上下文信息、注意力機制在計算機聽覺領域起著至關重要的作用,但是目前沒有一種很好的方法將上下文信息和基于注意力的特征進行有效聯合。
特征融合在現代網絡架構中已被廣泛使用,并且可以進一步提高CNN的性能。即便如此,大多數特征融合的工作為了實現多尺度特征的有效融合,需要構建復雜的路徑,且不能很好地聚集上下文信息,以至于容易忽略欺騙對象的特征。注意力特征融合(attentional feature fusion,AFF)[24]可以融合不同層次或者分支的特征,來解決上下文聚合和初始集成的問題。該模塊將接收到的特征與另一個AFF模塊迭代集成,得到迭代注意力特征融合(iterative attentional feature fusion,iAFF)。iAFF模塊逐步優化初始集成,緩解特征的初始整合中基于注意力的特征融合的瓶頸,有效聚集上下文信息。本文提出了雙分支上下文信息協調融合模塊,將豐富的上下文信息和基于注意力的跨維度交互特征進行融合以準確識別區分性線索,具體介紹見第2節。
本文提出一種上下文信息和注意力特征融合網絡,其結構如圖1所示。本節首先介紹雙分支上下文信息協調融合模塊,其包含池化層分支和卷積層分支,然后介紹協調時頻注意力機制,最后介紹該機制的兩個組成模塊。
為了獲取豐富的上下文信息和協調區分性線索的跨維度交互關系,本文設計了一種雙分支上下文信息協調融合模塊,以充分融合具有上下文信息的跨維度交互特征。該模塊由卷積層分支和池化層分支組成,其結構如圖2所示。

圖1 上下文信息和注意力特征融合網絡結構

圖2 雙分支上下文信息協調融合模塊結構










圖3 協調時頻注意力結構

(1)時頻融合模塊

在時間維度上,池化后的輸出特征為:

在頻率維度上,池化后的輸出特征為:





(2)局部特征提取模塊
由于欺騙語音系統中的關鍵特征是數據偽造后留下的欺騙偽影,這些偽影可能不包含語義信息,而包含一些細粒度特征信息,因此本文設計了局部特征提取模塊來提取局部細粒度特征以幫助網絡捕獲更多細節信息。通過該模塊在通道維度上獲取并利用更多的細粒度特征信息以防止忽略細微偽影。


ASVspoof 2019 LA數據集基于VCTK語料庫,使用最新的語音合成和語音轉換算法生成欺騙語音信號。該數據集采用107名說話人(46名男性、61名女性)的語音作為語音樣本,所有說話人的真實語音和欺騙語音被隨機劃分到互不相交的訓練集、開發集和測試集。ASVspoof 2019 LA數據集說話人和語音數量見表1。

表1 ASVspoof 2019 LA數據集說話人和語音數量
同時,本文選取ASVspoof 2021 LA數據集分析所提網絡的抗干擾性能。與ASVspoof 2019 LA的測試集不同,ASVspoof 2021 LA測試集由通過各種電話系統(包括IP電話(voice over Internet protocol,VoIP)和公共電話交換網(public switched telephone network,PSTN))傳輸的真實語音和欺騙語音組成,包含181 566條語音。ASVspoof 2021 LA任務不會為單條語音提供編解碼器元數據,該任務的重點是研究對未知編解碼器和傳輸信道可變性干擾魯棒的欺騙對策以區分由攻擊生成的真實語音和欺騙語音。由于ASVspoof 2021 LA數據集中不包括單獨的訓練集和開發集,因此本文使用ASVspoof 2019 LA數據集的訓練集和開發集作為ASVspoof 2021 LA數據集的訓練集和開發集。
本文使用官方評估指標:串聯檢測成本函數(tandem detection cost function,t-DCF)和等錯誤率(equal error rate,EER)檢測不同網絡的性能。兩個指標值越小,網絡性能越好。




為了驗證所提網絡中CTFA對比其他注意力機制的優越性。本文在ASVspoof 2019 LA數據集上做了4組對比實驗,不同注意力機制在ASVspoof 2019 LA數據集上的檢測性能見表2。具體而言,將DCCM中的CTFA用SENet、CBAM、CA、LCIA替換,其他條件均保持一致。

表2 不同注意力機制在ASVspoof 2019 LA數據集上的檢測性能
實驗結果表明,與當前較流行的注意力機制相比,本文提出的CTFA檢測性能更優越。為了分析以上5組模型,本文對模型進行多次訓練并總結模型的檢驗結果,不同注意力機制的性能比較如圖4所示。從圖4可以看出,CAFNet-CTFA的t-DCF和EER最低,CAFNet-SENet的t-DCF和EER最高。這表明,CTFA能最大限度地提升特征學習能力,從而高效地提高網絡的欺騙檢測能力。與LCIA相比,CTFA同時考慮時域和頻域中潛在的欺騙線索以及局部細粒度信息,顯著地提升了網絡對目標偽影的捕獲能力,證明了捕獲局部細粒度特征的重要性。

圖4 不同注意力機制的性能比較
為了驗證所提網絡的有效性,本文在ASVspoof 2019 LA數據集上進行消融實驗。具體而言,本文進行了4組消融實驗:CAFNet中未包含池化層分支(DRSN-convolution layer)、CAFNet中未包含卷積層分支(DRSN-pool layer)、CAFNet中未包含CTFA(without CTFA)、CAFNet中未包含DCCM(DRSN)。CAFNet在ASVspoof 2019 LA數據集上的消融實驗結果見表3。

表3 CAFNet在ASVspoof 2019 LA數據集上的消融實驗結果
消融實驗結果表明,卷積層分支和池化層分支都可以有效提高網絡的檢測性能。其中,卷積層分支的性能優于池化層分支,說明卷積更有助于擴大感受野以獲取具有上下文信息的特征信息,從而更有效地檢測區分性特征。此外,當添加CTFA模塊時,EER和t-DCF分別降低了48%和37%。這表明將時間、頻率維度間的交互特征和局部細粒度特征協調融合可幫助模型精準地捕獲潛在的區分性線索。相比于DRSN,DCCM的引入可以更高效地提高模型的檢測性能,充分證明將豐富的上下文信息與基于注意力的跨維度交互特征有效結合得到具有上下文信息的跨維度交互特征,能更加精準地捕獲和鑒別欺騙偽影。CAFNet和ASV系統的結合可以實現高效檢測。
為了驗證所提網絡對比其他網絡的性能優勢,本文在ASVspoof 2019 LA數據集上將CAFNet與其他現有的競爭單系統進行比較,不同模型在ASVspoof 2019 LA數據集上的檢測性能見表4。

表4 不同模型在ASVspoof 2019 LA數據集上的檢測性能
從表4可以得出,在ASVspoof 2019 LA數據集上,CAFNet實現了最佳檢測性能,EER和t-DCF分別降至1.44和0.044 7。相比于RawNet2,CAFNet在EER和t-DCF性能指標上分別降低68%和65%。ResNet-FCA將頻率注意力和通道注意力進行融合,僅將注意力集中在語音表示中信息較豐富的子帶上,而忽略了重要的時域信息。Raw CIANet-mul構建了一種新的時頻注意力模塊,可以捕獲時間和頻率間的跨維度交互線索,但忽略了上下文信息和局部細粒度信息對欺騙檢測的重要性。CAFNet在使用注意力機制聚焦有價值的特征的同時,有效地擴大感受野以獲取上下文信息,從而實現高效的欺騙檢測。本文提出的DCCM可以在CTFA提供的重要注意力線索的指導下有效集成包含豐富上下文信息的跨維度交互特征,提高網絡檢測欺騙線索的能力。實驗結果表明,CAFNet對于欺騙語音檢測是有效的。
為了驗證所提網絡的通用性和抗干擾性能,本文在ASVspoof 2021 LA數據集上將CAFNet與其他現有的競爭單系統進行比較,不同模型在ASVspoof 2021 LA數據集上的檢測性能見表5。

表5 不同模型在ASVspoof 2021 LA數據集上的檢測性能
在ASVspoof 2021 LA應用場景中,當所有語音數據在電話系統之間傳輸時,數據中的欺騙偽影可能會受到未知編解碼和傳輸的干擾,從而使ASVspoof更接近實際的應用場景,大大增加了語音檢測的復雜度,因此本文提出的網絡需要很好地消除不同的干擾變化。從表5可以得出,在ASVspoof 2021 LA數據集上,CAFNet實現了較好的泛化性能和抗干擾性能,EER和t-DCF分別降至4.81和0.311 5。相較于ResNet-LogSpec和RawNet2-RawBoost,CAFNet的t-DCF指標值略高,這兩種系統均針對ASVspoof 2021 LA數據集的特點對數據進行不同方式的數據增強,顯著提高了系統對電話場景中存在的未知干擾性變化的魯棒性。相較于LFCC-LCNN,CAFNet在EER和t-DCF性能指標上分別降低48%和10%,進一步證明了基于端到端的CAFNet具有較強的通用性和抗干擾性能。
為了有效捕獲并鑒別欺騙線索以及解決高質量欺騙攻擊的通用性問題,本文提出一種端到端的上下文信息和注意力特征融合網絡,設計了協調時頻注意力機制以最大化捕獲時域和頻域中欺騙線索的潛力和有效利用局部細粒度特征,設計了雙分支上下文信息協調融合模塊以獲得具有上下文信息的跨維度交互特征,從而提高網絡的特征學習能力。消融實驗表明,CAFNet中使用的DCCM、CTFA是有效的。在不同數據集上的實驗結果表明,CAFNet在檢測欺騙語音方面具有良好的實用性和普適性,并且比其他競爭單系統具有優勢。在ASVspoof 2021 LA任務中,CAFNet對電話場景中存在的未知干擾性變化的魯棒性還有待提高。未來將在提升網絡檢測性能的同時,研究一種基于數據增強的輕量化欺騙檢測網絡,簡化網絡復雜度和參數量。
[1] KINNUNEN T, LI H. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech communication, 2010, 52(1): 12-40.
[2] SINGH N, AGRAWAL A, KHAN R A. Voice biometric: a technology for voice based authentication[J]. Advanced Science, Engineering and Medicine, 2018, 10(7-8): 754-759.
[3] MITTAL A, DUA M. Automatic speaker verification systems and spoof detection techniques: review and analysis[J]. International Journal of Speech Technology, 2021(25): 1-30.
[4] 徐劍, 簡志華, 于佳祺, 等. 采用完整局部二進制模式的偽裝語音檢測[J]. 電信科學, 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[5] 于佳祺, 簡志華, 徐嘉, 等. 基于聯合特征與隨機森林的偽裝語音檢測[J]. 電信科學, 2022, 38(6): 91-99.
YU J Q, JIAN Z H, XU J, et al. Spoofing speech detection algorithm based on joint feature and random forest[J]. Telecommunications Science, 2022, 38(6): 91-99.
[6] TAK H, PATINO J, TODISCO M, et al. End-to-end anti-spoofing with RawNet2[C]//Proceedings of 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2021: 6369-6373.
[7] GE W Y, PATINO J, TODISCO M, et al. Raw differentiable architecture search for speech deep fake and spoofing detection[EB]. 2021.
[8] KANG W H, ALAM J, FATHAN A. Attentive activation function for improving end-to-end spoofing countermeasure systems[EB]. 2022.
[9] CHEN D S, LI J, XU K. AReLU: attention-based rectified linear unit[EB]. 2020.
[10] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public data base of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020, 64: 101-114.
[11] YAMAGISHI J, WANG X, TODISCO M, et al. ASVspoof 2021: accelerating progress in spoofed and deep fake speech detection[EB]. 2021.
[12] LING H F, HUANG L C, HUANG J R, et al. Attention-based convolutional neural network for ASV spoofing detection[C]// Proceedings of 2021 INTERSPEECH. [S.l.:s.n.], 2021: 4289-4293.
[13] ZHOU Y, ZHANG J W, ZHANG P G. Spoof speech detection based on raw cross-dimension interaction attention network[C]// Proceedings of 2022 Chinese Conference on Biometric Recognition. Cham: Springer, 2022: 621-629.
[14] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
[15] HUA G, TEOH A B J, ZHANG H. Towards end-to-end synthetic speech detection[J]. IEEE Signal Processing Letters, 2021, 28: 1265-1269.
[16] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 1-9.
[17] ZHAO M H, ZHONG S S, FU X Y, et al. Deep residual shrinkage networks for fault diagnosis[J]. IEEE Transactions on Industrial Informatics, 2019, 16(7): 4681-4690.
[18]周曄, 章堅武, 程繼承. 面向復雜聲學環境的偽裝語音檢測[J]. 傳感技術學報, 2022, 35(10): 1355-1362.
ZHOU Y, ZHANG J W, CHENG J C. Speech anti-spoofing for complex acoustic environments[J]. Chinese Journal of Sensors and Actuators, 2022, 35(10): 1355-1362.
[19] 王金華, 應娜, 朱辰都, 等. 基于語譜圖提取深度空間注意特征的語音情感識別算法[J]. 電信科學, 2019, 35(7): 100-108.
WANG J H, YING N, ZHU C D, et al. Speech emotion recognition algorithm based on spectrogram feature extraction of deep space attention feature[J]. Telecommunications Science, 2019, 35(7): 100-108.
[20] LEI S, ZHOU Y X, CHEN L Y, et al. Towards expressive speaking style modelling with hierarchical context information for mandarin speech synthesis[C]//Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2022: 7922-7926.
[21] HU J, SHEN L, ALBANIE S. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 7132-7141.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 2018 European Conference on Computer Vision. [S.l.:s.n.], 2018: 3-19.
[23] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recongnition. Piscataway: IEEE Press, 2021: 13713-13722.
[24] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2021: 3560-3569.
[25] LUO A W, LI E L, LIU Y L, et al. A capsule network based approach for detection of audio spoofing attacks[C]//Proceed ings of 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2021: 6359-6363.
[26]LI X, WU X X, LU H, et al. Channel-wise gated Res2Net: towards robust detection of synthetic speech attacks[C]//Proceedings of 2021 INTERSPEECH. [S.l.:s.n.], 2021: 4314-4318.
[27] ZHANG Y, JIANG F, DUAN Z Y. One-class learning towards synthetic voice spoofing detection[J]. IEEE Signal Processing Letters, 2021, 28: 937-941.
[28] COHEN A, RIMON I, AFLALO E, et al. A study on data augmentation in voice anti-spoofing[J]. Speech Communication, 2022, 141: 56-67.
[29] DAS R K. Known-unknown data augmentation strategies for detection of logical access, physical access and speech deep fake attacks: ASV spoof 2021[C]//Proceedings of 2021 Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. [S.l.:s.n.], 2021: 29-36.
[30] TAK H, KAMBLE M, PATINO J, et al. Raw boost: a raw data boosting and augmentation method applied to automatic speaker verification anti-spoofing[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE Press, 2022: 6382-6386.
[31] CáCERES J, FONT R, GRAU T. The biometric vox system for the ASVspoof 2021 challenge[C]//Proceedings 2021 Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. [S.l.:s.n.], 2021: 68-74.
[32] PAL M, RAIKAR A, PANDA A, et al. Synthetic speech detection using meta-learning with prototypical loss[EB]. 2022.
Spoof speech detection based on context information and attention feature
CHEN Jia1, ZHANG Jianwu1, ZHANG Zheliang2
1. Hangzhou Dianzi University, Hangzhou 310018, China 2. Zhejiang Uniview Technologies Co., Ltd., Hangzhou 310051, China
With the rapid development of speech synthesis and speech conversion technology, methods of spoof speech detection still have problems such as low spoof detection accuracy and poor generality. Therefore, an end-to-end spoof detection method based on context information and attention feature was proposed. Based on deep residual shrinkage network (DRSN), the proposed method used the dual-branch context information coordination fusion module (DCCM) to aggregate rich context information, and fused features based on coordinate time-frequency attention (CTFA) to obtain cross-dimensional interaction features with context information, thus maximizing the potential of capturing artifacts. Compared with the best baseline system, in the ASVspoof 2019 LA dataset, the proposed method had reduced the EER and t-DCF performance indicators by 68% and 65% respectively, in the ASVspoof 2021 LA dataset, the EER and t-DCF of the proposed method were 4.81 and 0.311 5 and dropped by 48% and 10% separately. The experimental results show that this method can effectively improve the accuracy and generalization ability of spoof speech detection.
spoof speech detection, context information, attention feature, end-to-end, artifacts
TN912.3
A
10.11959/j.issn.1000–0801.2023006

陳佳(2000– ),女,杭州電子科技大學通信工程學院碩士生,主要研究方向為語音檢測與人工智能等。
章堅武(1961– ),男,博士,杭州電子科技大學通信工程學院教授、博士生導師,中國電子學會高級會員,浙江省通信學會常務理事,主要研究方向為移動通信、多媒體信號處理與人工智能、通信網絡與信息安全。

張浙亮(1969– ),男,博士,浙江宇視科技有限公司副總裁,主要研究方向為人工智能、人力資源等。
The National Natural Science Foundation of China (No.U1866209, No.61772162)
2022–11–28;
2023–01–05
章堅武,jwzhang@hdu.edu.cn
國家自然科學基金資助項目(No.U1866209,No.61772162)