于佳祺,簡志華,徐嘉,游林,汪云路,吳超
研究與開發
基于聯合特征與隨機森林的偽裝語音檢測
于佳祺1,簡志華1,徐嘉1,游林2,汪云路2,吳超1
(1. 杭州電子科技大學通信工程學院,浙江 杭州 310018;2. 杭州電子科技大學網絡空間安全學院,浙江 杭州 310018)
為了能較為全面地描述語音信號的特征信息,提高偽裝檢測率,提出了一種基于均勻局部二值模式紋理特征與常數Q倒譜系數聲學特征相結合,并以隨機森林為分類模型的偽裝語音檢測方法。利用均勻局部二值模式提取語音信號語譜圖中的紋理特征矢量,并與常數Q倒譜系數構成聯合特征,再用所獲得的聯合特征矢量訓練隨機森林分類器,從而實現了偽裝語音檢測。實驗中,分別對其他特征參數以及支持向量機分類器模型所構建的幾種偽裝檢測系統進行了性能對照,結果表明,所提聯合特征與隨機森林模型相結合的語音偽裝檢測系統具有最優的檢測性能。
偽裝語音檢測;聲學特征;紋理特征;均勻局部二值模式;隨機森林
自動說話人驗證(automatic speaker verification,ASV)系統是通過對說話人語音信號進行分析并對說話人身份進行認證的技術。ASV系統是一種無須直接接觸便可完成識別的身份認證方式,檢測設備成本低且便于操作[1-2]。雖然目前ASV系統的正確識別率高,但數據顯示,以冒充目標說話人真實身份為目的的惡意欺騙攻擊極大地降低了ASV系統的安全性。欺騙攻擊的類型主要有語音合成、語音轉換[3]、人為模仿與語音回放[4-5]。為了應對這些不同種類的欺騙攻擊,需要提高說話人識別系統檢測欺騙攻擊的能力,使ASV系統具有反欺騙攻擊的能力[6-7]。
偽裝語音檢測的研究重點是提取特征參數與建立欺騙檢測模型,其中,特征提取主要是提取語音信號中的聲學特征來描述目標語音特性[8]。目前的語音信號特征提取方法有很多,梅爾頻率倒譜系數(Mel-frequency cepstral coefficient,MFCC)就是常用的聲學特征之一,MFCC是模仿人耳對不同頻率的語音信號具有不同感知程度的聽覺特性[9]。線性頻率倒譜系數(linear frequency cepstral coefficient,LFCC)與MFCC的獲取方法類似,但是濾波器組不是按照Mel(梅爾)頻率分布,而是使用線性頻率。在ASVspoof2019挑戰賽中,這兩種特征參數都被ASV官方基線系統所選用。MFCC與LFCC這兩種特征在說話人驗證中都有不錯的表現,但是在欺騙檢測中性能并不理想[10-12]。隨著研究的深入,逐漸出現了其他針對欺騙語音檢測的聲學特征。Todisco等[13]提出了基于常量Q變換(constant Q transform,CQT)的常量Q倒譜系數(constant Q cepstral coefficient,CQCC)。CQCC能夠提供可變的時間和頻率分辨率,克服了其他聲學特征時頻分辨率均勻的缺點,且CQT能夠更加有效地提取頻譜的細節信息,這使得其在偽裝語音檢測中可以取得更好的效果。實驗結果也表明,CQCC在多數據集上有很好的泛化效果[14-15]。然而,這些特征參數都沒有考慮頻域特征與時域特征間的相關性。Massoud等[16]借鑒圖像領域的研究成果,使用卷積神經網絡(convolutional neural network,CNN)直接對語音的梅爾頻譜圖進行識別分類,得到了很好的性能。也有學者在語譜圖上提取特征并用于檢測,實驗結果表明都有更好的泛化性與魯棒性[17]。欺騙檢測模型有多種,深度神經網絡(deep neural network,DNN)是常見的檢測模型之一,它很適合做非線性映射的搜索,在偽裝語音檢測中有很好的表現,但需要較多的數據進行訓練[18]。高斯混合模型(Gaussian mixture model,GMM)作為一種概率統計模型,也常用于語音分類與識別領域。支持向量機(support vector machine,SVM)可以通過解決二次優化問題實現二分類,有著強大的實用性與泛化能力。
本文在語譜圖的基礎上,通過均勻局部二值模式(uniform local binary pattern,ULBP)分析并提取其紋理特征,然后與CQCC聲學特征進行聯合,提出了一種聯合特征進行欺騙檢測的方法。紋理特征作為描述語音信號的一種重要特征參數,可以反映出語音信號語譜圖中的排列規則與重復出現的局部模式,可以描述語譜圖的表面特性,并且具有良好的抗噪聲性能[19]。考慮到聯合特征的維數過高問題,引入主成分分析(principal component analysis,PCA)算法對特征矢量進行降維處理,很好地解決了聯合特征維數過大的問題。同時考慮到聯合特征與分類器的匹配問題,選取隨機森林(random forest,RF)模型用于偽裝語音與真實語音的分類。RF能夠根據各個特征矢量的重要性程度進行評估,更能應對特征數值差異大的聯合特征矢量,在處理聯合特征時有更高的匹配度,能得到更好的分類效果[20]。


圖1 LBP求解過程示例

圖2 ULBP紋理特征矢量提取過程

考慮到聲學特征與紋理特征在欺騙檢測中各有優勢,使用CQCC聲學特征與ULBP紋理特征聯合的方式用于欺騙檢測。在欺騙攻擊場景中,聯合特征帶有更多的語音信息,有更好的表現。考慮到特征參數維度過大,導致欺騙檢測系統計算量大而影響系統的實時性,同時聲學特征矢量與紋理特征矢量中存在信息冗余。因此,采用主成分分析算法分別對CQCC與ULBP特征進行處理[24],達到降維的效果,然后再將降維后的特征進行拼接,從而生成聯合特征,降維的具體流程如下。

圖3 聯合特征提取流程
隨機森林采用集成學習的思想,將多個弱學習器組成一個強學習器。隨機森林通過隨機選取數據樣本來形成多個決策樹從而形成森林結構,每一棵樹都會得出一個分類結果。原則上,隨機森林算法在進行分類時,使用票數占少的需要遵從票數占多的規則進行投票分配,整個森林系統的分類結果應以票數最高的分類結果為準。RF的訓練流程如下。

首先,提取出語音信號的語譜圖,并確保語譜圖紋理清晰,將語譜圖轉換成灰度圖,通過統計直方圖得到ULBP紋理特征。同時根據特征聯合的方式,將ULBP紋理特征與CQCC聲學特征進行聯合,即從兩個方面分析語音信號。將一段任何時長的語音信號經過整個聯合特征提取流程后,轉換成一個CQCC-ULBP聯合特征矢量,并用于訓練隨機森林分類模型。在對隨機森林分類模型完成訓練后,得到對應的最佳決策樹參數,再對待檢測的語音進行測試,然后根據每棵樹所給出的投票情況給出判決結果。使用隨機森林用于分類時,每棵樹的權重相同且互不相關,依據投票的情況給出最后結論。選取隨機森林分類算法來訓練聯合特征實現語音信號的特征分類時,使用隨機森林對提取的真實語音與欺騙語音數據集所得到的聯合特征向量進行訓練,再對待認證語音集進行測試。因此,便可以得到一個基于聯合特征與隨機森林的偽裝語音檢測系統,基于聯合特征與隨機森林的偽裝語音檢測系統流程如圖4所示。
實驗使用的語音庫是Interspeech在2019年舉辦的ASVspoof挑戰賽中所使用的邏輯訪問(logical access,LA)場景數據集。ASVspoof2019LA數據庫基于語音克隆工具包(voice cloning tool kit,VCTK)語料庫提取,是一個在消聲暗室中以16 kHz的采樣率錄制的多人英語語音數據庫。ASVspoof2019LA語音庫中的偽裝語音由語音轉換和語音合成兩種偽裝方式生成,偽裝方式A01-A19的具體信息詳見文獻[25]。同時選取ASVspoof2015語音庫進一步對實驗結果進行驗證。ASVspoof2015語音庫中的欺騙攻擊語音由語音轉換和語音合成兩種偽裝方式生成,偽裝語音S1-S10的生成信息詳見文獻[26]。

圖4 基于聯合特征與隨機森林的偽裝語音檢測系統流程


選取ASVspoof2019LA語音庫中的語音樣本用于實驗,隨機選取了5 850條語音用于系統性能測試,其中有5 000條語音作為訓練集,850條語音作為測試集。


表1 應對不同欺騙攻擊時MFCC與CQCC特征在SVM與RF系統中的t-DCF值
由表1中的t-DCF值可以看出,在偽裝語音檢測中,MFCC的檢測結果較差。MFCC雖然能很好地反映人耳的聽覺機理,在說話人驗證系統中可以取得較好的性能,然而在偽裝語音檢測時并不能很好地辨別出真實語音與欺騙語音的區別,由于欺騙語音與真實語音的語音內容十分相似,難以區分,欺騙檢測性能較差。相比而言,CQCC是針對偽裝語音檢測所使用的聲學特征,避免了時頻分辨率均勻的缺點,更能在偽裝語音檢測中代表語音特征,相比MFCC有更好的檢測效果。同時,在對語音MFCC與CQCC兩種特征進行分類時,SVM與RF的性能表現差異不大,t-DCF值相差比較相近,RF略微要好一些。
實驗提取語譜圖紋理特征,使用ULBP算法提取訓練集中語音信號的ULBP特征矢量,使用PCA對ULBP特征、CQCC特征和MFCC特征進行降維處理并得到聯合特征,再將聯合特征矢量分別用于訓練SVM與RF系統,將所有訓練的SVM系統與RF系統在測試集中進行測試,在應對不同欺騙攻擊時兩種聯合特征在SVM與RF系統中的t-DCF值如圖5所示。

圖5 在應對不同欺騙攻擊時兩種聯合特征在SVM與RF系統中的t-DCF值
通過對比圖5與表1中的實驗數據發現,基于MFCC-ULBP特征矢量的檢測系統明顯優于基于MFCC特征矢量的檢測系統。同樣地,基于CQCC-ULBP特征矢量的檢測系統明顯優于基于CQCC特征矢量的檢測系統。因為聯合特征中包含語音信號中所攜帶的能量與紋理特征,比傳統聲學特征更具有代表性。同時也發現,采用CQCC-ULBP聯合特征的偽裝語音檢測方法具有最佳的檢測效果。在分類器方面,使用SVM與RF模型分別對MFCC-ULBP與CQCC-ULBP兩種聯合特征訓練時,通過RF模型訓練特征的檢測效果明顯優于SVM。使用RF模型進行偽裝語音檢測時,采用的聯合特征用于偽裝語音檢測的系統性能整體上都提高了檢測效果。但在使用SVM對聯合特征進行偽裝語音檢測時,系統檢測性能在部分偽裝種類中會有一定程度的下降。在處理普通的二分類問題時,SVM具有優秀的性能與泛化能力。但在偽裝語音檢測實驗場景中,真實語音樣本數量應普遍少于欺騙語音樣本數量,并且由于真實語音與欺騙語音樣本同等重要,故不宜在實驗前對數據進行預處理,而數據預處理可有效地提升SVM在二分類數據上的泛化能力。但RF在進行訓練和分類時都不需要進行數據預處理。
同時,實驗也選取ASVspoof2015語音庫中的語音樣本用于實驗來進一步驗證實驗中的結論,仍然隨機選取5 850條語音用于系統性能測試,其中有5 000條語音用于訓練作為訓練集,850條語音用于測試作為測試集。將該數據集中語音樣本在本文所提出的偽裝語音檢測方法進行驗證,使用聯合特征的提取方式提取該語音數據集中語音的特征參數,將得到的真偽語音特征參數在RF與SVM中進行訓練,所有訓練的SVM系統與RF系統在測試集中進行測試,將各類特征矢量在各個偽裝語音檢測系統上進行測試,應對不同欺騙攻擊時各類特征在SVM與RF系統中的t-DCF值如圖6所示。

圖6 應對不同欺騙攻擊時各類特征在SVM與RF系統中的t-DCF值
從圖6中的實驗結果可以看出,在ASVspoof 2015數據集中,基于CQCC-ULBP的聯合特征與隨機森林的偽裝語音檢測模型在整體上實現了最佳的分類性能。在使用聲學特征對S2類型欺騙攻擊進行分類時,t-DCF參數的值普遍很大,因為S2類型是改變聲學特征的生成的偽裝語音,更容易破壞使用聲學特征識別的系統,而聯合特征彌補了這一點,在應對S2類型欺騙攻擊時檢測效果較好。在應對S3、S4類型語音合成欺騙攻擊時,各系統都有不錯的表現,并且聯合特征得到了最佳的效果。但在應對S9類型欺騙攻擊時,對聯合特征的檢測性能造成了一定影響,t-DCF參數的值明顯增加。這是由于S9類型的語音轉換攻擊,幾乎不改變語譜圖的聲紋特征,導致紋理特征識別效果不好。紋理特征表現不佳,影響了聯合特征的整體性能。同時從圖5可以看出,相同條件下采用聯合特征與RF模型進行偽裝語音檢測時的性能要優于采用聯合特征與SVM模型進行檢測的效果。


表2 SVM與RF平均執行時間
為了改善基于傳統聲學特征參數的偽裝語音檢測系統的性能,提出了一種利用ULBP算法在語譜圖中提取紋理特征并與CQCC聲學特征進行聯合的偽裝語音檢測方法。在該方法中,分別使用PCA將一段語音的ULBP特征參數矩陣和CQCC特征矢量序列進行壓縮,然后進行聯合,成為一個矢量。同時,將該聯合矢量所構成的語音特征參數集訓練RF分類器,就可以得到偽裝語音檢測系統。實驗結果表明,聯合特征可以更加全面地描述語音信號的特征信息,便于分類檢測,本文采用隨機森林作為分類器與ULBP-CQCC聯合特征參數進行匹配具有最優的檢測性能。
[1] GOMEZ-ALANIS A, GONZALEZ-LOPEZ J A, PEINADO A M. A kernel density estimation based loss function and its application to ASV-spoofing detection[J]. IEEE Access, 2020, 8: 108530-108543.
[2] 肜婭峰, 陳晨, 陳德運, 等. 基于貝葉斯主成分分析的i-vector說話人確認方法[J]. 電子學報, 2021, 49(11): 2186-2194.
RONG Y F, CHEN C, CHEN D Y, et al. Bayesian principal component analysis for I-vector speaker verification[J]. Acta Electronica Sinica, 2021, 49(11): 2186-2194.
[3] LI N, MAK M W, CHIEN J T. Deep neural network driven mixture of PLDA for robust i-vector speaker verification[C]//Proceedings of 2016 IEEE Spoken Language Technology Workshop. Piscataway: IEEE Press, 2016: 186-191.
[4] ALEGRE F, JANICKI A, EVANS N. re-assessing the threat of replay spoofing attacks against automatic speaker verification[C]//Proceedings of 2014 International Conference of the Biometrics Special Interest Group (BIOSIG). Piscataway: IEEE Press, 2014: 1-6.
[5] 林朗, 王讓定, 嚴迪群, 等. 基于逆梅爾對數頻譜系數的回放語音檢測算法[J]. 電信科學, 2018, 34(5): 90-98.
LIN L, WANG R D, YAN D Q, et al. A playback speech detection algorithm based on log inverse Mel-frequency spectral coefficient[J]. Telecommunications Science, 2018, 34(5): 90-98.
[6] NAUTSCH A, WANG X, EVANS N, et al. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2021, 3(2): 252-265.
[7] 任延珍, 劉晨雨, 劉武洋, 等. 語音偽造及檢測技術研究綜述[J]. 信號處理, 2021, 37(12): 2412-2439.
REN Y Z, LIU C Y, LIU W Y, et al. A survey on speech forgery and detection[J]. Journal of Signal Processing, 2021, 37(12): 2412-2439.
[8] YU H, TAN Z H, MA Z Y, et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4633-4644.
[9] PAUL D, PAL M, SAHA G. Novel speech features for improved detection of spoofing attacks[C]//Proceedings of 2015 Annual IEEE India Conference. Piscataway: IEEE Press, 2015: 1-6.
[10] HIDAYAT R, BEJO A, SUMARYONO S, et al. Denoising speech for MFCC feature extraction using wavelet transformation in speech recognition system[C]//Proceedings of 2018 10th International Conference on Information Technology and Electrical Engineering (ICITEE). Piscataway: IEEE Press, 2018: 280-284.
[11] ?ZS?NMEZ D B, ACARMAN T, PARLAK ? B. Optimal classifier selection in Turkish speech emotion detection[C]// Proceedings of 2021 29th Signal Processing and Communications Applications Conference (SIU). Piscataway: IEEE Press, 2021: 1-4.
[12] PENG X, LU C Y, YI Z, et al. Connections between nuclear-norm and frobenius-norm-based representations[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(1): 218-224.
[13] TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech & Language, 2017 (45): 516-535.
[14] SARANYA S, BHARATHI B, KAVITHA S. An approach to detect replay attack in automatic speaker verification system[C]//Proceedings of 2018 International Conference on Computer, Communication, and Signal Processing (ICCCSP). Piscataway: IEEE Press, 2018: 1-5.
[15] YE Y C, LAO L J, YAN D Q, et al. Detection of replay attack based on normalized constant Q cepstral feature[C]//Proceedings of 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis. Piscataway: IEEE Press, 2019: 407-411.
[16] MASSOUDI M, VERMA S, JAIN R. Urban sound classification using CNN[C]//Proceedings of 2021 6th International Conference on Inventive Computation Technologies (ICICT). Piscataway: IEEE Press, 2021: 583-589.
[17] LI P H, LI Y Y, LUO D C, et al. Speaker identification using FrFT-based spectrogram and RBF neural network[C]//Proceedings of 2015 34th Chinese Control Conference (CCC). Piscataway: IEEE Press, 2015: 3674-3679.
[18] WANG J, HAN Z Y. Research on speech emotion recognition technology based on deep and shallow neural network[C]//Proceedings of 2019 Chinese Control Conference (CCC). Piscataway: IEEE Press, 2019: 3555-3558.
[19] 徐劍, 簡志華, 于佳祺, 等. 采用完整局部二進制模式的偽裝語音檢測[J]. 電信科學, 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[20] K L, DABHADE S B, RODE Y S, et al. Identification of breast cancer from thermal imaging using SVM and random forest method[C]//Proceedings of 2021 5th International Conference on Trends in Electronics and Informatics (ICOEI). Piscataway: IEEE Press, 2021: 1346-1349.
[21] TAO Y, HE Y Z. Face recognition based on LBP algorithm[C]//Proceedings of 2020 International Conference on Computer Network, Electronic and Automation (ICCNEA). Piscataway: IEEE Press, 2020: 21-25.
[22] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[23] FAUDZI S A A M, YAHYA N. Evaluation of LBP-based face recognition techniques[C]//Proceedings of 2014 5th International Conference on Intelligent and Advanced Systems (ICIAS). Piscataway: IEEE Press, 2014: 1-6.
[24] WANG L L. Research on distributed parallel dimensionality reduction algorithm based on PCA algorithm[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 1363-1367.
[25] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020, 64: 101114.
[26] WU Z Z, KINNUNEN T, EVANS N, et al. ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge[C]//Proceedings of Interspeech 2015. ISCA: ISCA, 2015.
[27] CHENG X L, XU M X, ZHENG T F. Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019[C]//Proceedings of 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Piscataway: IEEE Press, 2019: 540-545.
Spoofing speech detection algorithm based on joint feature and random forest
YU Jiaqi1, JIAN Zhihua1, XU Jia1, YOU Lin2, WANG Yunlu2, WU Chao1
1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2. School of Cyberspace Security, Hangzhou Dianzi University, Hangzhou 310018, China
In order to describe the characteristic information of the speech signal more comprehensively and improve the detection rate of camouflage, a spoofing speech detection method based on the combination of uniform local binary pattern texture feature and constant Q cepstrum coefficient acoustic feature was proposed, which used random forest as the classifier model. The texture feature vector in the speech signal spectrogram was extracted by using the uniform local binary mode, and the joint feature was formed with the constant Q cepstrum coefficient. Then, the obtained joint feature vector was used to train the random forest classifier, so as to realize the camouflage speech detection. In the experiment, the performances of several spoofing detection systems constructed by other feature parameters and the support vector machine classifier model were compared, and the results show that the proposed speech spoofing detection system combined with the joint feature and the random forest model has the best performance.
spoofing speech detection, acoustic feature, texture feature, uniform local binary pattern, random forest
: The National Natural Science Foundation of China (No.61201301, No.61772166, No.61901154)
TP391.42
A
10.11959/j.issn.1000?0801.2022089
2022?01?02;
2022?05?15
國家自然科學基金資助項目(No.61201301,No.61772166,No.61901154)
于佳祺(1997?),男,杭州電子科技大學通信工程學院碩士生,主要研究方向為語音偽裝檢測、特征提取與分析。

簡志華(1978?),男,博士,杭州電子科技大學通信工程學院副教授、碩士生導師,主要研究方向為語音轉換、偽裝語音檢測、聲紋識別等。
徐嘉(1998?),女,杭州電子科技大學通信工程學院碩士生,主要研究方向為語音偽裝及檢測。

游林(1966?),男,博士,杭州電子科技大學網絡空間安全學院教授、碩士生導師,主要研究方向為生物信息處理、信息安全、密碼學等。
汪云路(1980?),女,博士,杭州電子科技大學網絡空間安全學院講師,主要研究方向為音頻信息處理、信息隱藏。
吳超(1988?),男,博士,杭州電子科技大學通信工程學院講師,主要研究方向為導航信號處理及欺騙干擾檢測。