金雨晨 凌霖 許毅



摘 要:IoT設備身份認證是物聯網領域的重要應用。語音重放欺騙攻擊現已成為自動說話人驗證(ASV)系統所面臨的嚴重的安全威脅。文中以ASVspoof 2017語音數據集為研究對象進行重放語音檢測實驗,利用倒譜均值方差歸一化(CMVN)改進檢測系統性能。實驗結果表明,采用CMVN后的線性頻率倒譜系數(LFCC)特征在重放語音的檢測上性能優于常數Q變換倒譜系數(CQCC)、梅爾倒譜系數(MFCC)和逆梅爾倒譜系數(IMFCC)特征。
關鍵詞:物聯網;自動說話人驗證;倒譜特征;重放語音檢測;倒譜均值方差歸一化;逆梅爾倒譜系數
中圖分類號:TP393;TN912.3文獻標識碼:A文章編號:2095-1302(2020)06-00-03
0 引 言
說話人識別領域在過去的幾十年中取得了重大進展。事實上,這項技術已經成熟了,可以廣泛的應用于現實世界中。但是多項研究表明,沒有采取一定檢測措施的自動說話人驗證(Automatic Speaker Verification,ASV)系統對于欺騙攻擊表現得非常脆弱[1-3]。語音欺騙攻擊手段主要有模仿、語音合成、語音轉換、錄音重放等,其中重放錄音是最容易采用的欺騙攻擊方式,它不需要特殊的信號處理知識就能夠進行[4]。在過去的幾年里,特別是從ASVspoof 2015挑戰賽開始,為了保護說話人識別系統,人們進行了大量的研究工作,制定了各種反欺騙策略。一般,反欺騙系統由兩部分組成:前端用于參數化語音信號,后端通過分類器確定其是真實語音還是欺騙語音[5]。
本文對基于倒譜特征的重放語音檢測系統進行實驗和分析,并對比幾種不同倒譜系數特征系統的性能。
1 ASV系統及重放語音檢測
基于GMM-UBM分類器的ASV系統模型如圖1所示。
ASV系統模型可能在8個位置受到攻擊,其中重放語音攻擊一般發生在語音信號的輸入,即麥克風接收端。相應的,反欺騙系統的分類器需要訓練真實語音模型和欺騙語音模型,針對重放語音的檢測過程如圖2所示。
2 基于倒譜特征的重放語音檢測算法
重放語音檢測算法的流程如下。
(1)語音信號的采集。
(2)信號的預處理,包含采樣量化,預加重,端點檢測,分幀,加窗等。
(3)特征提取。
(4)模型的訓練,即分類器。本文采用高斯混合模型(GMM),通過訓練集語音數據獲得真實說話人語音模型與欺騙語音模型。
(5)檢測判決。對測試語音數據(開發集或評估集語音數據)分別在真實說話人語音模型與欺騙語音模型上計算對數似然分值后,獲得系統的等錯誤率EER值。
本文主要對基于不同倒譜系數特征的欺騙檢測系統進行評估對比,系統的EER值越低反映檢測性能越優。
2.1 實驗條件
造成重放語音攻擊研究困難的部分原因是缺乏可公開使用的數據庫和統一的基準,ASVspoof 2017是第一個提供重放語音標準語料庫、協議和度量指標的公共框架倡議。
ASVspoof 2017數據集主要以RedDot數據庫作為真實語音的來源,RedDot重放數據庫作為偽造重放錄音的來源[6]。數據集被分成訓練集、開發集和評估集三個分組,表1給出了它們的數據統計,數據對應177種不同的重放會話和61種
不同的重放配置[3]。重放配置是指錄音環境、錄音設備和重放設備的一種組合。
2.2 基于CQCC特征的重放語音檢測
CQCC(Constant Q Cepstral Coefficients)是一種經常使用的聲樂識別與檢測的聲學特征。CQCC的特征提取主要分為以下幾個過程:預處理,常數Q變換(CQT),能量譜,對數能量,離散余弦變換(DCT)[7]。
將經過預處理的語音信號進行常數Q變換,將語音信號由時域變換到頻域。CQT可以被視為一組有著對數間隔的濾波器,它和小波變換類似,具有可變的時間和頻率分辨率,相較傳統的DFT而言,能提供更佳的信號分辨能力,在ASVspoof 2015的合成語音檢測任務中表現出優秀的檢測性能,因而ASVspoof 2017將CQCC特征的檢測系統作為基線(BASELINE)系統。
提取CQCC特征時,不進行預加重,最低分析頻率設為15.625 Hz,最高分析頻率取8 000 Hz,第一個八度音階的均勻采樣數d為16,每個八度音階包含的頻帶數設置為96,CQCC原始特征維度設置為30維(包括0階系數),在經過一階和二階差分以后,最終每幀音頻對應的CQCC特征為90維特征向量。GMM分類器的高斯分量數設置為512,利用訓練好的GMM模型對系統進行性能評估。
2.3 基于MFCC,IMFCC,LFCC特征的重放語音檢測
提取MFCC(Mel Frequency Cepstral Coefficients)倒譜系
數一般包括:預處理、快速傅里葉變換(Fast Fourier Transform,
FFT)、梅爾濾波、DCT變換。經過快速傅里葉變換后得到的離散頻譜用一組三角濾波器進行濾波,最后進行離散余弦變換。在用MFCC進行特征提取時,濾波器以MEL頻率比例放置,在低頻區域中具有更密集的間隔。
與MFCC不同,IMFCC采用了逆梅爾濾波器組取代梅爾濾波器組。逆梅爾濾波器組與傳統梅爾濾波器組的結構相反,它使用在“倒MEL”尺度上線性分布的濾波器,更強調高頻區域,因而在高頻范圍有著更高的分辨率[5,8]。
LFCC(Linear Frequency Cepstral Coefficients)與梅爾倒譜特征提取過程類似,但它的濾波器組頻率不是按MEL頻率分布,而是按照線性頻率分布的。
在進行重放語音檢測時,對語音信號進行預加重,系數取0.97,FFT長度為512。窗函數為Hamming窗,窗口長20 ms,時間偏移為10 ms,其他設置和CQCC相似,每幀語音得到90維特征向量,GMM模型同樣為512維。
2.4 倒譜均值方差歸一化
信道干擾會降低重放語音檢測系統的性能,而倒譜均值和方差歸一化(Cepstrum Mean Variance Normalization,CMVN)是一種用于消除干擾信道效應的有效的歸一化技術。不同聲學環境下不同設備的語音回放和記錄類似于附加通道效應的積累,而CMVN的目的是減少信道效應,這可能會對重放檢測造成不利影響[3]。但這種情況只在錄音發生在相同信道的條件下成立,由于ASVspoof 2017數據來自使用異構設備和信道的Red Dots數據庫[6],此情況并不成立。
CMVN可以幫助將真實的和重放的語音分布調整到一個共同的范圍,從而迫使欺騙檢測根據信道差異外的其他影響對兩者進行區分。
3 實驗結果
不采用CMVN時,對基于不同倒譜特征的檢測結果進行分析,見表2所列。
對比MFCC和IMFCC,IMFCC特征在重放語音檢測中的性能要明顯優于MFCC特征的性能。由于逆梅爾濾波器組的特性,IMFCC在高頻段分辨率要高于梅爾濾波器組,說明語音信號高頻段對檢測結果的影響更大。總體來看,CQCC基線系統在評估集的結果最優,LFCC次之,MFCC和IMFCC的性能則相對較差。開發集的檢測結果優于評估集,主要是由于評估集的語音數量和重放配置遠多于開發集(見表1),所以評估集結果更能反映系統的實際檢測性能。
為改進重放語音檢測系統的性能,對CQCC,LFCC特征采用CMVN,得到的檢測結果見表3所列。
對比加入CMVN前(見表2)數據,CQCC的評估集EER減少了10.61,LFCC的評估集EER下降了19.72。結果表明,CMVN有助于提升系統對新語音樣本的適應能力,并且從改善效果看,LFCC的性能要好于CQCC的性能,因此,可以得出LFCC+CMVN針對重放語音的檢測中有很好的效果。
進一步,在LFCC加入CMVN的基礎上,考察GMM模型高斯分量數的改變對于重放檢測系統性能的影響,結果見表4所列。
由表4可見,隨著高斯分量數的增加,EER的值會有一定的減小,但減小幅度有限。實驗結果表明,適當增加高斯分量數可以提升系統的性能。但是,增加高斯分量數會使得計算量增大,大大增加實驗的時間。
4 結 語
基于語音的身份認證相對其他生物特征,具有用戶接受程度高、拾音設備簡單、數據量小、計算復雜度低等優勢,因此基于說話人識別的身份認證系統應用越來越廣泛。但是,說話人識別系統對于各種欺騙攻擊技術表現非常脆弱。基于倒譜系數特征的重放語音檢測系統能增加ASV系統的可靠性,本文在實驗后得出結論:基于IMFCC特征的系統檢測性能要優于基于MFCC特征的系統,但總體上,基于MFCC和IMFCC特征的系統性能相對較差;CMVN能提升重放語音檢測系統的性能;增加GMM模型高斯分量數也能少許改善系統檢測性能,但要付出運算量代價;相比CQCC,MFCC,IMFCC,基于LFCC特征的檢測系統,性能最優。
參考文獻
[1] WU Z Z,EVANS N,KINNUNEN T,et al. Spoofing and countermeasures for speaker verification:a survey [J]. Speech communication,2015,66:130-153.
[2] KINNUNEN T,WU Z Z,LEE K A,et al. Vulnerability of speaker verification systems against voice conversion spoofing attacks:the case of telephone speech [C]// IEEE International Conference on Acoustics. Kyoto:IEEE,2012:4401-4404.
[3] DELGADO H,TODISCO M,SAHIDULLAH M,et al. ASVspoof 2017 Version 2.0:meta-data analysis and baseline enhancements [C]// Odyssey 2018-The Speaker and Language Recognition Workshop. Les Sables dOlonne,2018.
[4] FONT R,L?PEZ J M E,CANO M J. Experimental analysis of features for replay attack detection:results on the ASVspoof 2017 challenge [C]// International Speech Communication Association. Stockholm:Interspeech,2017:7-11.
[5] SAHIDULLAH M,KINNUNEN T,CEMAL H. A comparison of features for synthetic speech detection [C]// Proceedings of the Annual Conference of the International Speech Communication Association. Dresden:Interspeech,2015:2087-2091.
[6] KINNUNEN T,SAHIDULLAH M,FALCONE M,et al. RedDots replayed:a new replay spoofing attack corpus for text-dependent speaker verification research [C]// 2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2017). New Orleans:IEEE,2017:5395-5399.
[7] TODISCO M,H?CTOR D,EVANS N. Constant Q cepstral coefficients:a spoofing countermeasure for automatic speaker verification [J]. Computer speech & language,2017,45:516-535.
[8]林朗,王讓定,嚴迪群,等.基于逆梅爾對數頻譜系數的回放語音檢測算法[J].電信科學,2018,34(5):96-104.
[9]凌賢鵬,李綻蕾,劉昊.基于智能語音的智能家居系統設計[J].物聯網技術,2019,9(1):73-74.
[10]原晨,高勇.高質量信道上回聲隱藏法秘密信息提取出錯原因分析[J].現代電子技術,2015,38(11):103-106.