廣州城市職業學院 蘇卓藝
現今,隨著語音處理算法及相應工具的成熟,這給社會帶來便利的同時,亦面臨不少新的安全問題。其中,偽裝語音便是亟待解決的重要安全問題之一。根據已有的研究記錄表明:偽裝語音能輕易騙過人耳及說話人識別系統,從而冒充他人或隱藏說話人身份,對人身、經濟等領域均帶來嚴重威脅。目前,針對偽裝語音的檢測研究已經有了一定的進展。但大多數的研究所都只針對一種類型的偽裝語音進行研究和檢測,在應對其他類型的偽裝攻擊時,往往檢測率不高。而在實際應用場合中,一般不能提前知道偽裝語音的類型。因此,本文研究了可以應對多種類型偽裝語音的檢測模型,提出了一種利用殘差網絡和長短時記憶網絡相結合來檢測偽裝語音的方法。
近年來,自動說話人驗證(Automatic Speech Verification,ASV)系統這種低成本的生物識別技術已被廣泛地應用在許多場合。但隨著自動語音處理算法的不斷成熟,ASV系統很容易受到來自偽裝語音的攻擊。為此,2015 年首屆ASV 欺騙挑戰計劃出現,目的是促進偽裝語音的研究,為評估和比較欺騙對策提供一個通用平臺。并且形成一個基于振幅、相位、線性預測殘差和基于振幅-相位的聯合對抗措施組成的偽裝攻擊檢測系統[1-3]。
現有的關于偽裝語音檢測的研究主要集中在三種不同的偽裝類型:
(1)語音轉換(Voice Conversion,VC)和語音合成(Speech Synthesis,SS)方面:F.Hassan 等人提出了一種由頻譜通量和頻譜質心組成的融合特征向量用于分類識別的方法[4]。Muckenhirn 等人提出利用一階和二階譜作為特征的檢測方法[5]。此外還有運用高斯混合模型(Gaussian Mixture Model,GMM)、動態時間規劃(DTW)模型、卷積神經網絡等其他方法的檢測算法[6-10]。
(2)關于重播語音的研究,Patil 等人提出了采用倒譜均值和方差歸一化(CMVN)的方法[11]。M.R.Kamble等人提出使用泰格能量算子(TEO)來計算重放與自然信號的子帶能量并映射到MFCC 中用于檢測識別[12]。G.P.Prajapati 等人提出基于能量分離算法(ESA)的特征以及高斯混合模型(GMM)作為模式分類器的方法[13]。R.Acharya 提出交叉能量倒數系數(CTECC)作為特征,高斯混合模型(GMM)和光卷積神經網絡(LCNN)作為分類器的檢測方法[14]。
(3)關于語音變形(Voice Transformation,VT)的研究,大多利用如頻譜圖、修改群延遲(MGD)和梅爾普倒譜系數(MFCC)作為特征再利用支持向量機(SVM)、隱含馬爾柯夫模型(HMM)等分類器及深度學習的方法檢測語音真偽[15,16]。
偽裝語音檢測的研究目前較為系統和豐富,但是這些檢測方法大多都只適用一種偽裝語音類型的檢測識別上,當偽裝語音的欺騙類型與所設計模型訓練不一致時,效果往往不如意。因此,本文提出一種基于ResNet-LSTM 的偽裝語音檢測的模型,將語音數據轉換成時頻圖的方式輸入到設計好的ResNet-LSTM 的網絡中輸出判斷結果。實驗結果表明,該方法在多種類型的偽裝語音檢測上都有超過90%的識別精度,能應對各種不同時長及不同類型的偽裝語音攻擊。
基于ResNet-LSTM 的偽裝語音檢測系統包括訓練階段和測試階段,訓練階段分別利用ResNet 和LSTM獲取語音片段時域特征和頻域特征并用于訓練和分類,ResNet 通過卷積操作獲取語音在頻譜上的空間特征,并通過引入短連接解決過擬合的問題,提高分類性能和準確度。LSTM 體系結構可以將長時段信息存儲在其記憶塊中,并通過窺視連接來學習語音的上下文依賴性,多類型的偽裝語音檢測系統如圖1 所示。

圖1 基于RseNet-LSTM 的偽裝語音檢測系統Fig.1 Spoofing speech detection system based on RseNet-LSTM
2.1.1 卷積神經網絡
卷積神經網絡(Convolutional Neural Network,CNN)是一種備受關注的檢測模型。近年來,CNN 已經成為許多研究領域的熱門話題,特別是在語音識別、圖像識別和自然語言處理領域。這是因為CNN 避免了對數據復雜的前期預處理操作,能夠直接向網絡輸入原始數據,因此得到廣泛重視。CNN 結構中的特征提取器,使得數據樣本在卷積的過程中,特征不斷地被提取以及壓縮,并最終能得到比較高維度的特征。
總的來說,CNN 結構可以分為兩部分,一部分是特征提取,一般包括卷積操作、激活函數以及池化;另一部分是全連接層的分類和識別。
2.1.2 殘差網絡
通常,為了提取更深層的特征用于模型分類,會設計一個層數更多的模型。但是,隨著CNN 層數的增加,在訓練過程中經過許多層后,網絡梯度信號會慢慢消失。當訓練到一定程度時,模型的訓練精度雖然隨著訓練次數的增加而提高,但測試精度卻降低,稱為退化現象。殘差網絡[17]中提出了一種數據短路徑的方法,使信號能夠在輸入層和輸出層之間高速流通。該方法的核心思想是在網絡的前一層和后一層之間建立一條短路徑連接,對退化現象有很好的抑制作用。殘差模塊是由一系列殘差塊組成,如圖2 所示,一個殘差塊可以用公式表示如式(1)所示:

圖2 殘差模塊結構圖Fig.2 Residual module structure diagram
殘差模塊分為兩部分:直接映射部分和殘差部分。直接映射,體現在圖2 中右側曲線中;殘差部分,一般由兩個或者三個卷積操作組成,即圖2 中左側包含的卷積部分。
2.2.1 循環神經網絡
長短時記憶網絡(Long Short-Term Memory networks,LSTM)是在循環神經網絡(Recurrent Neural Network,RNN)基礎上改進的。RNN 是一種具有短時記憶能力的神經網絡,適合用于處理視頻、語音、文本等與時間序列相關的問題。在常規的RNN 中,神經元既可以接收來自其他神經元的信息,也可以接收自身的信息,形成一個循環的網絡結構。這使得RNN 可以共享不同時刻的參數,如圖3 所示。RNN 的單個神經元包含一個反饋輸入,網絡中上一時刻神經元的“歷史信息”將通過權值與下一時刻的神經元相連接。這樣,RNN 在t時刻的輸入與輸出映射都參考了t時刻之前所有輸入數據對網絡的影響,形成了反饋網絡結構,使RNN 中的參數在不同時刻共享。

圖3 RNN 單個神經元結構圖Fig.3 Single neuron structure of RNN
給定一個輸入序列X1:T=(X1,X2,...,Xt,...,XT),RNN通過如式(2)所示的公式來更新帶反饋的隱含層活性值ht:
其中h0=0,f(·)是一個非線性操作。但是常規的RNN 很難學到長期依賴,因此模型訓練十分困難。
2.2.2 長短時記憶網絡
LSTM 在常規RNN 的結構上做了改進,它的主體結構與RNN 相似。不同的是,常規RNN 中的神經元被LSTM 隱藏層中的記憶區塊所代替。記憶區起到對信息的限制作用,里面的門結構對信息進行篩選和限制,使該記住的信息傳遞下去,不該記的信息被門限制住,這樣的結構使得梯度不論傳播多少層,都不可能真正消失。通過這種結構來解決長期依賴問題,使得網絡能記住長期的信息,這樣后期的早期信息也能對后面的網絡輸出起作用。相比于RNN 網絡,LSTM 網絡收斂性更好。研究表明,LSTM 網絡是目前應用最好的循環神經網絡結構之一,在處理時間序列問題上具有很好的效果。如語音識別、溫度預測、發病率預測等。
LSTM 網絡結構中每一層的神經元都含有3 個門來控制并保護結構狀態,這3 個門分別是輸入門、遺忘門、輸出門,它們都包含在LSTM 網絡記憶單元中,通過調節門的開關可以實現初始序列對最后結果的影響,具體的LSTM 網絡記憶單元的網絡結構如圖4 所示,輸入門控制新輸入到記憶單元的強度,遺忘門控制記憶單元保持上一時間值的強度,輸出門控制輸出記憶單元的強度。圖4 中it表示輸入門,ft表示遺忘門,ot表示輸出門,ct表示記憶單元的向量值。另外Sigmoid 激活函數作為門函數,其作用是通過記憶單元保持與上層特征的聯系,增強記憶的時效性,輸出0-1 的數值,從而決定有多少信息可以輸入到記憶單。

圖4 LSTM 記憶單元結構圖Fig.4 LSTM memory unit structure diagram
LSTM 網絡對序列數據xt按照如式(3)-式(8)所示的公式進行處理。
其中U1,W1,b1為線性關系的系數和偏置,σ為Sigmoid激活函數,?為Hadamard 積(對應位置相乘)。
本文提出的ResNet-LSTM 結構如表1 所示。網絡由一個初始卷積層、兩個殘差塊、一個轉換層和兩個LSTM層組成。初始層包含64 個7×7 的卷積核,池化采用3×3的最大值池化,步長為2。殘差塊1 中包含3 個連續的1×1和3×3 卷積層,每層卷積核個數為64,池化采用2×2 的均值池化,步長為2。殘差塊2 與殘差塊1 結構基本一致,但每層卷積層的卷積核個數增加到128 個。經過轉換層后,把輸出特征圖的通道鋪平,變成6×6×128=4608 的一維張量,并輸入到最后的兩個LSTM 層中,兩個LSTM 層分別包含4608 個神經元和100 個神經元。

表1 ResNet-LSTM 網絡結構Tab.1 ResNet-LSTM network structure

表2 ASVspoof 2019 數據集分布Tab.2 ASVspoof 2019 data set distribution
ResNet-LSTM 檢測網絡的輸入是96×96 大小的頻譜圖,通過卷積操作提取語音段時域和頻域上的有效信息,利用池化層不斷壓縮特征圖大小獲取高緯度的深層特征。特征信息最終通過兩層LSTM 結構對該特征序列進行處理并輸出最終的分類結果,分類器采用Softmax。
ASVspoof 2019 語料庫包含46 名男性和61 名女性在內的107 名說話人的真實語音,所有的真實語音均采用了相同的錄音設備和環境,且沒有信道和噪聲的干擾。數據集中的偽裝語音均是由獲取的真實語音經過語音合成和語音轉換得到,語音數據的采樣率均為16kHz。
數據集包括3 個子集:訓練集(Train)、驗證集(Development)和測試集(Evaluation)。其中訓練集和驗證集中的偽裝語音來自6 種相同且已知的語音偽裝技術,用于對偽裝語音檢測系統進行訓練和參數調整。而測試集中的偽裝語音則包含上述2 種已知的攻擊類型和11 種未知的攻擊類型。
需要注意的是,由于偽裝(負樣本)語音的數量是真實(正樣本)語音數量的大約9 倍。為了確保訓練數據的平衡,本文對真實(正樣本)語音的訓練集和驗證集進行了擴充,使正樣本的數量與負樣本的數量相等。
本文使用一個ADAM 優化器[18]訓練提出的ResNet-LSTM 模型的損失函數,其中第一和第二的指數衰減率估計β1,β2 分別為0.9 和0.999。學習率設置為10-4,訓練Epoch 為50 次,批量大小為32。
語音檢測實驗部分,本文采用的是1s 的極短時長的語音進行實驗,認為1s 的語音段極具代表性,采用1s 的語音訓練模型可以使得到的模型可以應用到幾乎所有時長的偽裝語音的檢測中,不會出現因測試語音片段過短而導致測試結果不準確的情況。而ASVspoof2019 數據集中的語音段均為30~60s 的語音段,數據量較大,實際獲取語音時未必能達到上述的要求。
所以本文在原始語音的基礎上,將語音段切割成1s的多個短語音段并作為訓練及測試數據應用到設計的ResNet-LSTM 網絡中,并采用錯誤拒絕率與錯誤接受率去判斷所提出方法的有效性。其中錯誤拒絕率指錯誤拒絕真實語音的概率,錯誤接受率是表示錯誤接受偽裝語音的概率。一般是使用等錯誤率(Equal Error Rate,EER)來代表檢測方法的性能,其表達式如式(9)所示:
其中,θEER是錯誤拒絕率Pmiss與錯誤接受率Pfa相等時的閾值。
本文把ASVspoof2019 中測試集中包含的13 種攻擊類型的數據分別進行了實驗,并計算等錯誤率,實驗結果如表3 所示。

表3 跨數據庫檢測等錯誤率Tab.3 The equal error rate of cross-database speech
根據表3 的實驗結果表明,ResNet-LSTM 網絡在檢測未知語音合成或語音轉換的偽裝攻擊時,依然保持較低的等錯誤率。此外測試數據集中的A16 和A19 的檢測結果要優于其他11 個測試數據集的結果,這是由于A16與A04,A19 與A06 是來自相同的偽裝攻擊算法,測試的等錯誤率相較于其他未知偽裝攻擊更低。
在這一部分的實驗中,本文還對語音變形的偽裝語音進行了檢測,以此驗證該檢測網絡在應對其他類型的語音攻擊時的效果。這部分實驗數據包含3 個語料庫,分別是Timit(630 個說話人,6300 段語音)、UME(202個說話人,4040 段語音)和NIST(356 個說話人,3560段語音)。語音數據為WAV 格式,采樣率均為8kz。語料庫的分組如下:
訓練集:Timit-1(3000 段語音),UME-1(2040 段語音),NIST-1(2000 段語音);
測試集:Timit-2(3300 段語音),UME-2(2000 段語音),NIST-2(1560 段語音)。
實驗的訓練集和測試集來源于同一個語料庫,實驗結果對比了其語音檢測的方法。實驗采用如式(10)所示的公式中的檢測精度方法來測量性能。
其中G和S為測試集中真實和偽裝語音的數量,Ga和Sa分別為從G中正確檢測到的真實片段和從S中正確檢測到的偽裝語音片段的數量。實驗結果如表4 所示。
實驗結果表明,本文提出的方法檢測精度比Liang等人提出的檢測方法[16]高1.79%,比Wu 等人提出的方法[15]高2.87%。本文提出的方法優于另外兩種方法,是因為ResNet-LSTM 比普通的CNN 卷積層數更多,提取到更多更深層的特征用于分類。此外,普通CNN 的決策僅僅是由深層特征決定,但在ResNet-LSTM 引入了短路徑的連接,并在分類時不僅可以參考深層特征,同時又參考了早期的淺層特征,從而提高檢測精度。
本文對多種不同類型的偽裝語音分別進行了檢測,提出了基于ResNet-LSTM 的多類型偽裝語音檢測模型。該模型通過對語音時頻圖卷積能自動提取語音特征,并利用殘差模塊的短連接實現同時保留語音的深層特征和淺層特征信息,并最終通過LSTM 的門結構過濾掉無效信息,留下有效特征,從而提高偽裝語音的檢測效果。實驗的結果顯示,ResNet-LSTM 在多種類型的偽裝語音的檢測效果均表現很好,檢測精度均超過90%。