牛曉可,黃伊鑫,徐華興,2,蔣震陽
(1.鄭州大學電氣工程學院,鄭州 450001;2.河南省腦科學與腦機接口技術重點實驗室(鄭州大學),鄭州 450001)
(*通信作者電子郵箱niuxiaoke@zzu.edu.cn)
生物識別技術在過去幾十年得到了廣泛研究與應用,說話人識別作為僅次于掌紋和指紋識別的第三大生物特征識別技術,目前世界市場占有率為15.8%,并有逐年上升的趨勢。相較于指紋和掌紋這些生物特征識別技術,聲紋識別技術發展較晚,但在應用上因具備語音提取方便、適合遠程身份確認等特點而具有明顯優勢。該技術的實現原理主要為聲紋特征的提取與匹配,即:首先,從與文本不相關的語音片段中提取出說話人的聲紋特征;然后,建立對應的說話人模型即聲紋數據庫,最后,在測試時采用相同特征提取方法與說話人模型,獲取被測試說話人的語音特征,并與聲紋數據庫中的特征進行匹配,根據匹配結果判決說話人的身份??偟膩碇v,說話人識別技術的研究可概括為聲紋特征參數的提取與說話人模型構建(或稱為特征匹配/分類)。
在聲紋特征參數的提取方面,梅爾倒譜系數(Mel-Frequency Cepstral Coefficient,MFCC)是較為常用的,操作簡單、樣本量小。MFCC 主要描述了聲道特征,在沒有噪聲時有很好的特征表達,但在高噪聲存在時魯棒性會明顯降低[1]。針對噪聲環境下語音識別系統的魯棒性問題,目前已經有很多學者提出了不同的方法,典型的方法主要有:感知聽覺場景分析、小波變換法、模型補償法的魯棒語音識別分析、信號空間的魯棒語音識別分析和模擬生物聽覺感知特性法[2]。感知聽覺場景分析能在多噪聲環境中清楚分離出目標語音信號,但是會出現一定的信號缺少。王凱龍等[3]基于計算聽覺場景分析理論,對單通道多說話人混合語音分離問題進行了研究,該方法在消除多種典型噪聲干擾方面能得到較好的效果。小波變換法具有多分辨率分析的特點,能夠通過選擇不同的尺度以減小噪聲對信號的影響,從而提高對語音信號的特征提取的正確率。而模型補償法以及針對信號空間的方法中心思想即在信號空間消除噪聲的影響,以維納濾波、譜估計、語音增強為代表。張靖等[4]針對環境噪聲的多變性導致訓練時無法預測實際應用中的環境噪聲的問題,引入環境自學習和自適應思想,通過改進的矢量泰勒級數(Vector Taylor Series,VTS)刻畫環境噪聲模型和說話人語音模型之間的統計關系,于2020 年提出了一種具有環境自學習能力的魯棒說話人識別算法,該算法在高信噪比(Signal-to-Noise Ratio,SNR)條件下的識別率以及對噪聲的魯棒性均有所提升,但低信噪比條件下的性能仍存在不足。近幾年,深度神經網絡(Deep Neural Network,DNN)逐漸成為學者們研究的重點,主流的方法有深度信念網絡(Deep Belief Network,DBN)、卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Network,RNN)。顧婷[5]在2019 年利用CNN 構造了一種CNN 融合特征,使識別率有明顯提升,但受網絡層數影響較大;同年,趙飛[6]提出了一種基于DNN的語音分離和說話人確認聯合訓練框架,該框架將語音分離部分產生的對噪聲具有魯棒性的特征應用在說話人確認網絡,能夠顯著提高說話人識別的正確率。但是深度學習的方法的缺陷也很明顯,即對樣本量依賴較大,給該技術在實際應用領域帶來一些影響;并且,隨著信噪比的降低,識別率的下降較為嚴重,強噪聲環境下該技術的魯棒性明顯降低。但是生物的聽覺系統對噪聲卻具有很強的魯棒性,即使在信噪比極低的條件下,依然有很高的識別率,因此近些年來模擬生物聽覺特性進行語音識別的方法越來越受到研究者的青睞。典型的代表是:Chi 等[7]于2005 年首次將生物聽皮層神經元頻譜-時間感受野(Spectra-Temporal Receptive Field,STRF)的概念引用到了簡單的語音處理中,并提出了一套神經計算模型,解釋了從外部輸入的聲音信號是如何轉換為大腦皮層傳遞的電信號。2012年,Patil等[8]利用該神經計算框架,模擬了聽覺皮層神經元的活動,實現了在不考慮音高和演奏風格的情況下進行穩健的樂器分類,正確率為98.7%。進一步地,2015 年,Carlin 等[9]從聽覺神經生理學的角度出發,構建了一個任務驅動下的STRF 在頻域的可塑性計算模型,展示了STRF 如何在抑制與各種非語音相關的聲音的同時,通過調整其時頻感受野特性來提高對語音的識別性能,即皮層過濾器從一些“默認”調整到任務最優形狀,以增強任務相關特征的神經響應,同時抑制干擾物的神經響應。同年Carlin 等[10]又提出了任務驅動的STRF自適應調整策略,可以改善特定語音事件的檢測性能,并設計了一個刺激重建任務。通過在干凈和加性噪聲條件下進行測試對比的結果表明,任務驅動下的STRF自適應模型對語音的處理具備更高的保真度,顯著提升了噪聲環境下語音信號處理的魯棒性。另外在其他領域,針對不同的含噪語音信號,該模型也體現出了良好的抗噪聲能力。2018年,Emmanouilidou 等[11]采用基于STRF 的模型,將含噪(包括環境聲、心臟雜音、哭聲等)的肺音信號投射到頻譜-時間特征空間中,對大于1 000 例兒童的肺音信號進行識別的結果表明,該方法表現出了對噪聲的魯棒性,能夠有效識別病患與健康人之間的肺音信號,正確率高達86.7%。
在說話人建模和模式匹配方面,早在20世紀80年代就提出了動態時間規整、矢量化、隱馬爾可夫以及人工神經網絡,并成功得到了應用[12-15]。到了20 世紀90 年代,高斯混合模型(Gaussian Mixture Model,GMM)和支持向量機(Support Vector Machine,SVM)模型相繼被提出。2000年以來,林肯實驗室的Reynolds等[16]提出一種所需樣本較少且花費時間更短的高斯混合模型通用背景模型,使說話人識別向實用領域邁進了一大步。在此模型的基礎上,Campbell 等[17]于2006 年提出了高斯超向量(Supervector)的概念,并應用在了GMM-UBM(GMM-Universal Background Model)和高斯超向量-支持向量機(Gaussian Super Vector-Support Vector Machine,GSV-SVM)的結合模型中。緊接著在2008 年,Kenny 等[18]在前人超矢量的基礎上提出了聯合因子分析(Joint Factor Analysis,JFA)方法,已有研究利用聯合因子分析算法去除信道干擾,得到與信道無關的說話人因子,減少了多信道條件下對目標語音的干擾。2011年Dehak等[19]又在此基礎上提出了I-Vector方法,使文本無關的說話人識別系統的性能有了更大的提升。然而分類器對識別率的提高相對較為有限,說話人識別性能提升的關鍵在于有效特征參數的提取,因此本文將側重點放在文本無關語音信號的特征提取上。
針對目前主流的說話人識別算法所存在的問題,即強噪聲環境下識別率下降較為嚴重,本文提出了一種基于STRF與MFCC 組合特征的聲紋特征提取方法,對噪聲環境下說話人語音信號的識別具有較強的魯棒性。首先,采用對數頻譜幅度(Optimally Modified Log-Spectral Amplitude,OM-LSA)[20]語音估計與改進的最小控制遞歸平均(Improved Minima Controlled Recursive Averaging,IMCRA)[21]噪聲估計結合的方法對說話人語音進行降噪等預處理;然后,利用STRF 模型將語音信號投射到特定的頻譜-時間空間,并進一步提取聽覺譜圖的二次特征與MFCC 系數進行組合;最后,采用常規的支持向量機[22]對聲紋特征進行分類與識別。對來自清華大學中文語音庫thchs30 的36 個說話人(每人40 段語音)數據進行測試,通過加入不同等級噪聲后的對比結果表明,本文方法在低信噪比條件(-10 dB)下仍然能夠得到較高的識別正確率(86.68%),從而驗證了本文方法對強噪聲環境下說話人識別的魯棒性[23]。
當外界聲音由外耳道傳到鼓膜,經鼓膜震動傳遞到聽小骨,經聽小骨傳到耳蝸,這時聽覺感受器接受刺激興奮,通過感受器官中的向心神經元將神經沖動傳到聽皮層,引起聽皮層神經元產生神經沖動,進而形成聽覺感知。誘發聽皮層神經元產生神經沖動的刺激區域稱為聽皮層神經元的感受野。而聽皮層神經元的感受野具有一定的頻段和時間選擇性,因此又稱為頻譜-時間感受野(STRF),可看作是一個時間和頻率上的二維濾波核,反映了神經元對特定頻帶和特定周期特征聲音信號的線性處理特性。一個典型的STRF 濾波核如圖1所示。
在哺乳動物初級聽覺皮層中,STRF對廣泛的聲學特征表現出詳細的敏感性,并對表征自然聲音的時域包絡和頻域特征緩慢變化的頻譜-時間能量調制具有選擇性,而對沒有特定統計特性的環境噪聲不敏感,因此經STRF濾波后的聲音信號理論上對嘈雜的環境聲具有較高的容忍性。
此外,除了其固有的調諧到特定的聲音調制的信號,皮層神經元可以動態調整其過濾性能。當認知資源指向一個感興趣的聲音時,認知反饋被認為可以誘導STRF自適應調制的能力,即皮層過濾器從一些“默認”調整到任務最優形狀,以增強任務相關特征的神經響應[6],同時抑制干擾物的神經響應。這種自適應調制的模式在其他生理感覺模式(視覺)中也觀察到類似的效應。本文利用了STRF的以上特性,針對特定類型的噪聲,通過手動調節STRF 模型的相關參數,以獲得其對特定類型環境噪聲較高的容忍性。

圖1 二維STRF濾波器核范例(向下,Ω=1 cyc/oct,ω=16 Hz)Fig.1 Example of two dimensional STRF filter kernel(Downward,Ω=1 cyc/oct,ω=16 Hz)
本文所提出的基于STRF 與MFCC 組合特征的說話人識別方法主要包括語音信號的預處理、聲紋的特征提取與特征分類三個部分,每一部分的具體計算過程如下。
本文采用OM-LSA與IMCRA噪聲估計結合的方法對含噪聲的語音信號進行預處理,預流程如圖2所示。

圖2 OM-LSA與IMCRA結合的預處理流程Fig.2 Flowchart of pre-processing process combining OM-LSA and IMCRA
預處理過程可概括為:
首先,根據IMCRA 算法估計含噪語音的時變功率譜分布。
然后,根據估計的功率譜分布,結合OM-LSA 算法來增強瞬態噪聲和非瞬態噪聲成分的差異,并估計瞬態噪聲的功率譜分布。另一方面,采用IMCRA 算法,從瞬態噪聲和語音信號中估計背景噪聲的功率譜分布。
最后,將估計的瞬態噪聲和背景噪聲功率譜分布進行合并,運用OM-LSA 算法同時抑制瞬態噪聲和背景噪聲,得到增強后的語音信號。
2.2.1 基于STRF的聲紋特征
基于STRF的聲紋特征提取包括三個階段的處理過程:第一個階段模擬了生物聽覺系統的外周模型,即耳蝸核的處理過程,將輸入的語音信號轉化為聽覺外周的頻譜圖;第二個階段是模擬了聽皮層神經元感受野的處理過程,將第一階段輸出的頻譜圖轉化為特定尺度的尺度-速率譜圖;第三個階段的處理就是對第二階段生成的尺度-速率譜圖進一步做二次特征提取。
1)聽覺外周模型的處理過程。
聽覺外周系統的模型處理流程如圖3 所示。計算過程描述為:
首先,將音頻信號s(t)通過耳蝸濾波器組,采用式(1)對信號s(t)進行仿射小波變換。耳蝸濾波器組的輸出用yC表示。

其中:h(t,f)為各濾波器的脈沖響應;*t為時域卷積運算。

圖3 外周聽覺系統的模型處理流程Fig.3 Model framework of peripheral auditory system
然后,耳蝸輸出yC經過毛細胞的處理轉化成聽覺神經響應,表示為yA。毛細胞的處理主要包括高通濾波、非線性壓縮g(·)和低通濾波器w(t)。數學描述如下:

進一步地,經由耳蝸核的側抑制網絡作用,以模擬耳蝸核的頻率選擇性。表達式如下:

利用短窗口函數μ(t,τ)與yLIN(t,f)求卷積,得到第一階段的輸出y(t,f)。

其中:τ是微秒級別的時間常數。
任取一段語音信號,加入不同信噪比噪聲(工廠車間噪聲,取自NoiseX92 數據庫),經第一階段處理后的外周聽覺譜圖如圖4所示。
2)聽皮層神經元感受野模型的處理過程。
該階段的處理是通過模擬聽皮層神經元的頻譜-時間感受野(STRF)特性來實現,主要采用一組具備不同時頻域特征選擇性的濾波器模擬,這些特征包括時域中從緩慢變化到快速驟變的節律(rate)和頻率域從較窄到較寬的尺度(scale)信息。
該組濾波器的輸出是預處理后的聲音經過第一階段處理得到的時頻譜圖與上述濾波器的卷積。因此,由第一階段輸出的時頻譜圖如果與某個濾波器所選擇的節律和尺度較為吻合,則會在相對應的特征點處輸出較大值。由此得出,該階段的處理結果是經一系列濾波器特征選擇后結果的組合。具體該階段數學描述如下:
首先,構造STRF 濾波器。STRF 濾波器可看作是空間脈沖響應hS與時間脈沖響應hT的乘積。分別定義如下:


其中:Ω、ω分別表示濾波器的譜密度和速率參數;φ、θ表示特征相位。表示希爾伯特變換,定義為:

分別采用二階高斯模型和伽馬方程模擬hscale和hrate,對應的方程表示為:

不同頻率和尺度的脈沖響應采用下述方式進行擴展。

然后,計算該階段輸出的響應,表示為:

其中:*tf為時域和頻域的卷積運算。
圖5 為STRF 第二階段輸出的時間頻譜圖,即尺度-速率譜圖,橫軸代表速率參數ω,縱軸為尺度響應(空間脈沖響應和時間脈沖響應的乘積)。隨著圖5 中響應區域的不同及變化,對應了感受野對該語音信號的興奮和抑制。所得結果反映了聽覺皮層神經元對特定頻率和尺度能量選擇后的結果,即顏色高亮深色的區域代表了皮層神經元對特定頻率和尺度能量的選擇識別,極大程度減少隨機噪聲的影響,保留聲紋信號中較為穩定的特征信息。圖4 所示經第一階段輸出的聽覺譜圖進一步經由皮質階段的模型處理后的結果如圖5所示。

圖5 第二階段輸出的尺度-速率譜圖Fig.5 Scale-rate spectrum output at second stage
3)頻域-時間譜圖的二次特征提取。
本文進一步地從第二階段聽覺皮層模型生成的聽皮層譜圖中提取了三種基于STRF的二次特征,包括每個尺度的能量S、對數尺度能量SL、對數尺度能量的離散余弦變換(Discrete Cosine Transform,DCT)系數SDL。其中,第一個特征S采用式(14)計算,即將第二階段輸出的時頻譜圖中所有尺度和速率對應的結果直接疊加。

其中:Nω是比例數。注意,等式中的相位特征φ和θ都設置為零。
第二個特征是SL采用式(15)計算,即對第一個特征S進行對數運算。

第三個特征SDL是采用式(16),在第二個特征的基礎上進行了離散余弦變換。

其中:Nk是第三特征SDL(t,k)的特征指數,Nk≤Nω。
2.2.2 MFCC系數
MFCC 是基于人耳聽覺感知特性的倒譜參數,在頻域,人耳聽到的聲音高低與頻率不成線性關系;但在Mel域,人耳感知與Mel頻率是成正比的。它與頻率的換算關系采用式(17)計算:

其中:f為頻率,單位Hz。
MFCC 系數的提取過程如圖6 所示,具體概括為:①對語音進行預加重、分幀和加窗;②對每一個短時分析窗,通過快速傅里葉變換(Fast Fourier Transformation,FFT)得到對應的頻譜;③將上面的頻譜通過Mel 濾波器組得到Mel 頻譜;④在Mel 頻譜上面進行倒譜分析(即進行取對數和離散余弦變換(Discrete Cosine Transform,DCT)運算);⑤取DCT 后的第2 個到第13個系數作為MFCC系數。

圖6 MFCC系數的提取流程Fig.6 MFCC coefficient extraction process
2.2.3 基于MFCC 和STRF 組合特征
本文使用的兩種特征分別為MFCC 與基于STRF 提取的三個二次特征。這兩類特征都從不同的側面反映了不同的說話人信息,通過有效的融合能更加全面地表征出說話人特征,本文將提取的13 維MFCC 系數與基于STRF 的三個二次特征(分別為13維)分別組合,擴展得到三組26維的組合特征。最后在純凈語音下,對比了基于MFCC 特征和基于STRF 提取的三個二次特征的識別正確率;并在加入不同信噪比等級噪聲下,對比了三種組合特征的識別正確率。
支持向量機是20世紀80年代提出的一種特征分類方法,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,已經在模式識別、函數逼近和概率密度估計等方面取得良好效果。
本文采用帶有徑向基函數內核的多類支持向量機對說話人數據進行分類,徑向基函數內核的γ值設置為2,其他參數選擇LIBSVM(LIBrary for Support Vector Machines)工具的默認設置。
本文采用清華大學thchs30中文語料庫作為數據庫來源,共選取了其中36 個說話人每人40 段語音片段做樣本,共計1 440個語音片段。將所有語音片段分為8組,隨機選取1組,即180段語音片段(每個說話人5段語音片段)作訓練集,余下7 組語音數據分別加入SNR 為-10 dB、-5 dB、5 dB、10 dB、15 dB、20 dB 的Babble 噪聲作測試集,共交叉驗證8 次,最終的識別正確率以“平均值±標準差”的形式給出。
在實驗中,所有語音片段分為16 ms 的幀,重疊8 ms,并將漢明窗應用于每個幀。STRF 的尺度參數設置為2n,n=-5,-4,-3,-2,-1,1,2,3,4,5共10個等級。
本文共提取了四個特征,包括MFCC 系數特征和基于STRF 的三個二次特征(能量總和S、對數運算后的能量SL和離散余弦變換后的SDL)。首先,對比了基于單一特征的干凈說話人語音識別結果。多次交叉驗證的統計結果匯總在表1中。

表1 基于單一特征的說話人識別統計結果Tab.1 Statistical results of speaker recognition based on single feature
從表1 中可以看出,基于MFCC 系數特征的識別率最高,平均識別正確率達到94.12%;而基于STRF的二次特征中,經離散余弦變換后的SDL的識別率最高,但是都顯著低于基于MFCC 系數特征。由此可以看出,對于純凈說話人語音的識別,基于單一STRF的特征并不占優勢。
接下來嘗試將基于STRF 的單一特征與MFCC 系數特征進行組合,對比STRF的特征是否有助于提升對說話人的識別性能。基于不同組合特征的說話人識別正確率統計結果匯總在表2中。

表2 基于不同組合特征的說話人識別統計結果Tab.2 Statistics of speaker recognition based on different combinations of features
通過對比表1~2 的結果可以看出,對于純凈說話人語音信號,所有基于組合特征的識別率均顯著高于基于單一特征的識別率。其中,采用經離散余弦變換后的SDL和MFCC 系數特征的組合形式取得了最高的識別正確率,高達97.85%。
進一步分析了單一聲紋特征以及各種組合聲紋特征對環境噪聲的魯棒性。每種組合特征與單一特征的對比結果如圖7 所示。圖7 中每個信噪比識別結果為交叉驗證識別結果的平均正確率±標準差形式。

圖7 基于不同特征的識別率隨信噪比的變化趨勢Fig.7 Trend of recognition rate varying with different SNRs based on different features
從圖7 可以看出,隨著信噪比下降,無論是單一特征還是組合特征,均影響說話人識別性能,其正確率有不同程度下降。其中,對于單一特征而言,基于MFCC 的相對識別正確率較高,但是對于噪聲容忍性較差,下降較為迅速。
圖7 中的線條為采用線性函數擬合后的結果。每條擬合直線的斜率表示識別性能受噪聲影響的程度,斜率的絕對值越高表示對噪聲的魯棒性越差。不同特征識別率隨噪聲變化的斜率對比結果如表3所示。

表3 不同聲紋特征組合對噪聲的魯棒性對比Tab.3 Robustness comparison of different features to noise
從表3 可以看出,基于組合特征與STRF 的特征對噪聲魯棒性均優于MFCC。因此,將基于STRF 特征與MFCC 特征進行組合,既能提高總體識別正確率(普遍高于相同信噪比條件下基于單一聲紋特征的識別率),同時又能提升對噪聲的容忍性,在信噪比低至-10 dB 情況下,仍達到86.68%的平均正確率。同時,在與文獻[4]中提出的具有環境自學習機制的魯棒說話人識別算法相比,在低信噪比條件下(0 dB),本文提出的方法的識別率(89.47%)明顯高于前者(63.3%)。以上結果說明了本文方法在強環境噪聲下的說話人識別上具有一定優勢。
本文針對說話人識別易受環境噪聲影響的問題,提出了基于生物聽覺感知機理的聲紋特征提取方法,用于說話人識別中,提升了對環境噪聲的魯棒性。首先,采用對數頻譜幅度(OM-LSA)語音估計與最小控制遞歸平均(MCRA)噪聲估計結合的方法對說話人語音進行降噪等預處理,在模擬外周聽覺系統耳蝸核處理過程的基礎上,進一步模擬了STRF對特定頻率變化速率與尺度的特征選擇性,以獲取含噪語音信號中的穩定特征,通過所提出的基于STRF 的聽覺模型,輸出代表說話人信息的頻譜圖,并通過頻譜圖進一步提取二次特征;之后與傳統的MFCC 處理方式相結合,得出三種組合的二次特征,分別是MFCC+S、MFCC+SL、MFCC+SDL;最后采用支持向量機對聲紋特征進行分類識別。本文從清華大學thchs30 中文語料庫里選取了其中36個說話人每人40段語音片段做樣本,共計1 440 個語音片段。對其加入不同信噪比等級的噪聲進行實驗。實驗重點進行了兩個方面的對比分析:一方面比較了單純基于STRF 的特征與MFCC 系數的識別正確率,發現前者普遍低于后者,但是前者對噪聲的魯棒性明顯優于后者;另一方面,通過將二者進行組合,并與每組單一特征的識別進行比較發現,組合特征的識別正確率普遍高于單一特征,且對噪聲的魯棒性也有顯著提高。以上實驗結果表明,本文方法能夠用于強噪聲環境下的說話人識別上,表現出了對環境噪聲的強魯棒性。