于 云,周偉棟
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
基于壓縮感知的魯棒性說話人識別參數研究
于 云,周偉棟
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
奈奎斯特采樣下的說話人識別,當為了確保高的識別率而采集較長時間說話人語音時,采樣數據量特別大,其中有許多冗余造成了采樣資源的浪費,壓縮感知理論可以很好地解決此問題。基于壓縮感知理論,文中利用行階梯觀測矩陣對信號進行投影,研究了壓縮比與識別率的關系,在壓縮比為1:2時,保證識別率的同時,使得采樣數據量減少為原來的一半。在有噪環境下,將譜減法運用到壓縮感知和特征提取過程中,在無需重構時域信號的前提下,直接從已估計的干凈語音功率譜中提取具有魯棒性的特征參數CS-SSMFCC(Compressed Sensing Spectral Subtraction Mel Frequency Cepstral Coefficient)。實驗結果表明,與傳統的識別參數MFCC(Mel Frequency Cepstral Coefficient)相比,CS-SSMFCC可以有效地提高系統的魯棒性,具有很好的抗噪性能。
壓縮感知;譜減法;特征參數;魯棒性
說話人識別技術是一種生物認證技術,它從采集到的語音中提取出能夠表征話者生理和行為的特征參數來訓練模型,在測試時依據提取的特征參數識別說話人身份。常見的生物認證技術有指紋識別、虹膜識別等,比起這些認證技術,說話人識別以其方便性、精確性和經濟性越來越受到學者們的關注,并且日益成為重要的安全驗證方式[1]。隨著社會信息化的逐漸深入和計算機技術的不斷發展,說話人識別在不同的領域得到了廣泛的應用,用戶對其的正確性、魯棒性的期望也不斷提高。
傳統的說話人識別包括特征提取、模型訓練和模式匹配,其中特征提取是說話人識別的關鍵,常用的特征有Mel倒譜系數(MFCC)、線性預測系數(LPC)等[2]。在奈奎斯特采樣定理下,采樣數據量非常多,極大地浪費了采樣資源。近年來,壓縮感知理論[3-5]很好地解決了此問題。它的核心思想是對信號同時進行壓縮和采樣,在采樣過程中實現了壓縮,以遠低于奈奎斯特采樣率的速率對信號進行采樣,獲得較少數目的觀測序列,進而對觀測序列提取特征參數,給說話人識別技術帶來了一場新的革命。將壓縮感知理論應用于說話人識別的關鍵是觀測矩陣的選取和特征參數的提取,如果經觀測矩陣投影后的觀測序列保留了原有語音信號的特性,提取的特征會更有意義。而且環境噪聲一直是說話人識別性能急速下降的關鍵因素,在壓縮感知框架下提取具有魯棒性的特征參數也是文中的研究重點。
筆者團隊在魯棒性壓縮感知關鍵技術研究中取得了一定的成果,其中葉蕾[6-7]提出的行階梯矩陣應用價值可觀,經行階梯觀測后的觀測序列保留了原有語音信號的特性,給提取特征參數和利用經典消噪方法帶來了可能。
文中利用行階梯觀測矩陣得到觀測序列,對觀測序列提取特征參數,在壓縮比為1:2時識別效果很好。在有噪環境下,將譜減法應用于壓縮感知和特征提取中,不是從已估計的語音功率譜恢復出時域信號,而是直接對估計的干凈語音功率譜提取特征參數,避免了恢復信號的步驟。該方法不僅減少了計算量和復雜度,而且保證了正確性和魯棒性。
壓縮感知主要包括三個方面:信號稀疏表示、觀測矩陣和重構算法的設計。假設輸入信號x∈RN是一維信號,在某個正交基Ψ∈RN×N上是稀疏的,即
x=Ψα
(1)
式中:α∈RN是稀疏向量,非零項的個數k 對于稀疏信號,利用一個與稀疏基不相關的觀測矩陣Φ∈RM×N(M y=Φx=ΦΨα=Acsα (2) 式中:y∈RM是得到的觀測序列;Acs是壓縮感知(CS)矩陣。 由于M min ||α||1s.t.y=Acsα (3) 最優化方法有基追蹤算法BP、貪婪算法OMP[8]等。有些學者已經研究了壓縮感知下的說話人識別[9-10],由于文中研究的是在不重構的情況下進行說話人識別,直接對觀測序列提取特征參數,所以不需要考慮稀疏基和重構算法的選取。 壓縮感知框架下的說話人識別系統分為兩個階段:訓練階段和識別階段。在訓練過程中,對原始語音信號通過觀測矩陣得到觀測序列,直接對觀測序列進行特征提取,將特征參數聚類建立高斯混合模型(GMM)[11]。測試時同樣對觀測序列提取特征參數,與已建立的模型進行匹配,從而判決說話人的身份。 基于壓縮感知的說話人識別系統模型見圖1。 圖1 基于壓縮感知的說話人識別系統模型 將壓縮感知與說話人識別相結合,可以大大減少采樣點數,減小特征參數的計算量。利用行階梯矩陣觀測原始信號,得到的觀測序列保留了原始語音信號大部分特性,進而可以對觀測序列利用經典的消噪方法和提取常規的特征參數。目前在干凈語音下說話人識別已經發展得相當成熟,然而在有噪環境下識別性能非常不理想,減小噪聲的影響已經成為了說話人識別的研究熱點[12-13]。壓縮感知下的行階梯矩陣具有一定的消噪能力,因此提取出的特征參數具有魯棒性。為了進一步減小噪聲的影響,將譜減法運用到壓縮感知和特征提取中,直接由估計的語音功率譜提取特征,從而得到一種更具魯棒性的特征參數。 3.1 行階梯觀測矩陣 在壓縮感知中,常見的觀測矩陣有隨機高斯矩陣、部分傅里葉矩陣、隨機伯努利矩陣等,但是經過這些矩陣觀測后所得的觀測序列打亂了原始信號的結構特性,提取的特征參數毫無意義。筆者團隊提出的行階梯矩陣為特征參數的提取提供了可能,文中采用行階梯矩陣對原始信號進行觀測,得到壓縮比為r的觀測矩陣Φ(r=M/N,即觀測序列樣點數與原始信號樣點數的比值),把m=1/r稱作壓縮倍數。 (4) 其中,每行1的個數就是壓縮倍數m。 如果原始信號為x,經行階梯矩陣觀測后的觀測序列為y,則y與x的關系如下: (5) 式中,m=1,2,…,i=1,2,…。 假設壓縮倍數m為2,即壓縮比r為1:2時,得到原始語音序列和經行階梯矩陣觀測后的觀測序列時域波形,如圖2所示。發現觀測后的序列與原始序列相差無幾,保留了原始語音的結構特征,只是幅度變為原來的兩倍,頻率變快了一倍而已。 圖2 一幀語音時域波形比較 圖3是一幀語音觀測前后的頻譜圖。一般的特征參數MFCC是基于頻譜域提取的,由圖可知在采樣壓縮后的頻譜結構幾乎沒有改變,這為壓縮感知框架下的特征提取和消噪方法提供了條件。 圖3 一幀語音頻譜圖比較 假設原始干凈信號x混入了噪聲e,那么含噪語音表示為: (6) 經過行階梯矩陣觀測得到觀測序列: (7) 式中:y是含噪語音觀測序列;s是干凈語音觀測序列;n是噪聲觀測序列。 應用譜減法的前提條件是噪聲是平穩的。假設輸入噪聲是平穩的,考慮的問題就是經觀測后的噪聲觀測序列是否是平穩信號。根據式(5),假設壓縮倍數為2,輸入噪聲序列e與噪聲觀測序列n的關系是: ni=e2i-1+e2i (8) 根據隨機過程理論,獨立的平穩信號之和仍然是平穩信號,因此經行階梯矩陣觀測后的序列依然具有平穩特性。由于白噪聲具有平穩特性,選用白噪聲作為加性噪聲。根據以上分析,將經典的消噪方法—譜減法應用于壓縮感知是可行的,給壓縮感知框架下的魯棒性說話人識別技術研究提供了理論依據。 3.2 譜減法 由于環境噪聲的影響,訓練特征數據集與測試特征數據集發生失配,從而導致識別率急速下降,因此減少噪聲的影響一直是說話人識別技術研究的熱點。為了解決此問題,語音增強方法被應用到說話人識別中。傳統的譜減法作為語音增強方法中的一種,它是基于幅度譜估計和含噪語音的相位恢復出原始干凈信號的算法。它可以處理寬帶平穩噪聲,具有較低的復雜度和較好的消噪效果,已經在語音前端處理中得到了廣泛應用。選取Berouti改進后的譜減法[14],基本公式如下: (9) 3.3 基于譜減法的特征提取 傳統的特征參數有MFCC,它充分考慮了人耳的聽覺特性。在壓縮感知框架下,為說話人識別提出了一種新型的特征參數CS-MFCC(Compressed Sensing Mel Frequency Cepstral Coefficient)。該參數在MFCC參數基礎上引入了行階梯矩陣,直接對觀測序列提取特征參數,使得特征參數的計算量大大減少。具體過程如下: (1)對采樣后的信號加窗分幀,得到語音信號的矩陣形式,選取的幀長是320個點。 (2)利用行階梯觀測矩陣對信號矩陣進行觀測,得到維度遠小于320的觀測序列,觀測序列的維度表示壓縮后的幀長,壓縮比決定了觀測序列的維度。 (3)對觀測后的每幀語音序列進行離散傅里葉變換,并對其取模的平方得到功率譜。 (4)用Mel濾波器對觀測語音序列功率譜進行濾波處理,計算其通過第M個Mel濾波器所得的功率值,得到M個功率值,M是Mel濾波器的個數。 (5)對這M個功率值取對數,得到M個系數。 (6)對M個系數計算其離散余弦變換,即得到CS-MFCC參數。 文中選取的濾波器個數是30,CS-MFCC參數階數是13。 行階梯觀測矩陣具有消噪的效果,因此提取的CS-MFCC參數具有一定的抗噪性能。但是為了進一步減小噪聲的干擾,將譜減法引入到特征參數的提取中。 圖4 CS-SSMFCC參數提取過程 采用的語音庫來自筆者團隊在消音室錄制的數據,共有210個說話人,每個說話人180條語句,采樣率是16kHz。文中實驗選用14個說話人,每個人的5條干凈語句用于訓練模型,20條語句用于測試。訓練時長約30s,每條測試語句長度4~6s不等。添加高斯白噪聲在有噪環境下進行實驗。在實驗過程中,選取的特征參數階數是13,GMM高斯模型混合度為16。 說話人識別系統性能的好壞可以用識別率來衡量,公式為: (10) (11) 4.1 壓縮比與識別率的關系 圖5研究壓縮比與識別率的關系。幀長固定為320點,即20 ms,壓縮倍數(壓縮比的倒數)分別取1~10,考察基于壓縮感知的說話人識別系統性能。 圖5 壓縮倍數與識別率的關系 從圖中可以看出,壓縮倍數越大,識別率越低,壓縮倍數的不同意味著觀測序列的數目不同,即觀測序列的大小對識別性能有影響。固定幀長時,觀測序列數目越多,識別性能越好。這也很好理解,觀測序列數目越多,就會保留更多的原始語音信號的信息,利于特征參數的提取。然而觀測數目太多,計算量會增加。為了權衡采樣點數和識別率,選取壓縮比為1:2,即觀測后的采樣序列是以前的一半,此時識別率可以達到96.7%,與未觀測前相當。幀長320點,經觀測后壓縮為160點,MFCC參數提取中僅僅FFT變換這一步需要2 304次乘法,4 608次加法,而CS-MFCC的160點FFT變換只需要1 024次乘法,2 048次加法,計算量大大降低。 4.2 輸出信噪比對比 噪聲是影響識別率下降的主導因素,在測試語音中添加高斯白噪聲進行實驗。 表1研究了基于壓縮感知和基于壓縮感知的譜減法的輸出信噪比對比。實驗方法是一段語音經過行階梯矩陣得到觀測序列,計算其信噪比,觀測序列運用譜減法之后,計算其信噪比。 表1 兩種方法輸出信噪比對比 從表1可知,隨著輸入信噪比的增加,輸出信噪比也不斷提高。行階梯矩陣具有一定的消噪功能,可以提高輸出信噪比。譜減法對觀測語音序列起到了增強作用,適用于壓縮感知系統中。 4.3 有噪環境下MFCC、CS-MFCC和CS-SSMFCC參數抗噪性能對比 圖6比較了在有噪環境下三種特征參數的抗噪性能,實驗仿真出不同輸入信噪比下識別率的對比。 圖6 三種參數下的系統識別率對比 由圖可見,隨著輸入信噪比的提高,識別率都會提升。行階梯觀測矩陣本身具有一定的抗噪效果,所以提取的CS-MFCC參數比傳統方法MFCC識別率要高。而文中提取的CS-SSMFCC參數比CS-MFCC抗噪性能好,在較低信噪比下,識別率提高得更加明顯。在5 dB和10 dB加性白噪聲下,識別率提高了十數量級的百分點。在其他信噪比下,識別率都有不同程度的提升。 文中研究了壓縮感知框架下的說話人識別系統,由于一般的隨機觀測矩陣下的觀測序列破壞了原始語音特性,因此文中利用行階梯矩陣作為觀測矩陣,得到的觀測序列可以保留原始語音大部分結構特征。對該觀測序列提取新型的特征參數CS-MFCC,研究了壓縮比對識別性能的影響程度,在壓縮比為1:2時,在采樣數據量降低的同時,使得識別性能與傳統方法相當。為了提高系統的魯棒性,將譜減法運用到壓縮感知理論和特征提取中,直接從已估計的語音功率譜提取具有魯棒性的特征參數CS-SSMFCC。實驗結果表明,與傳統參數MFCC相比,CS-SSMFCC可以有效地提高系統的魯棒性,具有很好的抗噪性能。 [1] 吳昭輝,楊瑩春.說話人識別模型與方法[M].北京:清華大學出版社,2009. [2] Kinnunen T,Li H.An overview of text-independent speaker recognition:from features to supervectors[J].Speech Communication,2010,52(1):12-40. [3] Donoho D.Compressed sensing[J].IEEE Trans on Inform Theory,2006,52(4):1289-1306. [4] Candes E J,Romberg J,Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509. [5] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1070-1081. [6] 葉 蕾,楊 震,王天荊,等.行階梯觀測矩陣、對偶仿射尺度內點重構算法下的語音壓縮感知[J].電子學報,2012,40(3):429-434. [7] 葉 蕾,楊 震,孫林慧,等.行階梯觀測矩陣下語音壓縮感知觀測序列的Volterra+Wiener模型研究[J].信號處理,2013,29(7):816-822. [8] Tropp J A,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666. [9] Griffin A,Karamichali E,Mouchtsris A.Speaker identification using sparsely excited speech signals and compressed sensing[C]//Proc of 18th European signal processing conference.Aalborg,Denmark:[s.n.],2010:1444-1448. [10] 葉 蕾,郭海燕,楊 震.基于壓縮感知重構信號的說話人識別系統抗噪方法研究[J].信號處理,2010,26(3):321-326. [11] Reynolds D,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Process,2000,10:19-41. [12] Ming J,Hazen T J,Glass J R,et al.Robust speaker recognition in noisy conditions[J].IEEE Trans on Audio Speech Lang Process,2007,15(5):1711-1723. [13] 何勇軍,孫廣路,付茂國,等.基于稀疏編碼的魯棒說話人識別[J].數據采集與處理,2014,29(2):198-203. [14] Berouti M,Schwartz R,Makhul J.Enhancement of speech corrupted by acoustic noise[C]//Proc of IEEE international conference on acoustics,speech,and signal processing.Washington:IEEE,1979:208-211. Research on Robust Speaker Recognition Parameters Based on Compressed Sensing YU Yun,ZHOU Wei-dong (College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) Speaker recognition under Nyquist sampling has got a large amount of data in order to ensure a high recognition rate,resulting in a waste of sampling resources,and compressive sensing theory can solve this problem.Based on compressed sensing theory,it makes use of ladder observation matrix projection in this paper.When the compression ratio is 1:2,the system ensures the recognition rate,so that the sample data is reduced to half.Under noisy environment,spectral subtraction is applied in compressed sensing and feature extraction,and feature parameters are extracted directly from estimated clean speech power spectrum CS-SSMFCC (Compressed Sensing Spectral Subtraction Mel Frequency Cepstral Coefficient).Experimental results show that compared with the traditional identification parameter MFCC (Mel frequency Cepstral Coefficient),CS-SSMFCC based on spectral subtraction under CS framework can effectively improve the robustness of the system,with good anti-noise performance. compressed sensing;spectral subtraction;feature parameters;robustness 2015-06-07 2015-09-15 時間:2016-02-18 國家自然科學基金資助項目(61271335);國家“973”重點基礎研究發展計劃項目(2011CB302303);江蘇省自然科學基金項目(BK20140891) 于 云(1990-),女,碩士研究生,研究方向為說話人識別、語音信號處理。 http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1630.028.html TN912.3 A 1673-629X(2016)03-0018-05 10.3969/j.issn.1673-629X.2016.03.0052 基于壓縮感知的系統模型

3 有噪環境下基于壓縮感知的說話人識別






4 實驗結果與分析





5 結束語