張敏敏 馬 駿 龔晨曉 陳亮亮 鄭茜茜
(溫州醫科大學 信息與工程學院,浙江 溫州325000)
聲紋識別技術[1]為生物識別技術的一種,也稱為說話人識別,分為說話人辨認和說話人確認[2]。目前,市場上已經出現了一些聲紋識別的應用,比如在軍事情報方面,用于電話領域的監聽與追蹤;在監獄管理中,用于親情通話對象的管控;在司法取證方面,語音聲紋分析識別用于司法鑒定,還有社保身份認證、電話語音聲紋考勤甚至現在非常流行的聲紋鎖屏[3]等等。
每個人的說話聲音由于音色的不同可以被區分開來,本文所涉及到的聲紋識別系統軟件的設計[4]便是提取了聲紋中的特征參數,把它作為本系統聲紋識別技術的依據。與此同時,聲紋識別分為文本相關的(Text-Dependent)和文本無關的(Text-Independent)兩種[4]。本識別系統為與文本相關[5]的聲紋識別系統,要求用戶按照規定的內容發音,建立好說話人的聲紋模型,在后期進行語音識別時需要按規定的內容發音進而進行說話人身份的辨別。
本系統整體流程分為設計分為5步:預處理、提取特征參數(基音周期、倒譜系數等)、建立參考模型、帶入測試模型、進行匹配。

圖1 系統整體流程圖
(1)預處理:包括采樣和量化(即A/D轉換)、預加重處理、加窗、依據短時能量譜的語音端點檢測等幾個處理過程。
(2)提取特征參數:為了能夠表征說話人語音中說話人特定器官結構或習慣行為,便需要提取特征參數,并且該特征參數對同一說話人應具有相對穩定性。
①基音周期[6]:產生發音時聲門的開啟和閉合引起聲帶的周期性振動,形成周期性的脈沖串,用來描述這一串脈沖氣流的周期稱為基音周期。這種參數的提取主要是基于說話人發聲器官,如聲門、聲道和鼻腔等的特殊結構而提取出說話人語音的短時譜特征(即基音頻率譜及其輪廓)。
本系統利用自相關函數法(ACF)檢測基音周期,由于周期信號的自相關函數將在時延等于函數周期的點產生一極大值,因此通過計算自相關函數可以估計語音信號的基音頻率,以此方法獲得基音周期(基音頻率的倒數就是基音周期)。自相關函數的數學計算公式為:


圖2 基音周期計算流程
②倒譜系數[7]:目前主流的聲紋特征參數有LPC以及基于Mel頻率的倒譜系數 (Mel—frequency cepstral coefficients,MFCC)。實驗中證明,MFCC是目前聲紋特征中識別率最高的一種,本系統便是提取Mel頻率倒譜系數MFCC用來模擬人耳聽覺系統的感知能力,描述語音信號在頻率域上的能量分布。Mel倒譜系數MFCC的提取過程如下:
A.對語音信號進行預處理。
B.離散傅里葉變換(DFT):是信號完成從時域至頻域的轉換。
C.生成Mel濾波器組。
D.計算經Mel濾波器組加權后的能量值。
E.做離散余弦DCT變換。

圖3 MFCC參數提取的流程
(3)建立參考模型:常見的識別模型有模板模型(動態時間規整方法DTW、矢量量化方法VQ)、概率模型(隱馬爾科夫模型HMM、高斯混合模型GMM),以及目前正在發展中的人工神經網絡(ANN)方法。本實驗采用的隱馬爾科夫模型HMM[8],并將該模型確定為本系統的模式匹配方法。使用HMM模型可以用短時模型描述平穩段的信號,而且還可以解決每個短時平穩段是如何轉變到下一個短時平穩段的問題。
本過程目的是對所提取出來的說話人語音特征進行學習訓練,建立聲紋模板或語音模型庫,或對系統中已有的聲紋模板或語音模型庫進行適應性修改。
(4)帶入測試模型:將用于測試的語音樣本參數代入,得測試模型,與參考模型一一匹配。
(5)進行匹配:在識別過程中,聲紋識別系統要根據系統已有的聲紋模板或語音模型庫對輸入語音的特征參數進行模式匹配計算,從而實現識別判斷,得出識別結果。
在聲紋識別系統的測試實驗中,從所在班級隨機抽取了15名學生(其中男生10名、女士5名),每人6個樣本,共計90個語音樣本,男性說話人有Yjd,Zsl,Mj,Zqy,Gcx,Mgj,Mz,Mjp,Srf,Jd,女性說話人有Hj,Whj,Gxx,Yhr,Zm。在使用該語音庫的前提下,要求他們對指定文本“溫州醫科大學”應用普通話進行自然發音,錄制環境為室內。并把每一個說話人的6份樣本中3份樣本用于訓練,3份樣本用于測試,建立不同的HMM模型,觀察不同訓練的樣本數對識別結果的影響。
實驗表明,運用MATLAB建立的HMM模型確實可以進行說話人身份的識別,本系統的識別率為85%以上,但如果增加訓練次數,則識別率也會相應地得到提高。在系統實時處理上,由于MFCC參數計算量比較大,所花費的計算時間較長,使得本系統的實時性受到了考驗,另外由于MFCC參數的計算涉及到DFT計算、對數計算,這使得整個計算的動態范圍受到了影響以至于影響本系統的精確度。
聲紋識別技術仍需要在研究方法和市場應用進行相應的改進,一方面,要尋找更為優良的研究方法,另一方面,由于建模方法的選擇與使用都會對聲紋識別結果帶來很大的影響,這要求我們能夠尋找到一種更為穩定的聲紋特征參數來幫助說話人身份的識別,一方面,要保證乃至提高系統的精確性,另一方面,也要保證獨一性,能夠區分不同說話人的特質。隨著聲紋技術的不斷發展,所對應的聲紋市場也日趨成熟,必定會與當今的信息化時代相契合,提供一種切實有效的安全保障。
[1]http://baike.baidu.com/view/116450.htm[OL].
[2]Joseph P.Campbell,Jr.Speaker recognition:a tutorial[J].Proceedings of the IEEE,1997,85:1437-1462.
[3]http://www.dragonvoice.cn/[OL].
[4]陳懷琛.數字信號處理教程:MATLAB釋義與實現[M].2版.北京:電子工業出版社,2008.
[5]Chi-Wei Che,Qi-guang Lin,Dong-SukYuk.An HMM Approach to Text-Prompted Speaker Verification[C]//The 1996 IEEE International Conference on Acoustics,Speech and Signal.Processing Conference Proceedings,1996,2:673-676.
[6]蔡蓮紅,黃德智,蔡銳.現代語音技術基礎與應用[M].北京:清華大學出版社,2003.
[7]張萬里,劉橋.Mel頻率倒譜系數提取及其在聲紋識別中的作用[J].貴州大學學報,2005,22(2):5.
[8]王書沼.基于高斯混合模型的說話人識別系統的研究[D].大連理工大學,2006.