中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院 房安棟 劉軍萬
說話人聲紋識(shí)別可以看作是語音識(shí)別的一種。它和語音識(shí)別一樣,都是通過對(duì)所收到的語音信號(hào)進(jìn)行處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此作出判斷。而區(qū)別在于它并不注意語言信號(hào)中的語義內(nèi)容,而是希望從語音信號(hào)中提取出人的特征。從這點(diǎn)上說,說話人聲紋識(shí)別是企求挖掘出包含在語音信號(hào)中的個(gè)性因數(shù),而語音識(shí)別是企求從不同人的詞語信號(hào)中尋找相同因素。在處理方法上,說話人聲紋識(shí)別力圖強(qiáng)調(diào)不同人之間的差別,而語音識(shí)別則力圖對(duì)不同人說話的差別加以歸一化。世界范圍內(nèi),聲紋識(shí)別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年年初,聲紋識(shí)別產(chǎn)品的市場占有率為15.8%,僅次于指紋識(shí)別和掌形識(shí)別。
現(xiàn)有文獻(xiàn)中用于說話人識(shí)別的特征許多是建立在短時(shí)頻譜基礎(chǔ)上。它們主要有Mel頻率倒譜系數(shù)(MFCC),LPC倒譜系數(shù),差值倒譜等。在聲紋識(shí)別技術(shù)中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經(jīng)網(wǎng)絡(luò)法。Soong等人將矢量量化技術(shù)用于與文本無關(guān)的說話人是被系統(tǒng)。Rosenberg等人利用子詞單元構(gòu)成的隱馬爾科夫模型(HMM),建立了一個(gè)說話人確認(rèn)系統(tǒng)。Delesby等人利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法進(jìn)行說話人識(shí)別[1]。我國的北京大學(xué)以遲惠生為領(lǐng)導(dǎo)的說話人識(shí)別研究團(tuán)體、清華大學(xué)以楊行峻為領(lǐng)導(dǎo)的研究團(tuán)體以及中國科學(xué)院聲學(xué)所和東南大學(xué)也在這個(gè)方面取得了非常優(yōu)秀的科研成果.從國內(nèi)外文獻(xiàn)看來,有的著重距離測度,但是大多數(shù)向幾種方法如HMM、GMM和ANN混合的方向發(fā)展。
聲紋識(shí)別的基本原理如圖1所示,主要包括兩個(gè)階段,即訓(xùn)練和識(shí)別階段。
訓(xùn)練階段,系統(tǒng)的每個(gè)使用者說出若干訓(xùn)練語句,系統(tǒng)據(jù)此建立每個(gè)使用者的模板或模型參數(shù)。識(shí)別階段,由待識(shí)人說的語音經(jīng)特征提取后與系統(tǒng)訓(xùn)練時(shí)產(chǎn)生的模板或模型參數(shù)進(jìn)行比較。在主說話人的辨認(rèn)中,取與測試音匹配距離最小的說話人模型所對(duì)應(yīng)的說話人作為識(shí)別結(jié)果;在說話人確認(rèn)中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。
在語音信號(hào)特征提取之前,首先要進(jìn)行的一個(gè)環(huán)節(jié)就是對(duì)輸入語音信號(hào)的預(yù)處理,主要包括預(yù)濾波、預(yù)加重、加窗分幀以及語音端點(diǎn)檢測等過程。本文就以涉及到的預(yù)濾波進(jìn)行描述,預(yù)濾波在本文中是通過小波濾波器組來實(shí)現(xiàn)。預(yù)濾波器必須是一個(gè)帶通濾波器,其上、下截止頻率分別是對(duì)于絕大多數(shù)語音處理中,采樣率

圖1 聲紋識(shí)別系統(tǒng)一般原理圖(虛線內(nèi)為可選部分)
2.3.1 概述
提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關(guān)注的語音特征信息,是一個(gè)減小數(shù)據(jù)量的過程。從說話人語音信號(hào)中提取的特征參數(shù)應(yīng)滿足以下準(zhǔn)則:對(duì)外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩(wěn)定;易于從語音信號(hào)中進(jìn)行提取;與其他特征不相關(guān)。
2.3.2 典型聲紋特征參數(shù)提取算法
聲紋特征參數(shù)主要有以下幾種:基音周期、短時(shí)過零率、線性預(yù)測(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、以及經(jīng)過噪聲譜減或者信道譜減的去噪倒譜系數(shù)等,每一種特征參數(shù)都有其相應(yīng)的提取算法。在聲紋特征提取這一點(diǎn),本文將采用基音周期和Mel頻率倒譜混合的參數(shù)作為特征參數(shù)。
2.3.2.1 線性預(yù)測(LPC)方法
語音線性預(yù)測的基本思想是:利用過去的樣值對(duì)新樣值進(jìn)行預(yù)測,然后將樣值的實(shí)際值與其預(yù)測值相減得到一個(gè)誤差信號(hào),顯然誤差信號(hào)的動(dòng)態(tài)范圍遠(yuǎn)小于原始語音信號(hào)的動(dòng)態(tài)范圍,對(duì)誤差信號(hào)進(jìn)行量化編碼而達(dá)到最小,可以確定唯一的一組線性預(yù)測系數(shù)。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個(gè)性算法[2][3]。由于LPC分析是基于全極點(diǎn)模型的假設(shè),所以它對(duì)于聲道響應(yīng)含有零點(diǎn)的清音和濁音和鼻音描述不確切。
2.3.2.2 線性預(yù)測倒譜系數(shù)(LPCC)
倒譜特征是用于說話人個(gè)性特征和說話識(shí)別人識(shí)別的最有效的特征之一。語音信號(hào)是聲道頻率特性和激勵(lì)源信號(hào)源兩者共同卷積的結(jié)果,后者對(duì)于某幀而言常帶有一定的隨機(jī)性,而說話人的個(gè)性特征很大程度上取決于說話人的發(fā)音聲道,因此要將此二者進(jìn)行有效的分離,可以通過對(duì)信號(hào)做適當(dāng)?shù)耐瑧B(tài)濾波,將相卷積的兩個(gè)部分分離。濾波的關(guān)鍵是先將卷積處理化為乘積,然后做對(duì)數(shù)處理,使之化為可分離的相加成分。線性預(yù)測倒譜系數(shù)可由LPC特征進(jìn)行推導(dǎo),基于LPC系數(shù)分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數(shù)比較徹底地去掉了語音產(chǎn)生過程中的激勵(lì)信息,主要反映聲道特性,只需要十幾個(gè)倒譜系數(shù)能比較好的描述語音的共振特性,計(jì)算量小,其缺點(diǎn)是對(duì)輔音的描述能力較差,抗噪聲性能也較弱。
2.3.2.3 梅爾倒譜系數(shù)(MFCC)
MFCC著眼于人耳的聽覺感知機(jī)理。因?yàn)槁牭降穆曇舻母叩团c聲音的頻率的并不成線性正比關(guān)系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對(duì)語音信號(hào)進(jìn)行濾波和加權(quán),使語音信號(hào)更加接近于人耳聽覺感知系統(tǒng)特性,MFCC特征成為目前說話人識(shí)別和語音識(shí)別中最為廣泛的特征參數(shù)。根據(jù)倒譜計(jì)算過程,MFCC計(jì)算過程可以簡單地描為如下四個(gè)步驟:
(1)對(duì)語音信號(hào)進(jìn)行短時(shí)傅里葉變換,得到各個(gè)幀的頻譜。
(2)在Mel頻率的軸上配置L個(gè)通道的三角濾波器組,L的個(gè)數(shù)由信號(hào)的救治頻定。每一個(gè)三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設(shè)o(l)、h(l)分別是第L個(gè)三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系成立:
C(l)=h(l-1)=o(l+1)
根據(jù)語音信號(hào)個(gè)幅度譜Xn(k)求每個(gè)三角形濾波器的輸出:


對(duì)所有的濾波器輸出做對(duì)數(shù)運(yùn)算,再一步做出離散余弦變換(DCT)即可得到MFCC:

2.3.2.4 基因周期系數(shù)
基音是指發(fā)濁音時(shí)聲帶振動(dòng)引起的周期性,而基音周期是指聲帶振動(dòng)頻率的倒數(shù),基音可以分為時(shí)域、頻域以及綜合利用信號(hào)時(shí)域頻率特性等三種提取模式,時(shí)域包括利用語音信號(hào)的采樣點(diǎn)計(jì)算信號(hào)的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計(jì)算信號(hào)的自相關(guān)函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時(shí)域方法,典型的方法是有中央消波自相關(guān)法、平均幅度差分函數(shù)法和倒譜法等。本文章選用倒譜法進(jìn)行基因周期的提取。
1)倒譜法原理
語音信號(hào)是激勵(lì)源與聲道相應(yīng)相卷積的結(jié)果,而“倒譜特征”則是利用了對(duì)語音信號(hào)進(jìn)行適當(dāng)?shù)耐瑧B(tài)濾波后,可將激勵(lì)信號(hào)與聲道信號(hào)加以分離的原理。倒譜中維數(shù)較低的分量對(duì)應(yīng)于語音信號(hào)的聲道分量,倒譜中維數(shù)較高的分量對(duì)應(yīng)于語音信號(hào)的音源激勵(lì)信號(hào)。因此,利用語音信號(hào)倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機(jī)變化的音源激勵(lì)分量的干擾。
2)倒譜法算法
語音是s(n)是由聲門脈沖e(n)經(jīng)過聲道響應(yīng)v(n)濾波而得。即:

則三者的倒譜滿足以下等式:

l=1,2,…,L
其中:

圖2 倒譜基音檢測算法
可見,倒譜域中基音信息與聲道信息可認(rèn)為相對(duì)分離的。采取簡單的倒譜法可以分離并恢復(fù)e(n)和v(n),根據(jù)激勵(lì)e(n)及倒譜的特征可以求出基音周期。然而,反應(yīng)基音信息的倒譜峰在含過渡音和噪語音中將會(huì)變得不清晰甚至完全消失。原因主要是因?yàn)檫^渡音中周期激勵(lì)信號(hào)能量降低和類噪激勵(lì)信號(hào)干擾或含噪語音中的噪聲干擾所致。這里可以采用一個(gè)簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(hào)(由原始作FT逆變換再取對(duì)數(shù)后得到)的高頻分量置零。可以實(shí)現(xiàn)類似于低通濾波器的處理,濾去噪音和激勵(lì)源中的高頻分量,減少了噪聲干擾。圖2是一種改進(jìn)的倒譜基音檢測的算法框圖。
2.4.1 概述
聲紋識(shí)別的基本原理是為了每個(gè)說話人建立一個(gè)能夠描述這一說話人特征的模型,以其作為這一說話人的個(gè)性特征。在目前的話音特征與說話人個(gè)性特征還未很好的從語音特征中得到分離情況下,為每個(gè)說話者建立的說話人模型實(shí)際上是說話人的語音特征得模型。為對(duì)說話人個(gè)性特征描述的一致起見,構(gòu)造一個(gè)通用的模型,常將每個(gè)說話人的模型結(jié)構(gòu)取得相同,不同的只是模型中的參數(shù),通過用訓(xùn)練語音對(duì)模型進(jìn)訓(xùn)練得到。
2.4.2 典型的聲紋識(shí)別算法
目前說話人識(shí)別模型主要有DTW(動(dòng)態(tài)時(shí)間規(guī)劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經(jīng)元網(wǎng)絡(luò)),SVM(支持向量機(jī))等。本文用到GMM(高斯混合模型),所以后面會(huì)對(duì)其算法進(jìn)行了詳細(xì)的描述。
2.4.2.1 動(dòng)態(tài)時(shí)間規(guī)劃(DTW)
說話人信息既有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),也有時(shí)變因素(語速、語調(diào)、重音和韻律)。將模式識(shí)別與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)劃DTW,但DTW只對(duì)孤立詞識(shí)別性能較好,并且高度依賴于定時(shí),目前應(yīng)用不廣。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一種極其重要的信號(hào)壓縮方法,它廣泛應(yīng)用于語音編碼、語音識(shí)別與合成、說話人識(shí)別、圖像壓縮等領(lǐng)域,基于非參數(shù)模型的VQ的方法是目前自動(dòng)話說人識(shí)別的主要方法之一。完成VQ說話人識(shí)別系統(tǒng)有兩個(gè)步驟:(1)利用說話人的訓(xùn)練語音,建立參考模型碼本。(2)對(duì)待識(shí)別說話者的語音的每一幀和碼本之間進(jìn)行匹配。由于VQ碼本保存了說話人個(gè)性特征,這樣我們就可以利用VQ法進(jìn)行說話人識(shí)別。在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,因此匹配過程中無需采用DTW技術(shù);而且這種方法比應(yīng)用DTW方法的參考模型儲(chǔ)量小,即碼本碼字小。
用矢量量化方法建立識(shí)別模型,既可以大大減少數(shù)據(jù)存儲(chǔ)量,又可以避開困難語音分段問題和時(shí)間規(guī)整問題。但是每個(gè)說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統(tǒng)計(jì)分布情況。在訓(xùn)練階段為了充分反映說話人的個(gè)性特征要求訓(xùn)練語音足夠長;在識(shí)別時(shí)為了使測試語音的特征矢量在特征空間中的分布能夠與相應(yīng)的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識(shí)別率將會(huì)急劇下降。
2.4.2.3 隱馬爾科夫模型
HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型。它把語音看成由可觀察到的符號(hào)序列組成的隨機(jī)過程,符號(hào)序列則是發(fā)聲系統(tǒng)序列的輸出。在HMM中,觀察到的事件與狀態(tài)通過一組概率分布相聯(lián)系,是一個(gè)雙重隨機(jī)過程,其中一個(gè)是Markov鏈,他它描述了狀態(tài)之間的轉(zhuǎn)移;另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)響應(yīng)關(guān)系。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關(guān)的說話人識(shí)別中,并且比傳統(tǒng)的方法有著更好的性能。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量大。
2.4.2.4 基于支持向量機(jī)(SVM)的方法
SVM是Vapnik提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉(zhuǎn)化為某個(gè)高維中的線性問題,尋找最優(yōu)分類面,具有很好的泛化和分類能力,在手寫/文字識(shí)別、文本分類和人臉識(shí)別等模式領(lǐng)域中取到成功的應(yīng)用[4]。SVM實(shí)際上是一種辨別模式,一般情況下它只能辨別兩類數(shù)據(jù),因此需要正反兩類數(shù)據(jù)進(jìn)行訓(xùn)練。因此SVM要在說話人識(shí)別中應(yīng)用,必須要解決多類分類問題。解決說話人識(shí)別的多分類問題的主要有三種形式[4]:
1)為每個(gè)人建立一個(gè)SVM,訓(xùn)練數(shù)據(jù)由目標(biāo)說話人和背景說話人的語音分別構(gòu)成“+”、“-”數(shù)。
2)為每一對(duì)說話人建立一個(gè)SVM,由N個(gè)人則建立N*(N-1)/2個(gè)SVM。
3)決策樹分類:決策樹上每個(gè)節(jié)點(diǎn)將多個(gè)說話人分為兩個(gè)子集,或者是一個(gè)說話人(葉節(jié)點(diǎn))。
2.4.2.5 高斯混合模型(GMM)
在說話人識(shí)別中,不同說話人的差異只要表現(xiàn)在其短時(shí)語音的差異,而這又可以用每個(gè)說話人的短時(shí)譜特征矢量所具有的額概率密度函數(shù)來衡量,我們可以用高斯混合模型來表示這一概率密度函數(shù)。典型單峰高斯說話人模型代表了一個(gè)以均值矢量和協(xié)方差矩陣表示的說話人特征分布,而矢量量化模型代表了說話人特征模板的離散分布。通過高斯混合模型的離散組合,每個(gè)高斯函數(shù)用其均值和協(xié)方差矩陣表示,得到高斯混合模型(GMM)[5][6]。它直接對(duì)語音中的說話人得個(gè)人特好征的統(tǒng)計(jì)分布進(jìn)行描述,已成為當(dāng)今與文本無關(guān)的說話人識(shí)別的主流技術(shù),也是目前說話人識(shí)別的研究熱點(diǎn)。由于GMM只有一個(gè)狀態(tài),在GMM參數(shù)中只包含語音的聲紋特征信息,不包含語音隨時(shí)間變化的狀態(tài)信息。
說話人識(shí)別的目的是找到說話人模型λ,對(duì)于給定的參數(shù)模型集Λ={λ1,……,λ n}和測試向量序列X={x1,……,xr}有最大的后驗(yàn)概率P(λ|X)。通常用似然P(X|λ)代替P(λ|X),這樣就不需要知道初始概率P(λ);另一簡化假設(shè)是,向量序列X是獨(dú)立同分布隨機(jī)變量,這樣P(X|λ)表達(dá)式如下:


完整的混合高斯模型由參數(shù)均值向量,協(xié)方差矩陣和混合權(quán)重組成。

在識(shí)別系統(tǒng)中,每個(gè)說話人都由一個(gè)GMM表示,定義為參考模型λ這樣就可以通過(2.12)式計(jì)算測試向量序列X的每個(gè)似然函數(shù)P(X|λi)最大,即判定為說話人。基于GMM的說話人識(shí)別方法是目前最成熟的和最有效的方法。
本課題討論一種復(fù)雜背景下的聲紋識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。預(yù)處理階段,提出一種利用正交小波濾波器組來對(duì)信號(hào)進(jìn)行預(yù)濾波的方法,對(duì)語音信號(hào)的每個(gè)頻率去噪,然后重構(gòu)出語音信號(hào);特征提取階段,提出一種基音周期和MFCC兩種特征參數(shù)相組合的特征提取方式提取說話人語音特征,致力于解決基音周期系數(shù)在區(qū)別清音和低電平的濁音較困難及MFCC參數(shù)抗噪性不佳的問題;聲紋識(shí)別階段,利用GMM來訓(xùn)練和識(shí)別特定人聲紋。
[1]Glembek,O.,Burget,L.,Dehak,N.,Brummer,N.,Ke nny.Comparison of scoring methods used in speaker recongnition with joint factor analysis.In Proc.ICASSP,2009.
[2]D.Avci.An expert system for speaker identification using adaptive wavelet sure entropy.Expert Systems with Applications,2009,36:6295-6300.
[3]Dehak,R.,Dehak,N.,Kenny,P.,Dummouchel,Ker nel Combination for SVM Speaker Verification[J].In Odyssey Speaker and Language Recongnition Workshop 2008,2008.
[4]Kajarekar.Phone-based cepstral polynomial SVM system for speakerrecognition[J].Proceedings of Interspeech,2008.
[5]Azzam Sleit,Sami Serhan,and Loai Nemir.A histogram based speaker identification technique.International Conference on ICADIWT,2008,pp.384-388.
[6]David A.van Leeuwen,SRE-tools,a software package for calculating performance metrics for NIST speaker recognition evaluations.http://sretools.goolepages.com/.2008.