朱宇軒
(西華大學(xué),四川 成都 610039)
基于高斯混合模型的說話人識別研究
朱宇軒
(西華大學(xué),四川 成都 610039)
摘要:說話人識別本質(zhì)上是一個模式識別問題,而模式識別系統(tǒng)的目標(biāo)是要在表示空間和解釋空間之間找到一種映射關(guān)系。高斯分布又稱為正態(tài)分布,是一個在數(shù)學(xué)、物理及工程領(lǐng)域都非常重要的連續(xù)分布函數(shù),它描述了一種圍繞某個單值聚集分布的隨機(jī)變量。
關(guān)鍵詞:高斯分布;隨機(jī)變量
1引言
在實際生活中,許多物理現(xiàn)象以及各種心理學(xué)測試分?jǐn)?shù)都近似地服從高斯分布。在統(tǒng)計學(xué)以及許多統(tǒng)計測試中高斯分布也是應(yīng)用最廣泛的一類分布。高斯混合模型(Gaussian Mixture Model,GMM)是單一高斯密度函數(shù)的擴(kuò)展,由于高斯混合模型可以逼近任意形狀的概率密度分布,所以高斯混合模型被廣泛的運(yùn)用到各種領(lǐng)域,如語音識別,圖像識別等,并取得了理想的效果。
2GMM模型基本概念
GMM混合模型可以看作一種狀態(tài)數(shù)為1的連續(xù)分布的隱馬爾可夫模型CDHMM。它是用M個單高斯分布的線性組合來描述幀特征在特征空間中的分布。一個M階的混合高斯模型的概率密度函數(shù)可以由M個單高斯概率密度函數(shù)加權(quán)和得到,其表達(dá)式如下:
(1)
式中:X是一個D維隨機(jī)向量;M是混合模型的階數(shù);ωi,i=1,…,M是混合權(quán)重,且其滿足以下條件:
(2)
bi(X),i=1,2,…,M是子分布,每個子分布是D維的聯(lián)合高斯概率分布,可表示為:
(3)
式中,μi是均值向量,Σi是協(xié)方差矩陣。
整個高斯混合模型可以通過參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重來描述。所以高斯模型λ可以表示為:
λ={ωi,μi,∑i},i=1,…M
(4)
3GMM模型的訓(xùn)練
GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則確定模型的參數(shù)。最常用的參數(shù)估計方法是最大似然(Mxaimum Likehhood,簡稱為ML)估計。最大似然估計是把待估計的量看成固定但未知的量,然后求出能夠使學(xué)習(xí)樣本出現(xiàn)概率最大的參數(shù)值,并把它作為參數(shù)的估值。GMM模型參數(shù)的初始化有兩種不同的方法:第一種是使用一個與說話人無關(guān)的HMM模型對訓(xùn)練數(shù)據(jù)進(jìn)行自動分段。訓(xùn)練數(shù)據(jù)語音幀根據(jù)其特征分到M個不同的類中(M為混合高斯分量的個數(shù)),與初始的M個高斯分量相對應(yīng)。每個類的均值和方差作為模型的初始化參數(shù)。第二種方法從訓(xùn)練數(shù)據(jù)序列中隨機(jī)選擇M個矢量作為模型的初始化參數(shù)。盡管有實驗證明EM算法對于初始化參數(shù)的選擇并不敏感,但是第一種方法訓(xùn)練要優(yōu)于第二種方法。
另外由于條件的限制,通常得不到充分語音數(shù)據(jù)對模型參數(shù)進(jìn)行訓(xùn)練。GMM模型的協(xié)方差矩陣的一些分量可能會很小,這些很小的值對模型參數(shù)的似然對函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對系統(tǒng)性能的影響,在EM算法的迭代計算中,可以對協(xié)方差的值設(shè)置一個門限值,在訓(xùn)練過程中令協(xié)方差的值不小于設(shè)定的門限值。門限值設(shè)置可通過觀察協(xié)方差矩陣來定,一般情況下,決大多數(shù)值都大于0.0001。只有極少數(shù)值在這個范圍之外,為此,可將門限值設(shè)置為0.001。
4GMM模型的識別


圖1 GMM模型的說話人性別識別系統(tǒng)結(jié)構(gòu)框圖
根據(jù)貝葉斯理論,最大后驗概率可表示為:
(5)

(6)
其對數(shù)形式為:
(7)
由于P(λt)的先驗概率未知,我們假定該語音信號被判別為男聲和女聲的可能性相等,即:
(8)
對于一個確定的觀察值矢量X,P(X)是一個確定的常數(shù)值,對男聲和女聲模板相等。因此求取后驗概率的最大值可以通過求取P(X/λi)獲得,所以識別該語音是男聲還是女聲可以表示為:
i*=argmaxP(X/λi),i=1,2
(9)
式中:i*即為識別出的說話人性別最大概率。
5總結(jié)
考慮到高斯函數(shù)對真實數(shù)據(jù)的較好描述,另外由于高斯函數(shù)的線性組合仍然是高斯函數(shù),而且在理論上任意形式的總體分布都可以用若干個高斯函數(shù)的混合來逼近。所以采用高斯混合函數(shù)來估計語音特征的概率分布,這樣就得到了說話人的高斯混合模型。
參考文獻(xiàn):
[1]吳朝暉,楊瑩春. 說話人識別模型與方法[M].北京:電子工業(yè)出版社,1995.
[2]鄧英, 歐貴文.基于HMM的性別識別[J].計算機(jī)工程與應(yīng)用, 40(15): 74-75.
作者簡介:朱宇軒,性別:男,民族:漢族,籍貫: 四川南充,職務(wù):工人,學(xué)歷:大學(xué)本科,單位:西華大學(xué),研究方向:電子,計算機(jī)。
中圖分類號:TN915
文獻(xiàn)標(biāo)志碼:A
文章編號:1671-1602(2016)12-0136-01