基于高斯混合模型的說話人識別研究

2016-07-01 08:44:49朱宇軒

西部皮革 2016年12期

關(guān)鍵詞：模型

朱宇軒

(西華大學(xué)，四川成都 610039)

基于高斯混合模型的說話人識別研究

朱宇軒

(西華大學(xué)，四川成都 610039)

摘要：說話人識別本質(zhì)上是一個模式識別問題，而模式識別系統(tǒng)的目標(biāo)是要在表示空間和解釋空間之間找到一種映射關(guān)系。高斯分布又稱為正態(tài)分布，是一個在數(shù)學(xué)、物理及工程領(lǐng)域都非常重要的連續(xù)分布函數(shù)，它描述了一種圍繞某個單值聚集分布的隨機(jī)變量。

關(guān)鍵詞：高斯分布;隨機(jī)變量

1引言

在實際生活中，許多物理現(xiàn)象以及各種心理學(xué)測試分?jǐn)?shù)都近似地服從高斯分布。在統(tǒng)計學(xué)以及許多統(tǒng)計測試中高斯分布也是應(yīng)用最廣泛的一類分布。高斯混合模型(Gaussian Mixture Model,GMM)是單一高斯密度函數(shù)的擴(kuò)展，由于高斯混合模型可以逼近任意形狀的概率密度分布，所以高斯混合模型被廣泛的運(yùn)用到各種領(lǐng)域，如語音識別，圖像識別等，并取得了理想的效果。

2GMM模型基本概念

GMM混合模型可以看作一種狀態(tài)數(shù)為1的連續(xù)分布的隱馬爾可夫模型CDHMM。它是用M個單高斯分布的線性組合來描述幀特征在特征空間中的分布。一個M階的混合高斯模型的概率密度函數(shù)可以由M個單高斯概率密度函數(shù)加權(quán)和得到，其表達(dá)式如下:

(1)

式中：X是一個D維隨機(jī)向量；M是混合模型的階數(shù)；ωi,i=1,…,M是混合權(quán)重，且其滿足以下條件：

(2)

bi(X),i=1,2,…,M是子分布，每個子分布是D維的聯(lián)合高斯概率分布，可表示為：

(3)

式中，μi是均值向量，Σi是協(xié)方差矩陣。

整個高斯混合模型可以通過參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重來描述。所以高斯模型λ可以表示為：

λ={ωi,μi,∑i},i=1,…M

(4)

3GMM模型的訓(xùn)練

GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù)，依據(jù)某種準(zhǔn)則確定模型的參數(shù)。最常用的參數(shù)估計方法是最大似然(Mxaimum Likehhood，簡稱為ML)估計。最大似然估計是把待估計的量看成固定但未知的量，然后求出能夠使學(xué)習(xí)樣本出現(xiàn)概率最大的參數(shù)值，并把它作為參數(shù)的估值。GMM模型參數(shù)的初始化有兩種不同的方法：第一種是使用一個與說話人無關(guān)的HMM模型對訓(xùn)練數(shù)據(jù)進(jìn)行自動分段。訓(xùn)練數(shù)據(jù)語音幀根據(jù)其特征分到M個不同的類中(M為混合高斯分量的個數(shù))，與初始的M個高斯分量相對應(yīng)。每個類的均值和方差作為模型的初始化參數(shù)。第二種方法從訓(xùn)練數(shù)據(jù)序列中隨機(jī)選擇M個矢量作為模型的初始化參數(shù)。盡管有實驗證明EM算法對于初始化參數(shù)的選擇并不敏感，但是第一種方法訓(xùn)練要優(yōu)于第二種方法。

另外由于條件的限制，通常得不到充分語音數(shù)據(jù)對模型參數(shù)進(jìn)行訓(xùn)練。GMM模型的協(xié)方差矩陣的一些分量可能會很小，這些很小的值對模型參數(shù)的似然對函數(shù)影響很大，嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對系統(tǒng)性能的影響，在EM算法的迭代計算中，可以對協(xié)方差的值設(shè)置一個門限值，在訓(xùn)練過程中令協(xié)方差的值不小于設(shè)定的門限值。門限值設(shè)置可通過觀察協(xié)方差矩陣來定，一般情況下，決大多數(shù)值都大于0.0001。只有極少數(shù)值在這個范圍之外，為此，可將門限值設(shè)置為0.001。

4GMM模型的識別

圖1　GMM模型的說話人性別識別系統(tǒng)結(jié)構(gòu)框圖

根據(jù)貝葉斯理論，最大后驗概率可表示為：

(5)

(6)

其對數(shù)形式為：

(7)

由于P(λt)的先驗概率未知，我們假定該語音信號被判別為男聲和女聲的可能性相等，即：

(8)

對于一個確定的觀察值矢量X，P(X)是一個確定的常數(shù)值，對男聲和女聲模板相等。因此求取后驗概率的最大值可以通過求取P(X/λi)獲得，所以識別該語音是男聲還是女聲可以表示為：

i*=argmaxP(X/λi),i=1,2

(9)

式中：i*即為識別出的說話人性別最大概率。

5總結(jié)

考慮到高斯函數(shù)對真實數(shù)據(jù)的較好描述,另外由于高斯函數(shù)的線性組合仍然是高斯函數(shù)，而且在理論上任意形式的總體分布都可以用若干個高斯函數(shù)的混合來逼近。所以采用高斯混合函數(shù)來估計語音特征的概率分布，這樣就得到了說話人的高斯混合模型。

參考文獻(xiàn)：

[1]吳朝暉,楊瑩春. 說話人識別模型與方法[M].北京：電子工業(yè)出版社，1995.

[2]鄧英, 歐貴文.基于HMM的性別識別[J].計算機(jī)工程與應(yīng)用, 40(15): 74-75.

作者簡介：朱宇軒，性別：男，民族：漢族，籍貫：四川南充，職務(wù)：工人，學(xué)歷：大學(xué)本科，單位：西華大學(xué)，研究方向：電子，計算機(jī)。

中圖分類號:TN915

文獻(xiàn)標(biāo)志碼：A

文章編號：1671-1602(2016)12-0136-01