摘要說(shuō)話(huà)人識(shí)別技術(shù)是根據(jù)待識(shí)別人的語(yǔ)音與預(yù)先提取的說(shuō)話(huà)人語(yǔ)音特征是否相匹配來(lái)鑒別說(shuō)話(huà)人身份的一種生物認(rèn)證技術(shù),具有廣泛的應(yīng)用前景。本文重點(diǎn)研究了說(shuō)話(huà)人特征參數(shù)的提取問(wèn)題,在前人工作的基礎(chǔ)上,提出了在噪聲環(huán)境中更為有效的組合特征參數(shù)提取方法。
中圖分類(lèi)號(hào):TN91文獻(xiàn)標(biāo)識(shí)碼:A
0 引言
說(shuō)話(huà)人識(shí)別技術(shù)是根據(jù)待識(shí)別人的語(yǔ)音與預(yù)先提取的說(shuō)話(huà)人語(yǔ)音特征是否相匹配來(lái)鑒別說(shuō)話(huà)人身份的一種生物認(rèn)證技術(shù)。小波分析能同時(shí)在時(shí)、頻域中對(duì)信號(hào)進(jìn)行分析,有自動(dòng)變焦的功能,將小波技術(shù)應(yīng)用于說(shuō)話(huà)人識(shí)別對(duì)提高在噪聲環(huán)境下的說(shuō)話(huà)人識(shí)別率有很大的改進(jìn)。本文試圖在小波變換的基礎(chǔ)上尋找具有強(qiáng)抗噪性能的組合特征參數(shù),以提高噪聲環(huán)境下系統(tǒng)的識(shí)別性能。
1 小波變換原理
如果函數(shù),并且滿(mǎn)足允許性條件(完全重構(gòu)條件或恒等分辨條件):
公式(1)
則稱(chēng)(t)是一個(gè)基本小波或母小波(Mother Wavelet),(t)定下來(lái)后,通過(guò)母函數(shù)的伸縮(Dilation)和平移(Translation)后得:
公式(2)
上式稱(chēng)為一個(gè)小波序列。其中a為伸縮因子,b為平移因子。
對(duì)于任意的函數(shù)f(t)在L2(R)上的連續(xù)小波變換定義為:
公式(3)
其重構(gòu)公式(逆變換)為:
公式(4)
連續(xù)小波變換主要用于理論分析方面,在實(shí)際運(yùn)用中,尤其是在計(jì)算機(jī)上實(shí)現(xiàn),離散小波變換更適于計(jì)算機(jī)處理,因此,連續(xù)小波必須加以離散化。離散小波定義為:
公式(5)
離散化小波變換系數(shù)可表示為:
公式(6)
其重構(gòu)公式為:
公式(7)
其中,C是一個(gè)與信號(hào)無(wú)關(guān)的常數(shù)。
2 基于小波變換的組合特征提取
2.1 思路分析
目前,小波分析己經(jīng)成功地應(yīng)用于語(yǔ)音編碼、端點(diǎn)檢測(cè)、基音周期提取等方面,但在說(shuō)話(huà)人識(shí)別技術(shù)中,用小波分析來(lái)提取特征參數(shù)還處于研究階段。研究表明,直接小波系數(shù)作為特征參數(shù),其識(shí)別率較低,但具有較好抗噪聲性能,因此難點(diǎn)主要在于如何把直接小波系數(shù)轉(zhuǎn)化為代表說(shuō)話(huà)人個(gè)性特征的參數(shù)。
2.2 改進(jìn)的組合特征參數(shù)提取方法
組合特征參數(shù)提取:
方案一:分別對(duì)低頻部分進(jìn)行m階的LPCC特征參數(shù)提取,對(duì)高頻部分進(jìn)行n階的△LPCC特征參數(shù)提取。
方案二:分別對(duì)低頻部分進(jìn)行m階的MFCC特征參數(shù)提取,對(duì)高頻部分進(jìn)行n階的△MFCC特征參數(shù)提取。
實(shí)驗(yàn)證明,文中LPCC和△LPCC的階數(shù)取12,MFCC和△MFCC的階數(shù)取16時(shí)識(shí)別效果較好。則此時(shí)特征參數(shù)空間維數(shù)為84。低頻部分特征參數(shù)的權(quán)重取1,高頻部分特征參數(shù)的權(quán)重取2。將以上提取的組合特征參數(shù)組成特征向量供DTW或VQ識(shí)別模型進(jìn)行識(shí)別。
3 改進(jìn)的組合特征參數(shù)說(shuō)話(huà)人辨認(rèn)實(shí)驗(yàn)
在相對(duì)安靜的教室環(huán)境下采集這40個(gè)說(shuō)話(huà)人的語(yǔ)音,每人念一段10秒鐘的報(bào)紙材料一作為系統(tǒng)模板的訓(xùn)練。再次采集這40個(gè)人的語(yǔ)音,測(cè)試樣本一的語(yǔ)音內(nèi)容為10秒鐘的報(bào)紙材料一,測(cè)試樣本二的語(yǔ)音內(nèi)容為10秒鐘的報(bào)紙材料二,材料一和材料二屬于不同的段落,內(nèi)容不同,漢字重復(fù)率隨機(jī)。
為了驗(yàn)證本文提出的組合特征參數(shù)的有效性,下面進(jìn)行兩組實(shí)驗(yàn):
實(shí)驗(yàn)A:進(jìn)行文本相關(guān)的說(shuō)話(huà)人辨認(rèn)實(shí)驗(yàn)。將采集的測(cè)試數(shù)據(jù)一分別輸入DTW和VQ說(shuō)話(huà)人識(shí)別系統(tǒng)進(jìn)行識(shí)別。
實(shí)驗(yàn)B:進(jìn)行文本無(wú)關(guān)的說(shuō)話(huà)人辨認(rèn)實(shí)驗(yàn)。將采集的測(cè)試數(shù)據(jù)二分別輸入DTW和VQ說(shuō)話(huà)人識(shí)別系統(tǒng)進(jìn)行識(shí)別。
(注:語(yǔ)音相對(duì)干凈,未加入噪聲,為了形成對(duì)比,傳統(tǒng)特征參數(shù)采用MFCC+△MFCC。)
實(shí)驗(yàn)數(shù)據(jù)如下所示:
(1)從實(shí)驗(yàn)A和實(shí)驗(yàn)B的實(shí)驗(yàn)數(shù)據(jù)可以看出,在干凈語(yǔ)音環(huán)境下,進(jìn)行文本相關(guān)的說(shuō)話(huà)人辨認(rèn)實(shí)驗(yàn)時(shí),應(yīng)用傳統(tǒng)的特征參數(shù)提取方法和本文提出的組合特征參數(shù)提取方法都能得到較高的識(shí)別率;在進(jìn)行文本無(wú)關(guān)的說(shuō)話(huà)人辨認(rèn)實(shí)驗(yàn)時(shí)識(shí)別率較低,原因可能是所念報(bào)紙材料文字隨機(jī)性太大,文字過(guò)多,加上測(cè)試者較多,在不同的語(yǔ)音速率和相似的聲道特點(diǎn)下,就極有可能增加誤識(shí)率,但從總體上說(shuō)也達(dá)到了識(shí)別目的。
(2)本文提出的組合特征參數(shù)提取方案可以達(dá)到較好的識(shí)別效果。基于DTW模型的識(shí)別率低于基于VQ模型的識(shí)別率,這和傳統(tǒng)特征提取方法得出來(lái)的結(jié)論是一致的,主要原因在于基于DTW的識(shí)別算法過(guò)分依賴(lài)于端點(diǎn)檢測(cè),而端點(diǎn)檢測(cè)的精度會(huì)隨著語(yǔ)音的音素不同而不同;其次,本文采用的是傳統(tǒng)的端點(diǎn)檢測(cè)方法,即將語(yǔ)音信號(hào)的短時(shí)能量與過(guò)零率相結(jié)合的方法。此法較易發(fā)生漏檢或虛檢的情況,因此影響了該系統(tǒng)的識(shí)別率。
(3)值得一提的是,由于本文的組合特征參數(shù)是在小波分解的基礎(chǔ)上對(duì)小波系數(shù)進(jìn)行提取的,維數(shù)較多,輸入識(shí)別模型的特征向量過(guò)多,加上本實(shí)驗(yàn)的電腦配置較低,這在一定程度上影響了識(shí)別時(shí)間,造成識(shí)別時(shí)間過(guò)長(zhǎng)。
4 小結(jié)
說(shuō)話(huà)人識(shí)別系統(tǒng)的性能在噪聲環(huán)境下的識(shí)別性能明顯降低,本文提出的組合特征參數(shù)在噪聲環(huán)境中能有效改善這一缺點(diǎn),在噪聲環(huán)境下比傳統(tǒng)特征參數(shù)更魯棒,對(duì)于自然環(huán)境條件下的說(shuō)話(huà)人識(shí)別來(lái)說(shuō)也有一定的研究意義。
參考文獻(xiàn)
[1]Woo S Ch, Lim Ch P,Osman R. Development of a speaker recognition system.using wavelets and artificial neural networks. Processings of 2001 International. Symposium on Intelligent, Multimedia, Video and Speech Processing,2001.2-4:413-416.
[2]Kinney A, Stevens J. Wavelet packet cepstral.Conference Record of the Thirty-Sixth Asilomar and Computers, analysis for speaker recognition.Conference on Signals, Systems 2002.1(3-6):206-209.
[3]劉鳴,戴蓓倩,李輝等.基于離散小波變換和感知頻域?yàn)V波的語(yǔ)音特征參數(shù).電路與系統(tǒng)學(xué)報(bào),2000.5(1):21-25.