李燕萍,陶定元,林 樂
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
基于DTW模型補(bǔ)償?shù)膫窝b語音說話人識(shí)別研究
李燕萍,陶定元,林 樂
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
語音變聲器及各種手機(jī)變聲軟件的出現(xiàn),在提供了極其方便且豐富的娛樂交互體驗(yàn)的同時(shí),也給語音通信帶來了新的安全問題。由于其產(chǎn)生的電子偽裝語音掩蓋了語音本身的個(gè)性特征,對現(xiàn)有的說話人識(shí)別技術(shù)來說是一種挑戰(zhàn),且一旦被犯罪分子利用,后果將十分嚴(yán)重。因此,偽裝語音說話人識(shí)別的研究成為當(dāng)下的研究熱點(diǎn)。提出一種針對電子偽裝語音的說話人識(shí)別方法。對于由手機(jī)變聲軟件產(chǎn)生的電子偽裝語音,提取該語音的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)作為特征參數(shù),通過動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)模型進(jìn)行偽裝程度鑒定,再利用矢量量化(Vector Quantization,VQ)模型進(jìn)行說話人識(shí)別,從而設(shè)計(jì)了DTW與VQ相結(jié)合的電子偽裝語音說話人識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明:該系統(tǒng)能夠有效解決VQ說話人識(shí)別系統(tǒng)對電子偽裝語音識(shí)別率過低的問題,識(shí)別效果得到了明顯改善。
電子偽裝語音;梅爾倒譜系數(shù);說話人識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整;矢量量化
近年來,手機(jī)變聲軟件的流行,在豐富人們業(yè)余生活的同時(shí),也給犯罪分子進(jìn)行違法犯罪活動(dòng)提供了新的途徑[1-3]。犯罪分子通過手機(jī)變聲軟件產(chǎn)生的電子偽裝語音能掩蓋自身語音,從而躲避公安機(jī)關(guān)的偵查,給此類案件的偵破增加了不少阻力[1,4]。
語音作為人與人之間交流的基本方式之一,也是重要的生物特征之一。目前在說話人識(shí)別領(lǐng)域,作為表征個(gè)體之間差異的特征參數(shù)主要有MFCC和線性預(yù)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)。其中MFCC是基于聽覺特性,LPCC是基于聲道特性[5]。文中選取MFCC作為語音特征參數(shù)。
手機(jī)變聲軟件主要通過改變原始語音的音調(diào),產(chǎn)生電子偽裝語音。隨著偽裝程度的加深,說話人的原始語音與偽裝處理后的語音差異增大[6-7]。目前常用的VQ說話人識(shí)別模型對電子偽裝語音的識(shí)別率低下,無法完成識(shí)別此類語音的任務(wù)。在這種情況下,文中提出一種適用于識(shí)別電子偽裝語音的新模型——DTW與VQ相結(jié)合的模型,并將兩者結(jié)合之后對VQ識(shí)別系統(tǒng)的性能進(jìn)行分析,最后通過實(shí)驗(yàn)完成對該系統(tǒng)性能的測試。提高對電子偽裝語音的識(shí)別率有助于與手機(jī)變聲軟件相關(guān)的違法犯罪案件,提高對犯罪嫌疑人身份的辨識(shí)度,從而為公安機(jī)關(guān)偵破此類案件提供幫助。
1.1 電子偽裝語音偽裝程度的量化
在進(jìn)行電子偽裝語音識(shí)別模型研究之前,需要對偽裝程度概念進(jìn)行量化處理。文中的電子偽裝語音由名為“高保真錄音變聲器”的手機(jī)變聲軟件產(chǎn)生,該軟件主要通過改變音調(diào)來偽裝原始語音。音調(diào)改變分為正向與負(fù)向兩種,正向即提高原始語音的音調(diào),改變幅度為1,負(fù)向即降低原始語音的音調(diào),改變幅度同樣為1。偽裝程度可用符號加改變量表示。例如,一段語音音調(diào)提高了9個(gè)幅度,其偽裝程度可用+9表示。通過測試發(fā)現(xiàn),經(jīng)過該軟件處理后,偽裝程度高于+11以及低于-11的電子偽裝語音語義基本喪失,即無法通過人耳辨別出此段語音的內(nèi)容。據(jù)此將偽裝程度分為從-11至+11的22個(gè)偽裝級別,這與電子偽裝語音的半音分類[8-9]類似。
1.2 DTW匹配模型
動(dòng)態(tài)時(shí)間規(guī)整(DTW)是一種基于時(shí)間規(guī)整與距離測度的非線性規(guī)整技術(shù)[10]。模板中已存在的語音稱為參考模板,用于測試的語音稱為測試模板。動(dòng)態(tài)時(shí)間規(guī)整需要尋找一個(gè)時(shí)間規(guī)整函數(shù)m=ω(n),使得測試模板的時(shí)間軸n非線性映射到參考模板時(shí)間軸m上,函數(shù)ω應(yīng)滿足:

(1)
其中,T(n)為測試模板第n幀的特征參數(shù);d[T(n),R(ω(n))]與參考模板第m幀的特征參數(shù)R(m)之間的歐氏距離測度;M、N為參考模板與測試模板的長度;D為測試模板矢量與參考模板矢量之間的最佳匹配路徑。
但是動(dòng)態(tài)規(guī)劃計(jì)算量較大,所以采用DTW改進(jìn)型路徑[11],改進(jìn)后的匹配路徑算法為:
D(n,m)=d(n,m)+min[D(n-1,m), D(n-1,m-1),D(n-1,m-2)]
(2)
其中,d(n,m)是d[T(n),R(ω(n))]的簡寫。
利用DTW算法可實(shí)現(xiàn)對電子偽裝語音偽裝程度的鑒定,該理論基于假設(shè):偽裝程度相同或相似的語音更容易匹配。其過程為:將一段待測語音與系統(tǒng)參考模板中的某個(gè)說話人的多段偽裝語音進(jìn)行匹配,可得到一個(gè)偽裝程度的最佳估計(jì)值,若模板中有N個(gè)人的多段偽裝語音,則得到N個(gè)偽裝程度估計(jì)值,再取其平均值,由于偽裝程度是整數(shù)值,所以結(jié)果需要進(jìn)行四舍五入處理,最終結(jié)果作為該語音的偽裝程度估計(jì)值。
1.3 VQ識(shí)別模型
在說話人識(shí)別領(lǐng)域,矢量量化(VQ)是一種重要的信號壓縮和識(shí)別方法[12-13],而VQ碼本的設(shè)計(jì)對VQ有著重要的影響,一個(gè)擁有M個(gè)說話人集合的系統(tǒng)需要為每一個(gè)人建立碼本Y1,Y2,…,YM。目前,生成碼本最常用的方法是LBG算法[14],對訓(xùn)練矢量集合以及某種迭代算法生成更符合訓(xùn)練語音特征的碼本。在識(shí)別時(shí),提取待識(shí)別語音的特征矢量序列X1,X2,…,XN,并用已生成的碼本對特征矢量序列依次進(jìn)行矢量量化[15],并計(jì)算平均量化誤差,公式為:

(3)

最終平均矢量量化誤差Di最小值所對應(yīng)的第i個(gè)說話人即為系統(tǒng)的識(shí)別結(jié)果。
在電子偽裝語音偽裝程度已知的情況下,對VQ識(shí)別模型進(jìn)行補(bǔ)償,調(diào)整訓(xùn)練語音的偽裝程度使其與測試語音相同,完成說活人識(shí)別向電子偽裝語音說話人識(shí)別的過渡。
1.4 DTW與VQ相結(jié)合的模型
通過DTW模型鑒定偽裝程度,再通過VQ模型進(jìn)行識(shí)別,完成對電子偽裝語音的說話人識(shí)別,其系統(tǒng)框圖如圖1所示。

圖1 DTW與VQ相結(jié)合的模型框圖
實(shí)驗(yàn)所用硬件為PC并配備普通聲卡,軟件為Matlab開發(fā)平臺(tái),錄音環(huán)境為普通機(jī)房。
有15位男生和15位女生共計(jì)30人參與錄音,每人采集從偽裝程度-11到+11的22段語音,共計(jì)660段語音,作為DTW的參考模板語音,同時(shí)也是VQ模型的訓(xùn)練語音。語音長度為20 s左右,內(nèi)容為一段描述性語句,由于內(nèi)容較長,故不在此贅述。30位參與者錄制測試語音,語音內(nèi)容選為“不許報(bào)警,不許讓別人知道,否則你的孩子就沒命了”,長度為5 s左右,經(jīng)過偽裝處理,得到660段語音。
對實(shí)驗(yàn)語音進(jìn)行端點(diǎn)檢測,得到有效語音段。之后進(jìn)行預(yù)加重、分幀(幀長256,幀移128)、加窗(漢明窗)處理,提取20維的MFCC參數(shù)。選取一段語音為例,語音內(nèi)容為:“今天是5月21號,天氣很好萬里無云”,提取該段語音的MFCC,如圖2所示。經(jīng)過電子偽裝處理(偽裝程度為+11)之后再提取其MFCC,如圖3所示。

圖2 提取一段正常語音的MFCC

圖3 提取偽裝語音的MFCC
通過對比圖2與圖3可知,正常語音經(jīng)過電子偽裝之后,特征參數(shù)MFCC會(huì)發(fā)生明顯的改變。
實(shí)驗(yàn)根據(jù)測試語音和訓(xùn)練語音是否經(jīng)過偽裝處理分為四個(gè)部分:
(1)測試語音與訓(xùn)練語音均為30人的正常語音,各計(jì)30段。
(2)測試語音是30人的偽裝語音(660段),訓(xùn)練語音是30人的正常語音(30段)。
(3)測試語音與訓(xùn)練語音均為30人的偽裝語音,各計(jì)660段且偽裝程度未知。
(4)測試語音與訓(xùn)練語音均為30人的偽裝語音,各計(jì)660段且偽裝程度已知。
實(shí)驗(yàn)部分(4)中,在電子偽裝語音識(shí)別之前通過DTW模型進(jìn)行偽裝程度鑒定,使測試語音與訓(xùn)練語音的偽裝程度已知。
DTW模型對于偽裝程度的鑒定效果如圖4和圖5所示。

圖4 測試語音偽裝程度鑒定值

圖5 測試語音偽裝程度鑒定值方差
由圖4可知,30人的電子偽裝語音經(jīng)過DTW匹配之后的偽裝程度均值曲線與實(shí)際偽裝程度曲線比較接近,說明匹配效果良好。由圖5可知,30人的電子偽裝語音經(jīng)過DTW匹配之后偽裝程度方差值在0~3之間,說明偽裝程度鑒定值的浮動(dòng)較小,DTW匹配模型較為穩(wěn)定。經(jīng)過鑒定之后30人的偽裝語音的偽裝程度可視為已知。
實(shí)驗(yàn)識(shí)別階段采用VQ識(shí)別模型。碼本長度分別選擇16,32,64。四部分實(shí)驗(yàn)中VQ模型的識(shí)別率如表1所示。

表1 四部分實(shí)驗(yàn)VQ系統(tǒng)識(shí)別率匯總表
由表1可知,經(jīng)過DTW模型匹配之后,VQ模型識(shí)別效果與實(shí)驗(yàn)部分(2)相比,按照不同碼本識(shí)別率分別提高了59.39%,61.06%和62.12%;與實(shí)驗(yàn)部分(3)相比,按照不同碼本識(shí)別率分別提高了11.67%,11.36%,11.06%;與實(shí)驗(yàn)部分(1)相比,按照不同碼本識(shí)別率分別降低了7.42%,5.30%和5.46%,說明DTW與VQ相結(jié)合的模型在電子偽裝語音存在的情況下,識(shí)別性能有很大提升,識(shí)別效果明顯改善。但在說話人識(shí)別領(lǐng)域,該模型的識(shí)別效果并不理想,后續(xù)的研究可以通過使用改進(jìn)后的偽裝鑒定模型或者選取更為有效的特征參數(shù)等方法來進(jìn)一步提高系統(tǒng)的性能。
電子偽裝語音的存在,使得基于VQ模型的說話人識(shí)別性能降低,識(shí)別效果變得不理想。文中利用DTW模型匹配出測試語音的偽裝程度,再將VQ模型訓(xùn)練語音的偽裝程度調(diào)整至與測試語音同一偽裝程度層面,實(shí)現(xiàn)對該模型的補(bǔ)償,使其性能得到明顯改善。實(shí)驗(yàn)結(jié)果表明:經(jīng)過補(bǔ)償之后的VQ模型對電子偽裝語音的識(shí)別性能顯著提升,識(shí)別效果良好。
[1] Neustein A,Patil H A.Forensic speaker recognition:law enforcement and counter-terrorism[M].[s.l.]:Springer,2011.
[2] 張翠玲,譚鐵軍,劉 昇.偽裝語音的自動(dòng)話者識(shí)別研究[J].刑事技術(shù),2007(2):18-21.
[3] 張翠玲.偽裝語音的聲學(xué)研究[D].天津:南開大學(xué),2005.
[4] 張桂清,金怡珠,劉紅偉,等.電子偽裝語音的變聲規(guī)律研究[J].證據(jù)科學(xué),2010,18(4):503-509.
[5] 余建潮,張瑞林.基于MFCC和LPCC的說話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.
[6] Tan T J.The effect of voice disguise on automatic speaker recognition[C]//Proceedings of 3rd international congress on image and signal processing.Yantai:IEEE,2010:3538-3541.
[7] Zhang C,Tan T.Voice disguise and automatic speaker recognition[J].Forensic Sci. Int.,2008,175(2-3):118-122.
[8] Wu H J,Wang Y,Huang J W.Blind detection of electronic disguised voice[C]//Proceedings of IEEE international conference on acoustics,speech and signal processing.Vancouver,BC:IEEE,2013:3013-3017.
[9] Wu H J,Wang Y,Huang J W.Identification of electronic disguised voices[J].IEEE Transactions on Information Forensics And Security,2014,9(3):489-500.
[10] 文 翰,黃國順.語音識(shí)別中DTW算法改進(jìn)研究[J].微計(jì)算機(jī)信息,2010,26(7-1):195-197.
[11] 劉長明,任一峰.語音識(shí)別中DTW特征匹配的改進(jìn)算法研究[J].中北大學(xué)學(xué)報(bào):自然科學(xué)版,2006,27(1):37-40.
[12] 丁艷偉,戴玉剛.基于VQ的說話人識(shí)別系統(tǒng)[J].電腦知識(shí)與技術(shù),2008,4(5):1181-1183.
[13] 趙 力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003.
[14] 孔勇平.矢量量化LBG算法的研究[J].硅谷,2008(6):39-40.
[15] 王 偉,鄧輝文.基于MFCC參數(shù)和VQ的說話人識(shí)別系統(tǒng)[J].儀器儀表學(xué)報(bào),2006,27:2253-2255.
Study on Electronic Disguised Voice Speaker Recognition Based on DTW Model Compensation
LI Yan-ping,TAO Ding-yuan,LIN Le
(College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
The appearance of voice changer and various voice software of mobile phone provides a very convenient and rich entertainment interaction experience,amd at the same time,also gives voice communication new security issues.Electronic disguised voice produced masks the personality characteristics of voice itself,so the existing speaker recognition technology is a challenge,and once they are used by criminals,the consequences will be severe.Therefore,disguised voice speaker recognition is becoming a research hotspots.In view of electronic disguised voice produced by cell phone voice software,Mel Frequency Cepstral Coefficients (MFCC) are extracted as the characteristic parameters of voice signals,identifying the disguised degree of it by DTW model and carrying out speaker recognition by VQ to design a speaker recognition system of electronic disguised voice.The experimental results show that the system can efficiently solve the problem that VQ has a poor recognition rate for electronic disguised voices,and improve the performance obviously.
electronic disguised voice;MFCC;speaker recognition;DTW;VQ
2015-08-25
2015-12-23
時(shí)間:2017-01-04
國家自然科學(xué)基金資助項(xiàng)目(61401227);江蘇省博士后基金(1402067B);智能語音技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室2014年度開放課題(2014ISTKFKT02)
李燕萍(1983-),女,博士,副教授,研究方向?yàn)檎f話人識(shí)別、語音轉(zhuǎn)換;陶定元(1989-),男,碩士研究生,研究方向?yàn)檎f話人識(shí)別。
http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1017.016.html
TP302
A
1673-629X(2017)01-0093-04
10.3969/j.issn.1673-629X.2017.01.021