李燕萍,陶定元,林 樂(lè)
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
基于DTW模型補(bǔ)償?shù)膫窝b語(yǔ)音說(shuō)話人識(shí)別研究
李燕萍,陶定元,林 樂(lè)
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
語(yǔ)音變聲器及各種手機(jī)變聲軟件的出現(xiàn),在提供了極其方便且豐富的娛樂(lè)交互體驗(yàn)的同時(shí),也給語(yǔ)音通信帶來(lái)了新的安全問(wèn)題。由于其產(chǎn)生的電子偽裝語(yǔ)音掩蓋了語(yǔ)音本身的個(gè)性特征,對(duì)現(xiàn)有的說(shuō)話人識(shí)別技術(shù)來(lái)說(shuō)是一種挑戰(zhàn),且一旦被犯罪分子利用,后果將十分嚴(yán)重。因此,偽裝語(yǔ)音說(shuō)話人識(shí)別的研究成為當(dāng)下的研究熱點(diǎn)。提出一種針對(duì)電子偽裝語(yǔ)音的說(shuō)話人識(shí)別方法。對(duì)于由手機(jī)變聲軟件產(chǎn)生的電子偽裝語(yǔ)音,提取該語(yǔ)音的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)作為特征參數(shù),通過(guò)動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)模型進(jìn)行偽裝程度鑒定,再利用矢量量化(Vector Quantization,VQ)模型進(jìn)行說(shuō)話人識(shí)別,從而設(shè)計(jì)了DTW與VQ相結(jié)合的電子偽裝語(yǔ)音說(shuō)話人識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明:該系統(tǒng)能夠有效解決VQ說(shuō)話人識(shí)別系統(tǒng)對(duì)電子偽裝語(yǔ)音識(shí)別率過(guò)低的問(wèn)題,識(shí)別效果得到了明顯改善。
電子偽裝語(yǔ)音;梅爾倒譜系數(shù);說(shuō)話人識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整;矢量量化
近年來(lái),手機(jī)變聲軟件的流行,在豐富人們業(yè)余生活的同時(shí),也給犯罪分子進(jìn)行違法犯罪活動(dòng)提供了新的途徑[1-3]。犯罪分子通過(guò)手機(jī)變聲軟件產(chǎn)生的電子偽裝語(yǔ)音能掩蓋自身語(yǔ)音,從而躲避公安機(jī)關(guān)的偵查,給此類案件的偵破增加了不少阻力[1,4]。
語(yǔ)音作為人與人之間交流的基本方式之一,也是重要的生物特征之一。……