朱宇軒
(西華大學,四川 成都 610039)
?
淺談說話人識別方法
朱宇軒
(西華大學,四川 成都 610039)
摘要:信息技術的發展使得生物識別技術越來越成熟,并在人們的生活中具有重要的作用。生物識別技術,就是提取人體固有的生理特征和行為特征,利用計算機等高科技方法進行識別。生物識別技術主要包括指紋識別、人臉識別、虹膜識別、還有本文要介紹的語音識別中的說話人識別,也叫做聲紋識別。
關鍵詞:信息技術;生物識別
1引言
1945年,Bell實驗室的L.G.Kesta目視語譜圖匹配,提出了聲紋的概念。與傳統的身份識別方法相比,生物識別技術更加方便,它不容易丟失、遺忘或者被盜。目前這些技術廣泛應用與許多領域中,如軍事領域、信息服務領域、安保環衛領域、公安司法領域等。
一個說話人識別系統如圖1所示,它主要分為兩個階段:訓練階段和識別階段。訓練階段需要使用者的若干訓練語音片段。提取這些語音片段的特征參數以作為標準對系統進行訓練學習,建立模板或模型參數參考集。在識別階段時,截取待識別者的語音片段,對其進行特征參數的提取,然后參照建立的模板或模型參數參考集進行比較,根據一定的相似準則進行判定。
2說話人識別分類
說話人識別任務根據識別方式的不同,可以分為三類:
說話人確認(Speaker Verification,ASV):判斷一段未知語音是否來自于一個特定人的語音片段,只需輸出“是”或“否”,是一個二元問題。
說話人鑒別(Speaker Identification,ASI):判斷一段未知語音是來自于N個模型中的哪一個人所說的語音片段,多選一問題。
說話人探測跟蹤(Speaker Segmentation and Clustering,SSC):指對一段包含多個說話人的語音,正確標注在這段語音中說話人切換的時刻。在說話人鑒別系統中,可進一步分為開集(open-set)的說話人鑒別和閉集(closed-set)說話人鑒別兩種。閉集說話人鑒別指系統具有這樣的先驗知識:測試的說話人肯定是在訓練集中出現過的;反之,所測試的說話人沒有在訓練集中出現過的則為開集說話人鑒別。開集的說話人鑒別和說話人確認通常都通過一個閾值來判斷被測試的說話人是不是在訓練集中。
3說話人識別模型的分類
(1)模式匹配法:模板匹配法的要點是,在訓練過程中從說話人發出的訓練語句中提取相應的特征矢量,這些特征矢量能夠充分描寫各個說話人的個性特征。這些特征矢量稱為各個說話人的模板。在測試階段,按同樣的方法在說話人的測試語音里面提取測試模板,根據與相應的參考模板相比較得到匹配程度也就是模板之間的距離來做出判斷。
動態時間規整模型(Dynamic Time Warping,DTW)
矢量量化(Vector Quantization,VQ)模型矢量量化技術是最早是用于聚類分析的數據壓縮編碼技術。它不直接在時域上進行預處理,而是對倒譜參數進行聚類,把每個人的特定文本訓練成碼本,識別的時候根據類別失真度進行判別,算法復雜度不高,且識別精度并不低。目前主要使用方法是作為其他方法的一種初值處理方法。
(2)概率統計方法: 說話人的語音信息在較短時間內可看作是平穩信息,通過對穩態特性的統計分析,根據特征參數的概率分布建立模型,然后可利用均值、方差等統計量和概率密度函數進行分類判決,適合于文本無關的說話人識別。
①隱馬爾可夫模型(Hidden Markov Models,HMM)方法隱馬爾可夫模型是一種基于轉移概率和輸出概率所建立的隨機模型,可以描述語音隨時間變換的情況。最初的應用是從Forward、Backward算法的得分中進行判別,目前也有用HMM進行LVCSR后從音素層面上進行建模判別的,比如建立基于每個音素的GMM模型。HMM對噪聲的魯棒性較低,訓練時計算量較大。
②高斯混合模型(Gaussian Mixture Model,GMM)方法高斯模型實際上是一種單狀態的HMM,通過用多個高斯分布的線性組合來近似多維矢量的連續概率分布,有效地刻畫了說話人的特征,在與文本無關的說話人識別中效果比較好。
參考文獻:
[1]吳朝暉,楊瑩春.說話人識別模型與方法[M].北京:電子工業出版社,1995.
[2]鄧英,歐貴文.基于 HMM 的性別識別[J].計算機工程與應用,40(15): 74-75.
作者簡介:朱宇軒,男,漢族,四川南充,工人,大學本科,西華大學,研究方向:電子、計算機。
中圖分類號:TP18
文獻標志碼:A
文章編號:1671-1602(2016)10-0019-01