說話人識別研究現狀

2017-09-08 21:01:10王煜

數字技術與應用 2017年6期

王煜

摘要：說話人識別技術在我們日常生活中已經得到了廣泛的應用，說話人識別作為當前最熱門的生物特征識別技術之一，在遠程認證等領域有著獨特的優勢，受到了越來越多的關注。本文從說話人識別的特征提取和說話人建模兩部分展開，對說話人識別的研究現狀和技術進展進行了闡述。

關鍵詞：說話人識別；特征提取；說話人建模

中圖分類號：TP391.41 文獻標識碼：A 文章編號：1007-9416（2017）06-0059-03

1 概述

說話人識別技術是一種探索人類身份的一種生物識別技術，每個人說話時使用的發音器官例如口腔、舌頭、牙齒、聲帶、喉嚨和鼻腔等不管在形態還是在尺寸上或多或少都會有所差異，因而導致了每個說話人的發音也各不相同[1]。

按照不同的分類角度分類，說話人識別大致分為以下幾類。

從實際應用的范圍角度分，可以分為說話人辨認和說話人確認。前者是指判定待測試語音屬于目標說話人模型集合中的哪一個人，是一個多元判別的問題；而說話人確認是確定待測試語音是否來自其所聲稱的說話人，是一個二元判決的問題。對于說話人辨認來說，由測試來自不同說話人的范圍，說話人的辨認又可以開集識別和閉集識別[2]。

從待識別語音對應的文本角度分類，說話人識別可以分為文本無關、文本相關和文本提示三類。文本無關是指說話人識別系統對說話對應的文本是開放的，即不做內容要求，在訓練和識別時說話人可以隨意錄制語音內容只需達到一定的長度即可；文本相關是指說話人識別系統會要求說話人必須按照指定的文本進行發音錄制；而對于文本提示型說話人識別系統，是結合之前兩者的優點，系統需要從說話人訓練文本庫隨機提取一些字或詞匯組合后提示說話人按照該文本進行發音錄制，由于其實現簡單、安全性高，成為目前說話人識別技術的一大熱點。

2 說話人識別的研究現狀

從說話人識別的發展來看，二十世紀七十年代DTW和VQ技術的出現對當時識別性能有了較大提升，而八十年代應用到說話人識別中去的人工神經網絡、隱馬爾可夫模型和MFCC一直沿用至今并且一直被優化改進。到九十年代GMM以及GMM-UBM以其簡單靈活、魯棒性強的特點，在說話人識別中被廣為使用，到現在也是這個領域最重要的建模技術之一，與此同時，SVM的建模技術也被引入說話人識別中。進入二十一世紀后，聯合因子分析技術（JFA）和擾動屬性干擾算法（NAP）的提出使得說話人識別在復雜背景條件下也能取得較好的效果。另外，得分規整技術ZNORM、TNORM等的運用也使得說話人識別系統性能有了較大程度的提高。由JFA建模思想得到啟示，Najim Dehak等人提出了基于總體變化因子向量（identity vector，i-vector）的說話人建模方法，這是該研究領域的前沿主流技術。

說話人識別是一個模式識別問題，其框架主要包括兩個階段，訓練階段和識別階段。訓練階段是系統對說話人收集足夠的語音數據，基于數據對不同說話人的語音特征進行提取，再根據這些提取的特征訓練得到對應的說話人模型，最后將所有的模型整合成系統所需的模型庫。識別階段是系統對說話人傳入的語音數據進行識別時，系統對傳入數據進行與訓練階段相同的特征提取，并對提取到的特征與模型庫中的特征進行對比，進行相似性計算得出模型相似性分數，最終根據得分來判斷說話人屬于哪個模型得出說話人是誰的結論。

關于說話人識別的技術的現狀主要可以從以下兩部分進行討論：特征提取和說話人建模。

2.1 特征提取

特征提取是減小語音數據量和排除冗余信息的一個過程，常用的說話人特征有線性預測倒譜系數（LPCC）和梅爾倒譜系數（MFCC）。

2.1.1 線性預測倒譜系數

LPCC是模擬聲道的效應，把聲道沖擊和聲門激勵分離開來，并利用線性預測原理，將一個語音信號用過去若干個采樣的線性組合來表示。LPCC一般與其他特征參數進行組合研究，很少單獨出現。

2.1.2 梅爾倒譜系數

MFCC是基于聽覺系統的臨界帶效應，在Mel標度頻率域提取的一種倒譜參數，其充分利用了人耳的感知特性使得該特征具有較好的魯棒性。

近年來，學者們在MFCC的基礎上又提出了一些改進的參數來提高識別率，例如：△MFCC、DMFCC、MFSC和FMFCC等。其中一階差分系數△MFCC以其能夠擬合人發聲和人耳聽覺的動態特性的優點，和MFCC結合后能得到很好的應用和識別效果[3]。另外，還有學者提出了將MFCC與LPC特征得分歸一化后融合計算的方法，這種方法對于患有感冒的說話人辨認性能有較好的提升[4]。

對于MFCC參數的改進，還可以一方面在傳統算法上加入端點檢測，去除與說話人語音特征無關的靜音段[5]。另一方面用高斯濾波器組代替三角濾波器組進行頻率到Mel頻率的轉換，從而提高識別準確率。

此外還有一種方法，對傳統的提取MFCC過程中計算FFT這一步驟進行頻譜重構，對頻譜進行噪聲補償重建，使之具有很好的抗噪性，逼近純凈語音的頻譜，這種方法在低信噪比的環境下取得了很好的效果[6]。

另外，研究者們為提高說話人識別系統的性能，提出了許多以降低特征維數和計算復雜度為目的的對特征進行變換的方法，其中主要的有：獨立量分析法（ICA）、主成分分析法（PCA）和線性判別分析法（LDA）。其中，ICA能更好的去除噪聲，ICA在提取MFCC時將代替DCT對信號求取頻譜，得到的特征參數對非高斯噪聲信號的識別效果更好；而PCA的降維效果更好同時也能保證說話人識別性能，是降低計算復雜度的方法；最后LDA計算得到的特征是比PCA得到的更具有噪聲魯棒性而得到應用的[7]。

2.2 說話人建模

目前較為普遍使用的是非參數模型、參數模型、人工神經網絡模型和支持向量機。endprint

2.2.1 非參數模型

非參數模型是指說話人模型是由說話人的語音特征經過某種運算直接得到的，典型的非參數模型包括動態時間規整法（DTW）、矢量量化法（VQ）和模板匹配方法。

（1）動態時間規整法：考慮到說話人信息具有時變因素，可以把識別模板與參考模板進行時間對比，依據某種距離的測度求出兩個模板之間的相似度，現在對DTW的使用已經不多。

（2）矢量量化法：從說話人的語音信號中提取到的特征，通常是多維矢量的時間序列。矢量量化模型就是從這些矢量中篩選出少數代表性的矢量而構建的模型。尋找代表矢量是一個矢量聚類問題，能通過聚類等算法進行實現。常用的矢量量化法有k-means群分法和學習向量量化法。

2.2.2 參數模型

說話人識別中常用的參數模型有：隱馬爾可夫模型、高斯模型和高斯混合模型等。

（1）隱馬爾可夫模型：最早被CMU和IBM在語音識別中進行運用，是使用描述狀態間的轉移來描述特征變化過程的一種模型。當利用隱馬爾可夫模型進行識別時，需要為每個說話人都建立語音發聲模型，一般在與文本無關的說話人識別中會使用各態歷經型隱馬爾可夫模型，而與文本相關的會使用從左到右型。

對于說話人識別關于HMM的研究，有學者將其與MFCC結合起來，結合新的時頻分析工具分數傅立葉變換（FRFT），表征語音信號的特征，并利用可分性測度驗證了特征參數的有效性進行仿真識別得到了良好的效果[8]。

還有就是對HMM算法進行了優化，采用遺傳算法與LBG算法相結合的方法生成碼本，這種優化在文本相關說話人身份認證方面的效率有所提高[9]。

雖然HMM一般不需要進行時間規整，優點是可以節約對判決的時間和空間開銷，缺點是在訓練時的計算量比較大。所以近5年來對隱馬爾可夫模型在說話人識別領域的研究熱度有所下降，這也能可能是HMM退出前沿歷史舞臺的征兆。

（2）高斯混合模型：高斯混合模型是一種統計模型，它能夠較好的描述參數空間中訓練數據的特性及其空間分布，它也可以表示成多個高斯概率密度函數加權和的形式。

在近年的研究中，有學者運用多個核函數的線性組合構造多核空間，在多核空間上設計了基于支持向量機的說話人分類器，實現短語音說話人識別。算法中結合了GMM，并以GMM超向量作為說話人的最終特征參數進行仿真實驗[10]。在短語音和兩種噪聲環境中，這種基于多核SVM-GMM的短語音說話人識別算法較SVM-GMM算法能得到更好的識別性能和魯棒性。

還有學者從對傳統GMM模型的參數初始化方法進行改進，提出分裂法與K均值聚類相結合的新方法，這種方法對系統的平均識別率也有一定的提高[11]。

高斯混合模型目前仍然在說話人識別系統中較為常用，不過目前相比之下更為常用的是一種通用背景模型UBM，其本質也是一個GMM其目的是為了避免由于實驗室環境下訓練數據不足導致的過擬合。目前對GMM-UBM的改進也是層出不窮，例如有學者將其與SVM結合，在突出說話人特征的同時降低了受信道的影響，結合后的方法互補其不足，在NIST評測中比兩種方法各自形成的系統的識別率有明顯提升。又如還有學者在說話人自適應技術的基礎上，提出了GMM-UBM模型的連續自適應算法，解決了因說話人自身聲學特征的變化導致識別率下降的問題[12]。

（3）i-vector模型：以JFA為基礎，Dehak和Kenny提出了一種更為簡化的基于因子分析（FA）的說話人識別方法，稱為i-vector模型。在近幾年中，i-vector模型以其良好的性能成為說話人識別領域的熱門，盡管是目前最前沿的說話人建模方法，但是它仍有著不足之處，目前最新的研究有：

有學者提出了基于i-vector局部加權線性判別分析的說話人識別方法（LWLDA），用來解決i-vector不能保證樣本在待識別語音近鄰區域內具有最佳的分離度導致的識別率下降的問題。還有學者為了進一步提高識別率，提出了一種鑒別性i-vector局部距離保持映射（DIVLDPP）的流形學習算法，該算法以i-vector間的Euclid距離作為度量準則可以明顯提高目前i-vector說話人識別系統的性能。也有學者對i-vector說話人識別系統提出一種采用語音增強模塊進行前端預處理的方法，以提高系統對于環境噪聲的魯棒性。此外還有專家專門研究探討了基于i-vector的說話人識別系統中訓練時長、男女比例和高斯混合度對系統識別性能的影響，得出i-vector說話人識別算法的最佳參數，為以后的基于i-vector說話人識別算法研究提供數據依據。另外也有專家將i-vector后接SVM并對比了該系統在十種不同核函數下的識別性能，在NIST組織的2010年電話信道-電話信道說話人識別核心評測數據庫上的測試取得了非常好的識別效果。

從以上可以我們可以看到，近年對i-vector方法進行優化增強的研究非常多，并且也取得了非常好的研究成果。但有一點值得提出的是，在眾多研究當中很少有提及與i-vector實際說話人識別系統開發的相關研究，從開發應用的角度來講，這方面確實還可能存在空白或是進一步研究探討的空間。

2.3 人工神經網絡模型

人工神經網絡模型（ANN）的方法，可以在某種程度上模擬人腦神經元的功能，是一種分布式并行處理結構的網絡模型，就有很強的自我組織和自我學習能力。人工神經網絡模型在文本無關的說話人識別中的使用通常有兩種形式：一種是前向神經網絡，另一種是多層前向神經網絡。

近年來學者們對神經網絡的研究不斷深入，使得在說話人識別領域的神經網絡方法開始革新，目前已經有不少學者進行了對深度神經網絡在說話人識別中的應用進行了研究，例如有專家在說話人確認系統中提出一種基于深度神經網絡的信道自適應方法，來解決復雜信道環境下的干擾問題。同時，目前神經網絡方法中最熱門的卷積神經網絡（CNN）在其他領域諸如圖像處理、語音識別等都取得了極好的效果，然而在說話人識別中使用CNN進行研究的幾乎還是一片空白，因此CNN在說話人識別今后的研究中還有很大空間。endprint

2.4 支持向量機

支持向量機（SVM）的方法是Vapnik提出的，目的是改善傳統神經網絡理論學習較弱的情況，SVM是一種泛化能力比較好的分類器，不管在國內還是在國外的識別領域一直到受到廣泛的關注。在近年的研究中，SVM通常與其他識別方法相結合使用，比較常見的是SVM與GMM-UBM結合使用，還有SVM與矢量量化模型結合使用，采用多種識別模式相結合是為了改善單一模式的缺點、克服單一識別模式的不足之處，同時還可以提高識別率。

3 結語

如今，說話人識別的研究問題主要集中在語音中的信息與說話人的個人特征的區分、怎樣能更好的表示說話人個性的特征參數、怎樣更有效的利用特征參數之間和識別模型之間的互補性，以及如何加強對信道畸變產生的噪聲進行處理等等。可以說說話人識別領域還依然存在著很大的發展空間，相關算法模型依然還可以進一步改進，說話人識別也將會在未來實際問題的應用中有更廣闊的前景。

參考文獻

[1]鄭方，李藍天，張慧，等.聲紋識別技術及其應用現狀[J].信息安全研究，2016， 2（1）：44-57.

[2]Campbell J P. Speaker recognition： a tutorial. Proceedings of the IEEE，1997，85（9）：1437-1462.

[3]郭春霞.說話人識別算法的研究[J].西安郵電大學學報，2010，15（5）：104-106.

[4]單燕燕.基于LPC和MFCC得分融合的說話人辨認[J].計算機技術與發展，2016（1）：39-42， 47.

[5]王萌，王福龍.基于端點檢測和高斯濾波器組的MFCC說話人識別[J].計算機系統應用，2016（10）：218-224.

[6]胡政權，曾毓敏，宗原，等.說話人識別中MFCC參數提取的改進[J].計算機工程與應用，2014，v.50；No.806（7）：221-224.

[7]楊迪，戚銀城，劉明軍，等.說話人識別綜述[J].電子科技，2012，v.25；No.273（6）：166-169.

[8]張永亮，張先庭，魯宇明.基于FMFCC和HMM的說話人識別[J].計算機仿真，2010，27（5）：352-354.

[9]徐惠紅.優化的HMM算法在文本相關的說話人識別中的研究[J].微型機與應用，2010，29（2）：69-70.

[10]林琳，陳虹，陳建，等.基于多核SVM-GMM的短語音說話人識別[J].吉林大學學報（工學版），2013，v.43；No.166（2）： 237-242.

[11]蔣曄，唐振民.GMM文本無關的說話人識別系統研究[J].計算機工程與應用，2010，46（11）：179-182.

[12]張正平，張麗娜，賀松.基于GMM-UBM說話人模型的連續自適應算法研究[J].通信電源技術，2016，33（2）：81-83.endprint