聲紋識別在開放儀器管理中的應用

2015-11-19 09:17:10賴麗旻洪青陽

華僑大學學報(自然科學版) 2015年5期

賴麗旻，洪青陽

（1.廈門大學環境與生態學院，福建廈門361005；2.廈門大學信息科學與技術學院，福建廈門361005）

為了提高科研經費的使用效益，貴重儀器一般對外開放，共享使用.由于時間和精力限制，儀器管理員很難對儀器監管到位，機時統計不真實，儀器故障率高.為了規范化管理儀器，降低儀器的故障率，需要在儀器周邊安裝攝像頭進行監控.但外加設備成本較高，且受限于攝像頭的安裝位置，往往難以拍攝到所需的畫面.因此，需要發展一種能有效識別儀器使用者，并記錄儀器使用機時和使用狀況的管理系統.傳統的方式是通過賬號識別儀器使用者，但賬號容易被人借用，存在較大的管理漏洞［1］.為確保身份的唯一性，更有效的方式是采用生物特征識別技術.聲紋識別也稱說話人識別［2－4］，由于每個人的聲帶震動頻率不同，聲道結構不同，再加上發音習慣不同，組合形成了各具一色的聲紋特征.不同人說同樣的話，對應的語譜圖也會不一樣.因此，可用來比對兩段語音的同一性，即是否來自同一人.聲紋采集方便、硬件成本低、用戶容易接受，因此，得到越來越多的應用.本文將聲紋識別技術應用到儀器管理中，并創造性地采用語音動態口令，達到防錄音冒充的效果.

圖1 系統結構圖Fig.1 System structure diagram

1 基于聲紋識別的儀器管理系統

大部分貴重儀器是通過計算機上的工作站控制，在計算機上加入聲紋識別系統，控制儀器軟件的開啟，以達到只有通過審核的人才能使用儀器的目的.用戶無需任何其他設備，直接采用電腦麥克風錄音，進行聲紋采集.系統結構圖，如圖1所示.

利用聲紋的唯一性確認儀器用戶身份，實現無人監管.電腦麥克風可設置比較高的采樣率，并可持續錄音，使送到驗證服務器的聲紋信息最大限度地不失真，這樣聲紋驗證更可靠.對于部分沒有連接計算機的儀器，可通過增加聲紋識別模塊，控制儀器電源的開關，從而達到控制儀器使用的目的.基于聲紋識別技術的共享儀器平臺管理系統，具體包括以下5個步驟.

步驟1聲紋登記.用戶通過儀器培訓后，在儀器管理員監督和指導下，通過麥克風錄音，朗讀計算機屏幕上的文字，進行聲紋特征值的采集.達到有效時長后，提示用戶錄音結束，系統檢測語音合格后，登記該聲紋模型，屏幕顯示聲紋登記成功.

步驟2用戶開啟儀器工作站時，自動啟動聲紋驗證程序.用戶通過麥克風朗讀屏幕上的文字，達到有效時長后，提示用戶錄音結束.

步驟3系統判斷用戶聲紋是否與登記聲紋模型一致，識別用戶身份是否為授權用戶.

步驟4已授權用戶，儀器可正常啟動，用戶正常使用儀器，后臺記錄用戶信息和統計機時.

步驟5若用戶為非授權用戶，儀器則不能正常啟動，用戶無法使用該儀器.用戶可聯系儀器管理員，告知存在的問題.

2 基于GMM-HMM 算法的聲紋識別系統

2.1 基本原理

聲紋識別是一個模式識別過程，其基本原理如圖2所示.首先對目標說話人的語音特征提取；然后進行聲紋建模，驗證語音也要經過特征提取，才能進行聲紋比對；聲紋比對得分與事先設定的閾值比對，最后得到驗證結果.圖2 是一個典型的模式識別過程，關鍵是聲紋特征要與語音信號建立一一對應的關系.如果語音信號包含噪聲等雜音，則還需進行降噪等前端處理.后端模型用來刻畫聲紋的統計分布，比較通用的是采用高斯混合模型（Gaussian mixture model，GMM）［5－6］.

GMM 通過若干個高斯概率密度函數的線性組合逼近任意分布，從而模擬出各種形式的語音特征分布，以區分不同的說話人.GMM 能很好地刻畫參數空間中訓練數據的空間分布及其特征，并且具有簡單高效的特點，已廣泛應用于與文本無關的聲紋識別系統.

為解決錄音冒充問題，進一步結合隱馬爾可夫模型（hidden Markov model，HMM）［7］，采用一種語音動態口令的建模和驗證方法［8］，把聲紋識別和語音識別技術更好地融合在一起，使得身份認證系統更加可靠.

圖2 聲紋識別基本原理Fig.2 Principle of voiceprint recognition

2.2 聲紋建模過程

系統依據說話人的訓練語音，進行語音預處理，提取說話人特征，并通過相應的建模算法，生成聲紋模型.聲紋動態口令系統訓練模型所需要的語音是N段文本內容不同的短語音，一般取3至5段.訓練過程，如圖3所示.用戶錄完的語音，將被訓練成與該用戶相關的聲紋模型（包括說話人模型和語音模型）.其中，說話人模型為GMM 模型，采用最大后驗概率（MAP）方法［6］，由全局背景模型（UBM）自適應而來.具體實現時，只需要自適應均值參數，即

式（1）中：i是UBM 所包含的每個高斯函數對應的索引；Ei（x）為自適應數據x的均值期望；μi為原始UBM 的均值；為自適應后得到的均值；β為調節系數.

語音模型采用隱馬爾可夫模型.基于HMM 的通用語音識別器，也可實現自適應訓練，變成與目標說話人相關的特定識別器，如圖4所示.

圖3 聲紋建模過程Fig.3 Modeling process of voiceprint

Hong等［8］采用單音子（monophone）模型，沒有考慮音素的上下文關聯，一定程度上會導致識別率的下降.而文中進一步采用了三音子（triphone）模型，使聲韻母之間的關聯性也能得到建模.經過重新組合［7－8］，采用的三音子模型（不考慮yi和yao）包括sil，＋i＿one，s－i＿one，sp，s＋an，san，＿w＋u，＿w－u，q＋i，q－i，b＋a，b－a，l＋ing，l－ing，j＋iou，j－iou，＿e＋er，＿e－er，l＋iou，l－iou.

圖4 HMM 自適應訓練Fig.4 Adaptation of HMM

2.3 聲紋驗證過程

在驗證階段，聲紋系統根據說話人的語音，判決說話人是否為其所申明的身份（identity claimed）.這個階段有2個輸入信息，即說話人的語音和其所申明的身份信息.首先，系統對語音進行預處理；然后，提取聲紋特征，將其與對應的聲紋模型進行模式匹配；最后，判決這段語音是否屬于該說話人.

在文中方法里，聲紋驗證過程是個融合的過程.輸入語音經特征提取后，分別進行基于HMM 的語音識別和基于GMM 的聲紋確認，得到相應的語音識別得分和聲紋確認得分.基于HMM 的語音識別，是根據提示文本，產生相應的受限語法.如數字串“43825769”，其對應的受限語法如下

＄digit1＝si；

＄digit2＝san；

＄digit3＝ba；

＄digit4＝er；

＄digit5＝wu；

＄digit6＝qi；

＄digit7＝liu；

＄digit8＝jiu；

（SENT－START［＄digit1］［＄digit2］［＄digit3］［＄digit4］［＄digit5］［＄digit6］［＄digit7］［＄digit8］SENT－END）

其中：＄digit1表示第一個數字；si對應數字4；括號里的SENT－START 是句子的開頭；SENT－END 是句子的結尾；［＄digit1］［＄digit2］［＄digit3］［＄digit4］［＄digit5］［＄digit6］［＄digit7］［＄digit8］表示只能識別為8個數字.

基于以上受限語法，采用Viterbi解碼算法［7］，就可得到語音識別得分.由于受限語法是與提示文本關聯的，也就是相當于為文本內容建立了對應的語言模型.如果用戶故意說別的數字串，或用錄音設備錄制回放別的數字串，則正確識別到的數字個數就很少，識別得分也會很低.因此，該方法可起到內容鑒別的作用，有效避免錄音冒充.

系統融合得分計算，表達為

式（2）中：SF為系統融合得分；SASR為基于HMM 的語音識別得分；SVPR為GMM 的聲紋確認得分；α是調節系數，可根據實際應用調節.

聲紋驗證過程，如圖5所示.由圖5可知：系統融合得分將與預設閾值比對，超過閾值則表示接受通過，未超過則予以拒絕.閾值可根據實際應用做調整.

圖5 聲紋驗證過程Fig.5 Verification process of voiceprint

3 結果與分析

進行了兩組語音動態口令實驗.一組在辦公室進行聲紋的登記和測試，采集對象以年輕人為主.說話人與麥克風之間的距離在0.3～1m 之間，以說話人感覺舒適為度.采樣率為8K，量化位數為16bit.樣本總共20人，每人錄音20句以上，隨機抽取16句作為登記，其他剩下的作為本人認證測試，不同人之間進行交叉測試.測試結果，如表1所示.表1中：RFR表示錯誤拒絕率，即本人認證被拒絕的比例；RFA表示錯誤接受率，即他人冒充通過的比例.

表1 語音動態口令的測試結果Tab.1 Experimental results of speech dynamic password

從表1可以看出：RFR為2.55%，即本人通過率為97.45%，說明本文系統對真實用戶通過率較高，已可滿足應用需求；RFA為0.63%，即他人冒充通過的可能性低于1%，說明文中系統具有很強的防冒充能力，能有效地保證貴重儀器的安全管理.有文獻［9］報道基于指紋識別的開放式儀器管理系統，RFR為2.50%，RFA為1.11%.

第2組實驗數據是在比較復雜的環境下采集的.采集環境可能在辦公室、馬路邊、商場、家里等地方，以模擬各種噪聲背景.樣本總共30人，每個人用智能手機采集8個隨機數字，登記語音5遍，驗證語音3遍以上.采樣率為16K，量化位數為16bit.本人測試149次，冒充測試7 305次.實驗結果采用DET 曲線［10］繪制，如圖6所示.圖6中：RFA為錯誤接受率；RFR為錯誤拒絕率.圖6中：曲線越靠近零點表示識別效果越好；曲線與對角線的交叉點是等錯誤率（REE，即RFA與RFR相等的地方）.由圖6可知：三音子模型明顯優于單音子模型，三音子的REE約為1%.

與文獻［9］方法相比，在本人通過率相差不大的情況下，文中方法的他人冒充通過率更低.考慮到指紋識別的開放式儀器管理系統需要部署指紋采集儀，成本較高，因此，文中方法具有較高的性價比.

文中方法將基于傳統模型GMM 和HMM的聲紋識別技術有機地結合起來，應用到實際系統中，實現內容＋身份的識別，而不是簡單的GMM 身份識別.尤其采用了8 個數字隨機動態口令，非法用戶無法通過錄音冒充通過，有效地提高了儀器管理的安全性.

在實際應用中，聲紋采集時，操作是否規范直接影響聲紋識別效果.因此，需要儀器管理員在現場指導.這樣，一方面提高聲紋采集樣本的質量；另一方面，從源頭防止冒充他人使用儀器的可能.

圖6 聲紋驗證結果Fig.6 Verification results of voiceprint

4 結束語

在貴重儀器現有的工作站系統內加入聲紋識別部分，通過聲紋識別判定儀器使用者的身份［11］，并從后臺記錄儀器使用機時，有利于儀器的規范化管理，防止儀器使用者漏登記機時.通過測試發現，語音動態口令的效果很好，錯誤接受率低于1%，可有效防范冒充，保證了系統的可靠性.

［1］王云平.國外大學實驗室管理及其對國內開放實驗室的啟示［J］.實驗技術與管理，2010，27（3）：149－151.

［2］HONG Q Y，KWONG S.Discriminative training for speaker identification based on maximum model distance algorithm［C］∥IEEE International Conference on Acoustics，Speech，and Signal Processing.Montreal：IEEE Press，2004：25－28.

［3］張彩紅，洪青陽，陳燕.基于GMM－UBM 的說話人確認系統的研究［J］.心智與計算，2007，1（4）：420－425.

［4］陳燕，洪青陽，張彩虹.聲紋識別在司法身份鑒定中的應用［J］.心智與計算，2008，2（1）：1－7.

［5］REYNOLDS D A.Speaker identification and verification using Gaussian mixture speaker models［J］.Speech Communication，1995，17（1／2）：91－108.

［6］REYNOLDS D A，QUATIERI T F，DUNN R B.Speaker verification using adapted Gaussian mixture models［J］.Digital Signal Processing，2000，10（1／2／3）：19－41.

［7］韓紀慶，張磊，鄭鐵然.語音信號處理［M］.北京：清華大學出版社，2004：200－213，239－241.

［8］HONG Qing－yang，WANG Sheng，LIU Zhi－jian.A robust speaker－adaptive and text－prompted speaker verification system［J］.Lecture Notes in Computer Science，2014，8833：385－393.

［9］盧暢.基于指紋檢測識別的開放式實驗室管理系統研究與設計［J］.實驗室研究與探索，2013，32（12）：211－215.

［10］DODDINGTON G R，PRZYBOCKI M A，MARTIN A F，et al.The NIST speaker recognition evaluation：Overview，methodology，systems，results，perspective［J］.Speech Communication，2000，31（2／3）：225－254.

［11］DEHAK N，KENNY P，DEHAK R，et al.Front－end factor analysis for speaker verification［J］.IEEE Transactions on Audio，Speech，and Language Processing，2011，19（4）：788－798.