劉傳忠 惠州75240部隊
聲紋識別,是一種基于生物特征的身份識別技術,由計算機利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數來自動識別說話人身份的技術。
聲紋,是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產生是人體語言中樞與發音器官之間一個復雜的生理物理過程,人在講話時使用的發聲器官——舌、口腔、喉頭、聲帶等在尺寸和形態上每個人的差異很大。因此,在一般情況下,人們能夠區別不同人的聲音。
聲紋識別技術通過對采集到的聲音和已知聲音進行聽覺和頻譜兩方面特征的比對鑒別和綜合分析,確定二者是否來之同一聲源(即同一個人的聲音),從而識別說話者的身份。聲紋識別系統一般包括語音信號的預處理、特征提取、說話人模型的建立和模型參數訓練等幾個方面。
混合高斯-通用背景模型(GMM-UBM)是目前普遍采用的比較成熟的聲紋識別模型,通過對大量訓練語音特征數據的統計分布進行描述,可以較好地刻畫說話者不同情況下的特點,使系統具有良好的魯棒性。
基于GMM-UBM的聲紋識別系統分為訓練過程和識別過程兩部分。在訓練過程中,主要是為每個說話人建立模型。先采集大量的語音數據,經過預處理,然后提取特征參數,用期望最大化算法(EM)訓練為每一位說話人確定一組UBM模型參數,并存儲在數據庫中。在識別過程中,用目標說話人的測試語音進行特征參數提取,然后與數據庫中的說話人模型進行匹配,由UBM自適應得到目標說話人對應的模型,從而識別目標說話人的身份。 測試過程如圖1所示:

圖1 基于GMM-UBM的聲紋識別系統原理圖
近年來人工智能技術有著不斷的發展,深度學習在機器學習領域取得了巨大的成功。與此同時,深度學習在語音識別的應用已經成為一個熱門的研究方向。基于深度神經網絡(DNN)的聲學模型逐漸替代了混合高斯模型(GMM)成為語音識別聲學建模的主流模型,并顯著地提高了聲紋識別的準確率。但是深度學習技術的應用需要大量的數據支持,對硬件的運算能力也有很高的要求。
計算機、互聯網技術的不斷革新,為軍隊信息化建設提供了有力的技術支持。聲紋識別技術目前已經在軍事領域,特別是軍事間諜和反間諜手段上得到了廣泛的應用。
運籌帷幄之中,決勝千里之外。在現代戰場,不同層級的指揮員可能相隔幾十公里到上千公里,不能以面對面的方式下達命令,如何保證發出指揮命令的說話人就是指揮員本人,是身份識別技術需要解決的問題。以聲紋識別為代表的基于生物特征的身份識別技術,是在信息化的軍事指揮行動中確認指揮員身份的有效方法。如果說話人聲稱自己是某個指揮員,那么他的聲音就被用來驗證這個過程。這時身份驗證是一對一的驗證過程,首先從數據庫中調用該指揮員的模型參數,然后與說話人的聲音進行匹配計算,從而識別說活人是否是該指揮員。避免敵方間諜侵入我軍指揮信息系統,發送假命令擾亂我軍行動。
在通信指揮網絡中,聲紋識別也常常用于防止入侵安全系統。許多核心涉密場所和設備,可以在普通的加密手段上,增加聲紋識別功能,提供身份信息多重交叉驗證,進一步增強系統的安全性。
聲紋識別系統對敵方指揮員進行身份確認,主要用于電話偵聽工作。1966年車臣叛軍頭目杜達耶夫使用衛星電話被俄情報部門偵聽到,并鎖定了他的具體位置。俄軍戰斗機立即向目標發射兩枚導彈將其擊斃。2013年斯諾登曝光的美國國家安全局“棱鏡”項目,指認美國情報機構多年來在國內外持續監視互聯網活動以及電話通信。其中,包括20國峰會上俄羅斯時任總統梅德韋杰夫打往莫斯科的衛星電話。以計算機為核心的電話偵聽系統能夠實時監聽固定電話網絡、移動電話網絡和IP電話網絡中特定對象的語音通信。通過聲紋識別技術可以自動對大量的電話語音進行辨認,提取通話人的聲紋特征,與目標人物的模型參數進行匹配,以此查詢通話人身份。對重要人物的交談內容進行記錄和處理,搜集相關的軍事情報。一旦判明說話人的身份,還可以結合全球定位技術,鎖定目標人物,實施精確打擊。
確認敵方指揮員的身份,難點在于獲取敵方指揮員的聲紋特征,需要事先采集到目標人物的真實語音用于系統的訓練過程。
在信息化時代,沒有絕對安全的網絡,任何技術上的進步都會給信息安全帶來新的挑戰。包括聲紋識別在內的生物特征識別的安全隱患在于,一旦生物特征信息在數據庫或網絡傳輸中被間諜盜取,敵人可以執行某種身份欺騙攻擊,并且攻擊對象會涉及所有使用生物特征信息的設備,給整個指揮信息系統的安全帶來極大的威脅。
一方面,我們可以通過嚴格的保密制度和專業化的管理,充分利用新技術的同時防止敵方間諜的破壞,將潛在的危險降到最低。另一方面,隨著人工智能技術的興起,機器學習理論研究的深入,新的算法應用于聲紋識別,處理后的聲紋特征信息已經面貌全非,不易被人類解讀,難以獲取原始的說話人特征。
在網絡化、智能化的時代,部隊信息化建設日新月異,傳統的身份識別技術由于安全和效率方面的原因已經不能滿足未來戰場環境,需要更加安全便利的身份識別手段,以聲紋識別為代表的生物特征識別技術,在進一步發展成熟后,可以作為指揮員身份確認的主要手段。聲紋識別技術的民用產品也不斷推出,普遍用于刑事偵查、安全防范、電子銀行等領域,有著良好的軍民融合發展前景。
[1] 趙力.語音信號處理[M].北京:機械工業出版社,2003.
[2] Reynolds D A,Thomas F. Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing,2000, 10(1-3):19-41.
[3] 戴禮榮,張仕良.基于深度學習的語音識別技術現狀和展望[A].數據采集與處理,2017,2(3):221-231.