卜 禹 陸璐璐
(江蘇科技大學計算機學院 鎮江 212000)
隨著音視頻處理技術的不斷進步,利用音視頻特征融合技術進行說話人識別成為了說話人識別領域的研究熱點。在當代社會,身份識別的重要性越來越為人們重視,利用人的聲音、面部、虹膜等生理特征以及筆跡、步態等行為特征來進行身份鑒別,具有真實、穩定等特點[1]。利用單一模態進行說話人識別存在許多不足,如易受干擾,準確率波動大,魯棒性差。然而人們在實際判斷一個說話人時,聲音和圖像都是重要依據,往往根據兩者的信息進行綜合判斷,即利用說話人多模態特征進行信息融合,為我們的判斷提供依據[2~3]。說話人識別方法也可以借鑒這一信息融合策略。
目前信息融合分為三個層面,數據層面融合、特征層面融合、決策層面融合[4~5],在特征層面融合,充分利用了不同模態的原始信息,對音視頻兩種特征進行優化融合,既保留了兩者有效的鑒別信息,又消除了它們之間的冗余信息,性能最好[6]。
本文在特征級層面,利用深度信念網絡(deep beliefnetwork,DBN)對音頻信息進行處理,提取出音頻特征,利用卷積神經網絡(convolutional neural network,CNN)進行圖像處理,提取出圖像特征。孫權森[7]等率先將典型相關分析(canonical correlation analysis,CCA)方法用于特征融合。文孟飛[8]等提出了一種基于典型相關分析的異構多模態特征融合的目標識別方法。但典型相關分析方法不能精確地提取多模態特征之間的非線性相關關系,它是一種線性的特征提取方法,不能充分利用說話人非線性信息,語音特征和圖像特征之間的融合恰好是典型的非線性特征融合。為了解決此問題,本文提出一種基于深度學習及核典型相關分析(kernel canonical correlation analysis,KCCA)的異構多模態特征融合說話人識別方法。
本文使用BANCA數據庫對算法進行了實驗,并和基于單一模態以及CCA的方法進行了對比,實驗結果表明基于深度學習和KCCA的多特征融合說話人識別方法優于基于單一模態特征和CCA的方法,能顯著提高說話人識別的準確率。
深度信念網絡(Deep Belief Network,DBN)是深度神經網絡的一種代表模型,是深度學習和人工神經網絡不斷發展并結合的產物。DBN由許多層的受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)堆放疊加構成,逐層訓練,其中每層都是捕捉底層隱藏特征的一個高階相關過程,然后對權重和偏置等參數進行反向傳播(BP)調整。
DBN的訓練過程分為兩個階段[9]:第一階段是無監督預訓練,傳統的神經網絡都是隨機初始值,深度神經網絡采用無監督特征學習的方法預先學得一部分初始值,不僅縮短了后期參數調整時間,而且讓大多數參數到達最優值附近,更有利于參數調整。DBN網絡是在RBM的基礎上搭建,逐層訓練,對連接權重以及節點偏置等參數進行訓練。其中,受限玻爾茲曼機(RBM)[10~11]是具有雙層結構的隨機神經網絡模型,主要由可視層(v層)和隱藏層(h層)所組成,其層與層之間通過權值全連接,而層內無連接,其結構如圖1所示。根據CD-k算法[12],首先將v層輸入矢量通過網絡權重映射到h層輸出矢量,之后對h層輸出矢量進行Gibbs[13]采樣,并利用所得到的采樣結果重建v層目標矢量,最后將這些新的v層矢量再次進行映射,得到新的h層輸出矢量,反復執行以上過程,進行k步交替采樣完成對模型分布數學期望的近似,由低到高逐層訓練每個RBM,使模型得到一個較優的初始參數值;第二階段是有監督微調,利用帶標簽的訓練樣本計算誤差,通過誤差反向傳播(BP)算法對DBN性能進行優化調整。

圖1 受限玻爾茲曼機結構圖
一個典型的含有兩隱藏層DBN的訓練過程如圖2所示。
線性預測倒譜系數(LPCC)反映了說話人的聲道特性,但它對噪聲比較敏感。人耳之所以能夠從聽到語音信號中辨別出說話人的身份,是因為人耳對不同頻率的敏感程度不同,梅爾頻率倒譜系數(MFCC)正是利用了人耳聽覺對頻率的非線性特性,在含有噪聲環境中比LPCC具有更好的魯棒性。本文把線性的LPCC與非線性的MFCC兩種方法融合起來,得到線性預測梅爾倒譜系數[14](LPCMCC),該參數既能表征聲道特征,還考慮到了人耳聽覺特性,可以更好地描述說話人的聲紋特征,具有較好的魯棒性,更適合用于聲紋辨別。因此本文將線性預測梅爾倒譜系數輸入DBN模型中進行無監督預訓練和有監督微調。
卷積神經網絡(Convolutional Neural Network,CNN)是從生物學當中演變而來。HUBEL[15]等在20世紀60年代探究貓腦皮層中用于選擇方向和局部敏感的神經元時,發現它擁有的奇特網絡結構能夠非常有效減地少反饋神經網絡的復雜成度,繼而提出CNN。
一般地,CNN的基本結構包括兩層[16]。一層是特征提取層,每一個神經元的輸入部分和前一層的部分接受域進行連接,并且提取其特征。一旦提取了該局部特征后,它和其他特征間的位置關系也將被確定。另一層是特征映射層,多個特征映射組成網絡的每個計算層,而每一個特征映射平面上所有神經元的權值都相等。特征映射結構,采用的是sigmoid函數作為卷積網絡激活函數,所以能夠使得特征映射具有位移不變特性。除此之外,網絡自由參數的減少得益于一個映射面上的神經元權值共享。卷積神經網絡中,每個卷積層都緊跟著兩次提取特征的獨有結構,一個用于求局部平均和二次提取的計算層,這種結構減小了特征分辨率。具體的結構圖如圖3所示。

圖3 卷積神經網絡多層卷積運算和采樣過程圖
本文將視頻幀輸入到CNN模型進行模型訓練并提取待識別視頻幀的最高隱層特征。
1936 年,Hotelling[17]提出了研究兩組變量之間相關關系的一種多元統計方法,典型相關分析,它能夠揭示出兩組變量之間的內在聯系。

典型相關的基本思想即是找X(1)、X(2)的一組線性函數,以使得它們的相關系數達到最大。若存在常向量,在的條件下,使得達到最大,則稱是的第一對典型相關變量。求出第一對典型相關變量以后,能夠類似地求出各對之間互不相關的第二對、第三對等典型相關變量。這些典型相關變量就反映了X(1)、X(2)之間的線性相關情況。
通常當我們發現特征的線性組合效果不夠好或者兩組集合關系是非線性的時候,會做出改進嘗試核函數方法[18]。語音特征和圖像特征之間恰好是典型的非線性特征關系。核典型相關分析,其基本思想是將原始空間的樣本通過一個非線性映射映射到一個特征空間,進而在特征空間利用線性相關分析算法,隱含地實現了原始空間非線性問題的求解。


其中:

核矩陣中心化對訓練樣本進行零均值化:

KCCA的目標是尋找投影方向αφ和 βψ,使得如下準則函數式最大:

向量αφ位于樣本張成的空間,根據核再生理論,則存在N維向量ξ使,同理,存在 N 維向量 η使得 βψ=,帶入式(8)中得到:

為防止產生沒有意義的典型相關向量,需要引入正則項對式(9)進行約束:

式中,0≤τ≤1。因此,KCCA轉化為關于ξ,η的約束優化問題,目標函數為

約束條件:

利用拉格朗日乘數法求解上述帶約束的極致問題,則相應的拉格朗日方程為

式中,λ1和λ2為拉格朗日乘數。

從而,KCCA等價于求解如下廣義特征方程對應的特征向量問題,即

求解出ξ,η,提取 X(1)和 X(2)之間的非線性相關特征:

式中,u和v是變換后的特征分量。
將其線性變換:

得到投影后的組合特征,用于后續的說話人識別的建模與分類。
K近鄰算法(k-Nearest Neighbor,KNN)具有精度高、對異常值不敏感等優點[19]。算法如下:
Step1:計算已知類別數據集中的特征融合向量與當前特征融合向量Z之間的距離;
Step2:按照距離遞增排序;
Step3:選取與當前特征融合向量Z距離最小的k個特征融合向量Z1,Z2,…,Zk;
Step4:確定前k個特征融合向量所在類別出現的概率;
Step5:返回前k個特征融合向量出現頻率最高的類別作為當前特征融合向量預測分類。
待識別融合特征向量Z的K個近鄰分別為Z1,Z2,…,Zk,那么KNN的分類判別函數為
完整的基于深度學習以及KCCA的多特征融合說話人識別方法整體架構圖如圖4所示。將語音片段經過預處理得到的線性預測梅爾倒譜系數(LPCMCC)特征以及視頻幀分別輸入到DBN和CNN模型,兩個模型分別逐層提取線性預測梅爾倒譜系數以及視頻幀的特征,將提取的兩個模型的最高隱層特征利用KCCA方法進行特征融合,將融合后的特征輸入到KNN分類器得到說話人識別結果。
本文選用BANCA[20]數據庫作為實驗數據來源,該數據庫以人面部圖像和聲音兩種模式用四種歐洲語言拍攝,拍攝時使用高質量的麥克風和攝像機。被拍攝者在三個月的12個不同時間段內在三種場景下接受錄制,共拍攝了208人,其中男女比例各占一半。每種語言52個志愿者,其中26男26女,每人錄制12段音視頻,平均每段視頻長約20秒。視頻包含志愿者隨機說的12個數字、他們的名字、地址及出生日期。本文實驗環境配置如表1所示。
核函數的選取對KCCA的識別結果特別重要,當前常用的核函數有高斯核函數、多項式核函數、分數冪多項式核函數等。表2是不同訓練樣本個數情況下各核函數的平均識別率。由表2可知在不同訓練樣本情況下,高斯核函數具有最高的識別正確率,因此,本文選取高斯核函數作為KCCA的核函數進行特征融合。
高斯核函數為


表2 不同核函數平均識別率比較
為了說明基于KCCA的多特征融合說話人識別方法的有效性,將其與基于單一模態的DBN網絡和CNN網絡算法以及未改進的CCA融合算法進行對比。在每個被測試對象的12段視頻中選取其中8段作為訓練組,4段作為測試組,對比結果如表3所示。由表3可以看出基于KCCA的多特征融合說話人識別方法比基于單一模態的神經網絡架構的說話人識別結果有了顯著提高,而基于CCA的多特征融合說話人識別方法結果提高并不明顯,這是因為說話人面部特征和音頻特征的特征空間上存在著非線性相關關系,而CCA是一種線性特征提取方法,對非線性特征信息利用較少,不能提取不同特征之間的非線性相關關系。而KCCA特征融合方法提取了兩者的非線性相關特征,既進行了信息融合又去除了特征間冗余信息,可以取得較高的識別率。

表3 基于BANCA數據庫的不同算法結果比較
本文針對傳統說話人識別方法中只利用單一模態進行說話人識別準確率低、魯棒性差的問題以及CCA特征融合算法無法充分提取非線性特征相關關系的缺點,提出了一種基于深度學習及核典型相關分析的多特征融合說話人識別方法。本方法在特征級融合層面上結合DBN和CNN分別處理說話人的音頻和視頻信息,利用KCCA將兩種網絡提取的音頻和圖像特征進行融合,融合的特征送入KNN分類器進行識別。最后在BANCA數據庫上的實驗結果表明該方法的準確率較傳統方法有了極大的提升,驗證了方法的有效性。