肖 劍 李思卓 董 威 李清華 胡 芳
(長安大學電子與控制工程學院 西安 710064)
生物識別技術是根據個體的生理和行為屬性(如指紋、面部、聲音、步態等[1])進行身份識別的方法。目前常用的生物特征識別技術要么識別度不高,要么容易被竊取,要么識別成本高得讓人望而卻步。因此利用心電信號(ElectroCardioGram,ECG)以及光電容積脈搏波(PhotoPlethysmoGraphy,PPG)信號這兩種生物特征的識別方法受到了想要改進目前生物識別技術的專家學者的關注,基于ECG和PPG信號的身份識別技術具有識別度和安全性高、成本低等特點,并且ECG與PPG信號滿足用于身份識別的生物特征4大要求:(1)普遍性;(2)唯一性;(3)穩定性;(4)可測量性。但在現實應用場景中,單一的生物識別系統存在若干問題,例如感測數據中的噪聲、信號特征的類內變化、類間相似性、非普遍性和欺騙攻擊等,都會對生物識別的準確性產生影響。
為了解決上述問題,研究人員著眼于多生物特征融合技術。信息的融合可以發生在特征級別、匹配級別以及決策級別[2—4]。匹配層的實現難度較小,融合中有一定量的特征信息,因此關于匹配層融合較為流行;決策層融合不關注特征的細節,而是將各自的輸出按照一定的規則進行判斷輸出;特征層融合[5,6]存在特征不兼容的情況,融合難度較高,但是特征層的特征集包含豐富的生物特征數據信息,這些信息并不會在匹配層和決策層輸出。因此,使用多特征融合技術用來提高生物識別的準確性成為科研人員的方向。
Gupta[7]提出了一種多融合系統,包括掌紋、掌背靜脈和手部幾何形狀作為特征進行融合,采用串行匹配層融合方法,提高了系統的準確性和識別時間。Hammad等人[8]第1次利用卷積神經網絡對心電信號和指紋進行融合識別,實驗表明該文作者所提出的多模態系統比現有的多模態認證系統更加高效。Arteaga-Falconi等人[9]利用決策級融合方法對ECG和指紋進行融合識別,在等錯誤率方面有所改善。Bashar[10]對心電和腦電特征在特征級進行融合,與單個信號特征相比,融合效果有顯著提高。楊宜蒙[11]提出了融合ECG信號與PPG信號的識別方法,作者從時域和頻域中提取了ECG信號和PPG信號的生物特征,采用逐步篩選法和D-S證據理論進行融合,證明了將ECG信號與PPG信號融合的可行性。但是大部分的實驗并沒有考慮類內相關性對識別精度的影響,并且存在識別精度不高的問題。
本文在研究多模生物信號識別的基礎上,深入探討了判別相關性分析,提出了一種ECG信號與PPG信號特征層融合以及決策級K-最近鄰(KNearest Neighbor,KNN)和支持向量機(Support Vector Machines,SVM)分類器融合的識別模型。該系統克服了單個系統的局限性,增加了對類內相關性的討論,提高了整個系統的性能并增強了安全性。本文首先對心電和光電容積脈搏波信號進行預處理,采取巴特沃斯濾波器以去除信號中的噪聲,利用小波變換獲得可以用來融合分類的特征矩陣,再將兩組初始特征矩陣進行組合,并利用判別相關分析(Discriminant Correlation Analysis,DCA)算法進行特征融合與提取,最后使用融合后的分類器完成身份識別。實驗結果表明,本融合模型有效提高了身份識別的準確性,為多模生物身份識別提供了新模型。
近些年基于典型相關分析[12](Canonical Correlation Analysis,CCA)的特征融合分析引起多模態識別領域的關注,基于CCA的特征識別融合是使用兩組特征之間的相關性來進行特征向量變換,使得變換的特征具備兩個特征集的最大相關特性,且在每個特征集內部是不相關的[13—17]。
假設X∈Rp×n和Y∈Rq×n表示兩個矩陣,每個矩陣包含來自兩個不同模態的n個訓練特征向量,令Sxx∈Rp×p和Syy∈Rq×q表示X和Y的內集協方差矩陣,Sxy∈Rp×q表示集合之間的協方差矩陣。CCA的目的在于找到線性組合X*=,最大化兩個特征集之間的相關性,求解特征,找到變換矩陣Wx和Wy

然而這兩個特征向量之間的相關性不一定遵循同一模式,從而使得該矩陣獲得這兩組特征向量之間的關系較為困難,如文獻[18]所定義,CCA通過連接或求和特征向量進行特征級融合

其中,Z1和Z2稱為典型相關判別特征(Canonical Correlation Discriminant Features,CCDF)。
上述特征融合方法存在兩個問題,第1個問題是在樣本數量小于特征數時(n<p或n<q),協方差矩陣Sxx和Syy奇異且不可逆,解決該問題的方法是在應用CCA融合數據前先降低特征向量的維數,故采用兩階段線性判別分析(Linear Discriminant Analysis,LDA)+CCA的方法。第2個問題是CCA對類內數據進行去相關處理,導致模型對樣本中的類結構不敏感,但在分類識別中分離類是有必要的。基于LDA的降維方法通過找到能夠區分開類別的投影解決該問題,但由于第1階段LDA得到的特征不會在第2階段CCA經過轉換后保留,因此兩階段LDA+CCA將不是有效的解決方案。
而本文不僅需要最大化兩個特征集之間的成對相關性,而且需要同時分離每個特征集內的類,因此提出通過判別相關分析法作為解決方案。
判別相關分析(Discriminant Correlation Analysis,DCA)是由Haghighat等人[19]在2016年首次提出,在人臉虹膜和指紋等數據集上取得了很好的效果,它是一種特征層融合技術,也是第1個在特征融合中考慮類結構的技術。該方法是用于最大化兩個特征集上對應特征的相關性,以及屬于每個特征集內的不同類的去相關特征,目的是消除類間相關性,并將相關性限制在類中。此外,它具有非常低的計算復雜度,可以用于實時應用。
本文采用DCA方法最大化兩個特征集中的成對相關性,同時在相關性分析中加入類結構,如下所述:
假設數據矩陣中的樣本是從單獨類中采集的,數據矩陣的n列可以分為多個獨立的組,其中ni列屬于第i類,即。令表示對應第i類第j個特征向量。分別表示第i類和整個特征集中xij向量的均值,類間散布矩陣定義為

其中,P是正交特征向量的矩陣,而是按降序排序的實特征值以及非負特征值的對角矩陣。
Q(c×r)由來自矩陣P的第r個特征向量組成,其對應r個最大的非零特征值。因此有

X'是X在空間中的投影,I為類間散布矩陣,并且類是分開的。最多有c—1個非零廣義特征值,因此,r的上限是c—1。r的其他上限是數據矩陣的秩,即r ≤min(c-1,rank(X),rank(Y))。用上述方法可以求出第2個特征集Y

X和Y已轉換為X'和Y',其中類間散布矩陣被單元化,現在需要使一個集合中的特征僅與其他集合中的對應特征具有非零相關性。對變換后的特征集的集合協方差矩陣采用奇異值分解(Singular Value Decomposition,SVD)進行對角化,=X′Y ′T

通過對變換的特征向量進行連接或求和來進行特征級融合,如式(4)、式(5)所示。求和方法具有維數較少的優點,并且對識別結果的變化非常小。文中實驗使用式(5)中的求和方法。
ECG與PPG信號融合模型如圖1所示,首先,分別對ECG信號和PPG信號進行預處理及特征提取,得到ECG信號與PPG信號的特征矩陣。然后分別對各自的特征矩陣進行特征標準化,利用DCA算法進行特征融合,對組合特征矩陣進行特征提取,獲得最佳分類融合特征矩陣。在決策層上先對訓練集進行處理,選取與測試數據最相近的K個樣本,然后再用SVM訓練K個樣本得到分類超平面,以此來實現決策級的融合。下面詳細探討該融合識別模型。

圖1 心電與光電容積脈搏波融合的身份識別模型
ECG和PPG身份識別的流程一致,都分為信號預處理、特征提取與分類識別。ECG信號如圖2所示,PPG信號如圖3所示。ECG信號預處理一般是去除信號中的噪聲,主要有:(1)肌電干擾;(2)基線漂移;(3)工頻干擾。PPG信號受到的噪聲有以下3種:(1)運動偽差;(2)高頻隨機干擾;(3)基線漂移。由于ECG信號與PPG信號都是非平穩的周期信號,本文在對它們進行去噪時選擇巴特沃斯濾波器。

圖2 心電信號

圖3 光電容積脈搏波信號
文中采用小波變換檢測ECG信號的QRS波段,各個波段峰值以及波段距離,PPG信號的P波特征點用作識別分類。實驗中對ECG信號和PPG信號進行小波變換后,產生模極值對,信號的波形與這些模極值相對應,而奇異點就是極值中間的0點。所以可以將不同頻率分段的波段通過設定相應的閾值以及取值窗口定位出來,最終定位QRS波、P波、T波以及P波和T波的起始點和終止點,如圖4所示。同樣通過該方法對PPG信號進行小波變換,對P波、V波及各自的起始點和終止點進行定位,如圖5所示。

圖4 ECG特征檢測

圖5 PPG特征檢測
通過上述方法,定位出ECG信號的5個基準點,分別為P,Q,R,S,T。通過計算得出各個基點之間的距離和幅度,將它們組成特征向量如表1所示,得到的4個時間特征以及4個幅值特征組成大小為8×23的特征矩陣。

表1 小波變換提取到的信號特征
同樣,通過該方法檢測到PPG信號的P波和V波及其各自的起始點和終止點的位置,通過計算最終得到7個距離特征及4個幅值特征如表2所示,組成大小為11×23的特征矩陣。

表2 PPG信號的特征與描述
將ECG信號與PPG信號特征矩陣分別進行歸一化處理后,采用DCA算法進行融合,由于兩個特征向量維數不同,較低維的PPG信號特征矩陣用零補齊。去除每個特征集內部的相關特征,并且將類結構結合在特征層融合方法中,最大化兩個特征集上對應特征的相關性,得到ECG和PPG的特征融合矩陣。
基于多集判別相關分析的ECG和PPG特征層融合識別流程圖如圖6所示。

圖6 特征層融合識別流程圖
融合識別算法步驟分為以下5步:
(1)對ECG信號特征提取后得到的特征向量組成第1個特征的樣本空間X∈Rp×n;
(2)對PPG信號特征提取后得到的特征向量矩陣組成第2個特征的樣本空間Y∈Rq×n;
(3)采用最大最小值法,對特征向量進行歸一化操作,使得兩組特征向量的數量級接近。
(4)由式(4)、式(5)計算類間散度矩陣Sbx和Sby,通過式(7)、式(8)計算出協方差矩陣的特征向量,由式(9)、式(11)得到變換矩陣Wbx和Wby。
(5)由式(13)對協方差矩陣進行奇異值分解,再由式(15)、式(16)獲得轉換特征集和最終變換矩陣,最后通過式(3)求和的方法進行特征融合,其優勢在于維數較少。
生物特征識別算法決策階段是由一個分類器對來自識別系統中受試者存儲的模板上進行訓練,該分類器會對受試者和攻擊者進行區分,在識別時輸出正確的決策。常見的K-最近鄰(K-Nearest Neighbor,KNN)算法的實現原理:為了判斷未知樣本的類別,以所有已知類別的樣本作為參照,計算未知樣本與所有已知樣本的距離,從中選取與未知樣本距離最近的K個已知樣本,根據少數服從多數的投票法則(majority-voting),將未知樣本與K個最鄰近樣本中所屬類別占比較多的歸為一類。K這個字母的含義就是要選取的最鄰近樣本實例的個數。本文中K選取5。
而支持向量機(Support Vector Machines,SVM)的基本思想就是在特征空間構造出一個最優的超平面,使得不同類距離超平面最遠,從而達到較好的泛化能力。支持向量機的提出最開始是應用于二分類問題,而本文的應用場景為多分類問題,因此本文需要使用1對1法(One-Versus-One SVMs,OVO SVMs)法將SVM用于處理多分類問題。該算法的思想是假設一個樣本訓練集由k>2類別數據組成,分別選取2個不同的類別構成一個SVM的子分類器,這樣k個類別共有k(k—1)/2個SVM子分類器。在構造一個類別i和類別j的SVM子分類器時,利用樣本數據集中類別i和類別j的樣本作為訓練數據,并將類別i的數據標記為+1,類別j的數據標記為—1。多類別測試的過程中,將測試的數據對所有子分類器分別進行測試,累積各個類別的得分,選取最高得分的類別作為測試數據的類別。
之所以將SVM與KNN相結合是因為當使用1對1法分類時樣本數量變大,所需要的子分類器就會增多,所需要的代價是很大的,因此在本文實驗中采用了決策級融合,將KNN與SVM結合起來,在使用KNN處理訓練集可以降低樣本數量,再使用1對1法進行分類時所需要的子分類器數目變少,會大大提高系統分類效率。其主要實現過程為:首先對融合特征后的訓練集進行初步處理,根據每個樣本與其K個最近鄰的標簽的異同決定其取舍,在本文中K取5,然后再用SVM對使用KNN后得到的樣本每兩個類別進行訓練得到分類超平面。本方法將KNN與SVM有效地融合在一起,當單一使用SVM分類器時,時間復雜度為O(N2),使用KNN處理訓練集后再使用SVM進行分類時時間復雜度為O(N)。實驗結果表明,使用KNN與SVM的融合分類器會比使用單一分類器如KNN或SVM準確率更高,并且大大提高系統效率。
生物電信號采集系統主要目的是實現心電信號和脈搏信號的同步采集,并將采集到的信號傳輸至上位機PC端。基于生物電信號的身份識別算法主要在上位機PC端進行研究,將采集到的ECG信號和PPG信號通過預處理、特征提取和分類識別實現身份識別。系統總體框圖如圖7所示。

圖7 身份識別系統總體框圖
心電信號采集選用AD公司的AD8232芯片,用于在復雜噪聲環境下快速、精準地提取ECG信號。該芯片集成了儀表放大器、增益放大器、右腿驅動電路、休眠電路設計、基準電壓緩沖以及導聯脫落檢測電路,能夠方便有效地對信號進行預處理。同時導聯檢測功能能夠時刻檢測導聯是否脫落,并提醒使用者將電極放置在受試者的雙臂及右腿位置,保持周圍環境安靜,即可采集心電信號。實驗結果表明所采集的心電信號能夠表現出個體的心臟生理狀況,能夠清晰地找到主要用于識別的QRS波群。
在手指指尖上通過光電容積脈搏傳感器實現PPG信號的采集,采用三軸加速度計獲得實驗對象的運動情況,將采集到的信號通過AD同步轉換實現兩種數據的同步采集,其數據采集過程如圖8所示。

圖8 數據采集過程
本次實驗一共采集了23個個體的ECG信號和PPG信號,其中男性15人,女性8人,他們的年齡范圍為22~26歲,采樣頻率為500 Hz,采集過程中受試者均為坐著狀態,每位受試者均采集20組ECG和PPG數據,每類數據時長為60 s,因此每個志愿者有40條數據,本次實驗一共有920條數據。組成本文的實驗數據庫。實驗所需的操作系統為64位Windows10,CPU為Intel奔騰G4560處理器,仿真平臺利用Matlab 2016a,部分編程使用PyCharm,利用Excel對數據進行分析并繪制相應圖。
實驗中選擇數據庫中23個受試者的ECG和PPG信號,每個人的信號每30 s為一組,每個人20組信號組成測試集,通過改變匹配閾值的大小,對測試集中的類內匹配和類間匹配都進行測試,得到系統的拒識率、誤識率和等錯誤率,繪制ROC曲線。
圖9為ECG和PPG的雙模特征層融合識別算法的ROC曲線,由圖可以看到隨著閾值的增加,誤識率越來越低,而拒識率越來越高,在閾值為0.6188處拒識率與誤識率相等,其等錯誤率為8.642%。在閾值較大時,雖然錯誤接受率比較低,但相應的錯誤拒絕率變大,導致用戶識別過于嚴格,對用戶進行識別帶來不便。在閾值較低時,錯誤接受率變小,錯誤拒絕率增大,對于識別要求不是很嚴格,使得用戶較容易進入系統。說明雙模特征層融合識別算法在識別精度與算法性能方面均優于單模態生物識別。

圖9 ROC曲線
此外,為了得到訓練時間長短對算法識別性能的影響,實驗中將采集到的每一個個體的ECG信號與PPG信號的前30 s信號作為訓練樣本,后30 s信號作為測試樣本。又將訓練樣本的信號時間細分為前5 s、前10 s、前15 s、前20 s、前25 s、前30 s對其分別進行訓練并測試其結果。
通過融合分類器對六組信號分別進行分類,匹配得到不同訓練時間與識別正確率之間的關系,結果如圖10所示,由圖可知基于ECG與PPG的多模態融合特征進行識別的效果優于單模態特征識別效果,在訓練時長超過15 s后融合識別的識別率對于ECG信號識別其優勢并不十分明顯,但在訓練時長較短的情況下融合識別的識別率明顯優于單模態特征識別,訓練時長為10 s時融合識別的識別率可以達到90.6%。

圖10 不同信號在不同訓練時長下的識別率
本次試驗對23名受試者分別從單一特征與單一分類器,單一特征與多分類器,多特征與單分類器和多特征與多分類器這4個方面進行驗證,實驗結果如表3所示。
表3以識別準確率作為性能參數,總結了本研究的實驗結果。使用單分類器SVM對單信號ECG和PPG進行身份認證時,準確率分別為88.0%和81.0%。使用單分類器KNN對單信號ECG和PPG進行身份認證時,準確率分別為84.5%和74.5%。使用融合分類器KNN-SVM對單信號ECG和PPG進行身份認證時,準確率分別為91%和82.4%。使用單分類器SVM對融合信號ECG-PPG進行身份認證時準確率為96.1%。使用單分類器KNN對融合信號ECG-PPG進行身份認證時準確率為91.5%。而使用融合分類器KNN-SVM對融合特征ECG-PPG進行身份認證時準確率可以達到98.2%。實驗結果表明,對信號在特征層進行融合并且對分類器進行決策層融合可以達到最優的分類結果。

表3 不同模式下識別準確率
本文在研究特征層融合時,結合判別相關分析最大化兩個特征集的相關性的特點,提出了一種心電與光電容積脈搏波多模態生物識別模型。首先對心電信號與脈搏信號分別進行預處理和特征提取,將特征信號進行歸一化處理后,利用DCA算法對特征融合,獲得心電與光電容積脈搏波的融合特征矩陣,作為最終的識別特征,在決策層融合兩個分類器(KNN-SVM),最終實現身份識別。實驗結果表明,該模型降低了單模態生物識別出現注冊失敗的錯誤率,提高了用戶驗證身份的靈活性以及對欺騙攻擊的抵抗性。在常規環境下能達到更高的正確識別率,是一種有效的融合識別方法,后續研究將著眼于融合模型的可擴展性層面,例如將使用大型數據庫、多個通道和多個特征進行。