婁夢瑩,王天景,劉婭琴,楊 豐,黃 靖
(南方醫科大學生物醫學工程學院,廣州510515)
(?通信作者電子郵箱liuyq@smu.edu.cn)
隨著社會的發展,科學技術得到了極大提升,信息安全越來越受重視,人們對個人身份識別技術的要求也越來越高。密碼、磁卡等傳統的身份識別認證方式由于存在丟失、復制和被盜用的風險,已經不能滿足當前人們的需要,由此,基于生物特征的身份識別技術應運而生[1]。生物特征(包括顯性生物特征和隱性生物特征)識別技術是根據人們的生理或行為特征進行識別的技術。顯性生物特征由于易被復制和偽造,其安全性和唯一性比隱性生物特征低。生物特征識別主要包括步態、人臉、掌紋、指紋等顯性特征識別,以及聲音、虹膜等隱性特征識別。步態識別簡單易行,但易被模仿,安全性較差。聲音識別簡單便捷,但有被錄音竊取的風險,安全隱患較大。人臉識別具有較好的特征多樣性和唯一性,識別效果好,但難以分辨面容相同或相似的雙胞胎及多胞胎,并會受到因年齡出現的老化現象的影響,穩定性較差。掌紋、指紋識別具有較高的唯一性、便捷性和可接受性,但由于掌紋屬于表皮特征,易磨損、易被復制,安全性較低。虹膜識別具有較高的安全性、穩定性和唯一性,但識別裝置成本昂貴,不適用于普通的大眾場所,應用的廣泛性和普遍性受到極大的限制。手掌靜脈識別,是根據手掌靜脈特征進行識別的技術,是生物特征識別領域的一種新型識別技術。手掌靜脈(以下簡稱“掌脈”)屬于隱性特征,位于表皮之下,結構復雜,難以被復制,具有較高的唯一性、安全性和穩定性,比人臉識別更穩定,比掌紋、指紋識別更安全,比虹膜識別更具應用的普遍性[2]。
目前,掌脈識別的研究受到廣大研究學者的關注,傳統的掌脈識別大致分為三類:1)基于結構特征的方法,提取靜脈的結構特征,一般是線特征或點特征。主要方法有方向梯度直方圖[3]、尺度不變特征變換[4]、二維密度函數[5]等。2)基于紋理特征的方法,提取靜脈的紋理特征,一般是方向、幅度、相位特征。主要方法有Gaussian-Radon 變換[6]、局部二值模式[7]、Gabor 濾波器[8]、Radon 變換[9]、小波變換[10]等。3)基于子空間的方法,是將靜脈轉換到不同的子空間中,將圖像看成高維向量或矩陣,再利用投影變換等方法,將其轉換成低維向量或矩陣,并在這個子空間中提取特征。主要方法有主成分分析[11]、線性判別分析[12]、局部保持投影[13]等。
雖然傳統的識別方法已經取得了較好的識別效果,但其識別過程較為復雜,往往需要人工干涉。人工設計提取的圖像特征通常是圖像的淺層特征,表達能力有限,有效特征信息不夠充分,且人工設計的方法穩健性較差,受外界條件的影響較大。隨著深度學習的發展以及硬件環境的改善和提高,利用深度學習的方法進行掌脈圖像識別已經成為研究重點[14]。深度學習卷積神經網絡具有較強的特征表達能力,不需要人工設計特征,在圖像分類、圖像分割和目標檢測等領域已經取得了較好的成績。但是由于網絡模型的學習能力較強,輸入輸出之間的非線性關系復雜,易出現過擬合現象,且網絡的訓練需要大量的數據,而掌脈數據庫的數據量相對較少,圖像質量也相對較差。
針對上述問題,本文提出了一種基于側鏈連接卷積神經網絡的手掌靜脈識別方法。首先,采用泛化性能較好的網絡模型ResNet 提取深層次掌脈特征,其殘差模塊可緩解網絡退化。其次,引入指數線性單元(Exponential Linear Unit,ELU)激活函數、批歸一化(Batch Normalization,BN)和Dropout技術改進模型,能緩解梯度消失,防止過擬合,加快收斂,增強模型泛化能力。最后,融入稠密網絡思想,加入稠密連接,將原始圖像輸入多層卷積層,增強特征的豐富性和有效性。用本文提出的方法分別在香港理工大學PolyU 數據庫、中國科學院自動化研究所CASIA 數據庫和自建庫上進行實驗,并與其他現有的識別方法進行比較,實驗結果驗證了本文方法在實際應用中的優越性能。
ResNet 網絡是He 等[15]在2016 年提出的一種深層卷積神經網絡模型。在網絡研究中,隨著網絡的加深,會出現梯度消失和梯度爆炸的問題,使具有一定深度的卷積神經網絡難以訓練,模型性能不升反降。為削弱這種影響,可以通過構建殘差模塊(Residual block)對不同網絡層進行跳躍連接(Skip connection),從而增強網絡性能。因此,殘差網絡以其優越的性能被廣泛應用于圖像分類識別領域。殘差模塊的結構如圖1所示。
對于一個由若干層堆積的網絡結構而言,當輸入數據為X時,學習的特征記為H(X),規定在獲得H(X)的同時,通過線性變換和激活函數得到殘差:

這樣,實際學習到的特征為:

如此,極端情況下,即使網絡層是冗余層,即F(X)=0,則該卷積層實現的是恒等映射,網絡性能與網絡特征參數沒有改變。通常情況下,F(X) > 0,網絡總能學到新的特征,從而保證反向傳播時的梯度傳遞,消除網絡退化和梯度消失問題。

圖1 殘差模塊Fig.1 Residual block
卷積神經網絡利用不同大小的卷積核提取掌脈特征,用全連接層對特征進行融合,來提取更深層次的特征信息。卷積層主要包括兩部分:一部分是線性變換階段的卷積操作;另一部分是非線性階段的激活函數操作。其中,卷積核是卷積層重要的一部分,用于提取圖像的邊緣、角度、形狀等特征。而激活函數主要是引入非線性,強化網絡的學習能力。隨著網絡層數的深入,卷積核及訓練參數也隨之增加,特征提取過程中易發生過擬合狀況。卷積神經網絡中的池化層,可針對不同的區域提取具有代表性的特征,能縮減參數,提高網絡計算速度,可當作對輸出特征的再次提取過程。相較于卷積,池化操作擁有平移不變特性,對微小的變化具有較好的魯棒性。
研究發現,卷積核的尺寸越大,獲得的感受野越大,需要的參數量也隨之增多[16]。掌脈圖像通常將紋理特征用于特征識別,有些不同個體的掌脈圖像紋理特征相似度較高,主要依靠微小的細節特征進行區分。為了提取細微的特征,并盡可能地減少模型參數,顯著提高掌脈識別系統的性能,使模型更適用于掌脈識別的實時應用,本文采用小卷積核殘差網絡(Small convolution Kernel Residual Network,SK-ResNet)對手掌靜脈圖像進行有效識別,選擇3×3的卷積核進行實驗。
本文在ResNet 網絡的基礎上加以改進,將第一層的卷積核設置為3×3,剩余卷積層的卷積核大小也設置為3×3,并疊加足夠的卷積層彌補小卷積核對感受野帶來的影響。網絡的分類函數采用softmax 函數,學習率統一設置為0.000 1。改進的網絡結構如圖2 所示,基于ResNet-18,將其簡化成8層,大大減少了模型參數,節省了存儲空間和運行時間,更適用于掌脈圖像數據庫。
激活函數主要解決神經網絡中的線性不可分問題,將非線性激活函數疊加在每層的線性變換之后,能夠使學習能力更強,擬合效果更好。傳統的ResNet 網絡采用修正線性單元(Rectified Linear unit,ReLu)激活函數,ReLu 計算簡單,具有線性、非飽和性的特點,能有效緩解梯度下降,提供稀疏表達性。ReLu激活函數計算式如下:

由式(3)可見,當x取值為1 時,會在梯度過小時,導致梯度消失;當x取值小于等于0時,隨著訓練的進行,會出現神經元凋亡現象,導致權重無法更新。

圖2 小卷積核殘差網絡結構Fig.2 Architecture of SK-ResNet
ELU 激活函數[17],融合了sigmod 和ReLu,具有左側軟飽和性,右側無飽和性,右側線性部分使得ELU 對輸入變化或噪聲的魯棒性更好。ELU 的輸出均值接近于0,收斂速度更快,可解決神經元死亡問題。ELU激活函數公式如下:

將激活函數用ELU 代替ReLu,彌補了ReLu 的不足,同時盡量保持了ReLu的單側抑制優勢,使殘差模塊的結構得到了較好的改進,殘差結構的改進如圖3所示。

圖3 改進后的殘差模塊Fig.3 Improved residual block
批歸一化(BN)[18],利用小批量上的均值和標準差,不斷調整神經網絡中間輸出,從而使整個神經網絡在各層的中間輸出的數值更穩定,能夠在一定程度上緩解過擬合問題;其次,批歸一化也能使模型的收斂速度得到一定程度的提升。
Dropout技術是Hinton等[19]在2012年提出的,通過使部分隱層節點設置為0,忽略部分特征檢測器,來提高模型的性能,降低過擬合現象。即在神經網絡的前向傳導過程中,隨機選擇部分神經元,使其激活值按照特定的概率暫時停止工作,從而增加模型的泛化能力,以防止過擬合現象的發生。
稠密連接網絡(Densely Connected Network,DenseNet)是Huang等[20]在2017年針對光學圖像處理提出的一種神經網絡模型,具有強大的特征提取功能。在傳統的深度網絡中,每一層提取的特征都相當于對輸入數據的一個非線性變換。因此,隨著網絡的加深,會增加變換的復雜度。DenseNet摒棄了傳統的網絡連接方式,采用了一種較為密集的網絡連接形式,直接從最優特征的角度出發,設置特征復用和旁路連接。
DenseNet將網絡的任一層與后續所有層之間直接建立連接,這種稠密連接的方式使得每層學習的特征圖都可以被后續的網絡層接收,即網絡中每一層都接受它前面所有層的特征作為輸入,相當于每一層都直接連接輸入層和損失層,從而使梯度消失現象得以緩解,網絡結構更加緊密,提取到的特征更加豐富。其輸出公式如下:

其中,[X0,X1,…,Xl-1]表示第0,1,…,l-1 層的特征圖拼接矩陣。
圖4 為DenseNet 的網絡連接圖,由圖4 可看出,網絡中任意一層的輸入都是前面所有層輸出的疊加,大量的特征被復用,從而加強了特征的傳播,使提取到的特征更加豐富,并在一定程度上緩和了梯度消失。在建立稠密連接時,當特征圖的大小發生改變時,層與層之間不能直接連接,可借助下采樣來改變特征圖的大小,從而順利地建立網絡連接。

圖4 DenseNet網絡連接Fig.4 Network connection of DenseNet
雖然ResNet 和DenseNet 都采用了網絡連接的方式,但殘差連接和稠密連接是不同的。區別在于ResNet 中的殘差連接是采用模塊之間相加的方式,而DenseNet 中的連接是圖像通道維度上的連接。DenseNet 中增長率k表示輸出特征映射的維度,這里k=12。網絡的跨層連接如圖5所示。

圖5 網絡跨層連接Fig.5 Network cross-layer connection
針對掌脈數據庫樣本量少、圖像質量參差不齊,進而導致識別率低的現象,根據側鏈連接的結構,在ResNet 模型的基礎上重新設計新的結構,并用此模型對掌脈圖像進行分類識別。
圖6為本文方法的網絡結構。如圖6所示,網絡的傳播過程可描述為:圖像經輸入層傳入下一層側鏈連接的模塊(Residual dense block)提取特征,按圖中連接依次傳輸,最后對特征進行全局平均池化,整合空間信息,經Dropout 層輸入到全連接層輸出分類結果。其中,側鏈連接部分是將殘差連接和稠密連接的兩組特征疊加,傳遞給下一層。
本文提出的基于側鏈連接卷積神經網絡改進和優化了傳統的ResNet 模型,并將稠密連接以側鏈連接的方式融入到ResNet 模型中。與傳統的網絡模型相比,該方法具有一定的優勢。首先,利用泛化能力較強的ResNet 網絡模型提取深層掌脈特征,其殘差模塊能有效緩解網絡退化問題。其次,采用ELU 代替ReLu 激活函數能有效緩解梯度消失,批歸一化和Dropout技術能防止過擬合,減少網絡誤差,加快收斂。最后,稠密連接將原始圖像輸入多級卷積層,能加強所提特征的豐富性和有效性。

圖6 本文方法的網絡結構Fig.6 Network structure of proposed method
為定量評價本文識別方法,分別對兩個公開數據庫和一個自建數據庫進行實驗。兩個公開數據庫分別是PolyU 和CASIA 數據庫。PolyU 庫采用完全接觸式采集,受平移、旋轉等的影響小,圖像質量高。采集250 人的左右手各6 幅,分兩次采集,間隔時間9 天,共6 000 幅圖像,本文只采用第一次采集的3 000 幅圖像。CASIA 庫采用完全非接觸式采集,受平移、旋轉的影響較大,圖像質量差。采集100 人的左右手各6幅,共1 200幅圖像。自建數據庫為本實驗室獨自采集建立的數據庫,簡稱“自建庫”,采用半接觸式采集,受平移、旋轉的影響較小,但會受光照等采集環境的影響,圖像質量低。采集300 個學生的左右手各6 幅,共3 600 幅圖像,采集裝置[21]如圖7所示。

圖7 自建庫手掌靜脈圖像采集裝置Fig.7 Palm vein image acquisition device for self-built database
為更好地訓練模型的性能,對現有數據庫進行圖像增強和擴充。采用Lou 等[22]提出的方法進行掌脈圖像增強,并對圖像進行旋轉變化,旋轉角度分別為:-5°、-10°、5°、10°,即每幅圖像由1幅擴充為5幅。為更好地測試模型的識別效果,將數據庫按照類別劃分為訓練集和測試集,每類的前4 幅及其擴充圖像為訓練集,剩余圖像為測試集,從而保證訓練集與測試集互不相交。
實驗的運行環境如下:Tensorflow2.20rc,Matlab R2019b DeepLearning toolbox。硬件平臺為:Ubuntu 18.04LTS 系統,CPU AMD EPYC 7742,基礎頻率2.25 GHz,最高Boost 頻率3.4 GHz,內存16 GB,GPU Nvidia Telsa K80 24 GB顯存。
在掌脈圖像識別模型的評價中,主要采用正確識別率(Correct Recognition Rate,CRR)來衡量系統性能。CRR 是正確識別比率,是正確識別的次數與識別的總次數的比值。識別系統的算法性能越好,CRR值越大,計算式為:

其中:VC表示正確識別的次數;VS表示識別的總次數。
2.3.1 ELU激活函數實驗
為了選擇對掌脈數據庫最有效的ELU 激活函數取值,在原始的8 層小卷積核ResNet 網絡基礎上,僅采用ELU 代替ReLu 激活函數,即SK-ResNet+ELU,并以此網絡模型進行掌脈識別。分別在各掌脈數據庫上進行實驗,計算識別率,借此判斷ELU激活函數緩解梯度消失的效果。ELU激活函數的取值范圍設為(0,1],間隔設置為0.1。表1 給出不同的ELU 取值對識別率的影響,由表1 可知,當ELU 的取值為1 時,模型在三個數據庫上的識別效果達到最優。由此可見,ELU 激活函數對梯度消失現象有一定的緩解作用,使模型的識別效果進一步提高。
2.3.2 Dropout實驗
為了找到對掌脈數據庫效果最好的Dropout值,在原始的8 層小卷積核ResNet 網絡基礎上,僅將Dropout 層添加到平均池化層之后,即SK-ResNet+Dropout,并以此網絡模型進行掌脈識別。分別對各掌脈數據庫進行實驗,計算識別率,以此判斷Dropout 技術緩解過擬合的效果。Dropout 中p表示每個節點有p概率被拋棄,其取值范圍為(0,1),間隔設置為0.1。表2展示了不同Dropout取值對識別率的影響。由表2可以看出,當Dropout 的取值為0.1 時,在三個數據庫上的效果達到最好,一定程度上降低了過擬合風險,提高了模型的識別率。
為了定量評價本文識別方法的識別效果,將本文方法與目前識別效果較好的幾種傳統識別方法以及幾種典型的網絡模型進行比較。其中:Qiu 等[23]采用多方向的Gabor 濾波器,提取靜脈的尺度及方向信息,進行靜脈識別,計算識別率;婁夢瑩等[21]采用Gauss-Radon 變換進行掌脈識別,構建6 個方向的鄰域模板,提取掌脈方向特征從而進行識別。針對目前的幾種典型的網絡模型,利用AlexNet 網絡[24]、GoogleNet 網絡[25]分別對掌脈圖像進行識別,并對ResNet 模型不斷改進,將逐步改進實驗用于掌脈識別,依次記錄SK-ResNet、SKResNet+BN、SK-ResNet+BN+ELU、SK-ResNet+BN+ELU+Dropout 以及加入稠密連接后的本文方法模型的實驗結果。不同識別方法的識別效果如表3所示。由表3可知,針對圖像質量不一的小樣本掌脈數據庫,與其他識別方法相比,本文基于側鏈連接卷積神經網絡的掌脈識別方法對掌脈數據庫的識別效果較好,尤其是對圖像質量較差的CASIA和自建庫,其識別率更高。

表3 不同識別方法對CRR的影響 單位:%Tab.3 Effects of different recognition methods on CRR unit:%
針對圖像數量少且質量參差不齊的掌脈數據庫,本文提出了一種基于側鏈連接卷積神經網絡的手掌靜脈圖像識別方法。該方法根據ResNet 網絡模型框架,用卷積層和池化層提取網絡特征;用ELU 激活函數、批歸一化及Dropout 技術優化和改進模型,可緩解梯度消失,防止過擬合,加快收斂,使模型泛化能力更強;加入稠密連接,使提取到的掌脈特征更加豐富有效。分別在PolyU、CASIA、自建庫上進行實驗,實驗結果表明,本文方法能有效提高掌脈識別系統的性能,且更適用于掌脈識別的實際應用。還可將本文識別方法用于其他生物特征識別領域,例如掌紋識別、指紋識別、人臉識別等。下一步的工作將著重于新型網絡模型的研究和改進,以期獲得更好的識別效果。