陳虹麗, 劉凌風, 李浩凱, 傅薈璇
(哈爾濱工程大學智能科學與工程學院,哈爾濱150001)
指關節紋識別是當今社會一類新興的生物特征識別技術[1-2],該生物特征由個體基因所決定,存在個體差異性,可用于身份識別技術。與常見的指紋識別[3-4]相比,指關節紋特征不像指紋一樣易于磨損、出汗潮濕,且在日常生活中不像指紋一樣到處留下接觸痕跡,指關節紋生物特征識別技術表現出良好的發展前景。
指關節紋識別技術雖已取得很多較好的研究成果[5-7],但主要采用的是傳統機器學習算法,卷積神經網絡對圖像紋理特征的提取,有其本身巨大的優勢,將采用基于卷積神經網絡的深度學習模型,來對指背關節紋的識別進行研究,針對網絡的過擬合,首次提出參數放棄法,放棄驗證誤差增大的參數,重新優化參數,直至得到泛化誤差最小點。
首先進行指關節紋圖像預處理,包括感興趣區域(Region of Interest,ROI)[8-9]的提取、數據集的擴充[10]、直方圖均衡化[11-12]等;其次,設計并搭建卷積神經網絡[13-14]模型,包括輸入層、3個卷積層C1、C2、C3層、3個池化層P1、P2、P3層、2個全連接層F1、F2層,softmax輸出層一般不計入網絡的深度,網絡深度共為9層。
本實驗采用開源的HKPU-FKP手指關節紋數據集[15-16],選取其中的100類,將每類的前10幅作為訓練集的圖像,剩余2幅作為測試集的圖像,即訓練集共1 000幅圖像,測試集共200幅圖像,數據集中約80%的圖片劃分為訓練集數據,約20%的圖片劃分為測試集數據。
將數據集里660類的指關節紋,取出其中100類的數據做好類別標簽并進行0~99順序編碼,通過水平翻轉、垂直翻轉、亮度調整、隨機旋轉等操作,將數據集擴充到12 000張,按8∶2的比例分為訓練集、測試集,訓練集數據的形狀為(10 000,224,224,1),測試集數據的形狀為(2 000,224,224,1),通過不同算法實驗結果對比,選用限制對比度的自適應直方圖均衡化(Contrast-limited Adaptive Histogram Equalization,CLAHE)算法來提高指關節紋紋理的對比度,達到圖像灰度增強的目的。
實驗選擇Adam優化器默認的學習速率0.001,經過1 000次迭代訓練完成后,卷積神經網絡訓練后的實驗結果如圖1所示。圖中,橫坐標為迭代次數(Epochs)。
測試集上的準確率為

式中:n為測試集里數據的總量;m為測試集里數據被分類正確的數量。
圖1 (a)中,loss為卷積神經網絡在訓練集上的損失函數,val_loss為卷積神經網絡在測試集上的損失函數,可見,loss隨著迭代次數的增加收斂情況較好,然而val_loss有一定上升的趨勢,與loss逐漸拉開一定的間隙,說明該網絡模型存在過擬合現象。

圖1 卷積神經網絡訓練后的實驗結果
圖1 (b)中,acc為卷積神經網絡在訓練集上的準確率,val_acc為卷積神經網絡在測試集上的準確率,可見,隨著迭代次數的增加,acc與val_acc曲線存在一定的間隙,說明該網絡模型在訓練集上有一個很好的準確率;在測試集上的準確率與之有一定的差距,說明該網絡模型在未見過的數據面前表現不理想,網絡泛化能力不強,進一步驗證了網絡模型存在過擬合現象。
為避免過擬合,提高網絡泛化能力,采用L2正則化與參數放棄法結合,對網絡進行優化。參數放棄法的基本思想是訓練網絡時,網絡訓練與網絡驗證交替進行,當網絡開始進入過擬合時,驗證誤差就會逐漸增大,此時放棄本次參數,網絡參數返回當驗證誤差取最小值時的參數。應用參數放棄法時,測試集同時也作為驗證集,驗證集用于監控網絡訓練進程。圖2所示為利用參數放棄法時程序框圖。

圖2 參數放棄法優化網絡程序框圖
圖中:T為訓練集;C為驗證集;Errornew為當前驗證誤差;Errorold為前次驗證誤為權重參數;?為閾值;X0為訓練次數標志位;k為訓練次數;E為訓練誤差;ε為誤差代價函數;R為循環次為初始權值參數;Δwij為權值變化量,由優化器求取。實驗前,對驗證樣本進行了檢驗,舍棄了錯誤的驗證樣本。
在前面網絡模型的FC1、FC2全連接層后各自添加一個dropout層,設置丟棄比例為0.5,同時在FC1、FC2全連接層上使用L2正則化與參數放棄法融合,L2
正則化設置懲罰系數為0.001,并在每個卷積層、全連接層后添加一層批量標準化層(Batch Normalization,BN)。圖3所示為優化后的卷積神經網絡搭建的流程圖。

圖3 優化后網絡模型的工作流程
各層訓練參數的情況:輸入層輸入圖像的尺寸為224×224×1的灰度圖像,softmax分類器輸出層中的神經元個數與所要識別類別的個數相等,各層參數的情況見表1。

表1 優化后網絡各層的參數情況
根據表1所示優化前、后網絡各層的參數情況比較,可以發現在所設計的9層卷積神經網絡結構的基礎上,新添加的BN和dropout層,對于輸出特征圖的形狀尺寸與輸入尺寸相同,即批標準化層與dropout層對特征圖的處理不會改變特征圖的形狀。
圖4 所示為優化后的網絡模型經過1 000次的迭代訓練后的實驗結果。

圖4 優化卷積神經網絡訓練后的實驗結果
由圖4(a)可見,loss隨著迭代次數的增加收斂情況較好,val_loss與優化前相比,上升的趨勢明顯被抑制,說明優化后的網絡模型,對抑制過擬合有一定的效果。
由圖4(b)可見,隨著迭代次數的增加,acc與val_acc曲線,總的來看一直靠的比較近,之間的差距并不是很大,過擬合現象被明顯改善,說明優化后的網絡模型對抑制過擬合有一定的效果。
優化前、后的網絡模型分別在訓練集和測試集上進行評估,保留3位小數,見表2。

表2 優化前、后卷積神經網絡模型的評估
從表2中模型評估來看,同樣也反映出抑制過擬合的效果,測試集的損失函數從優化前的92.8%降到了79.2%,識別準確率從優化前的83.4%升到87.0%,準確率提高了3.6%,提高了網絡模型對測試集新樣本的泛化能力。
本文采用開源的HKPU-FKP指關節紋數據集,針對設計一個深度為9層的卷積神經網絡模型存在一定過擬合現象,優化改進網絡模型的結構,并通過編譯訓練后,分析實驗結果。優化后的網絡模型起到了抑制過擬合的效果,并提高了在測試集未知數據上的準確率,增強了網絡模型的泛化能力。
(1)對指關節紋圖像進行預處理,減小輸入數據的大小,縮短訓練時間,有利于紋理特征的提取和對網絡過擬合的抑制作用。
(2)在原網絡結構基礎上,全連接層后添加dropout層,抑制過擬合現象,提高該網絡模型泛化能力;全連接層上使用L2正則化與參數放棄法融合,限制FC1,FC2全連接層的權重參數規模的同時放棄驗證誤差增大的參數,避免網絡神經元過度學習,達到抑制網絡模型過擬合的目的;在卷積層、全連接層之后添加一層批標準化層(BN),為下一層的輸入數據做好歸一化處理。
(3)提出的參數放棄法,訓練網絡時,不僅有訓練集數據,還加入了測試集數據,添加測試集數據之后,可以在訓練過程中,根據網絡模型在測試集上的表現,及時停止網絡過擬合,提高訓練速度和泛化能力。
(4)本實驗結果可以提高該生物特征的安全性。
(5)與其他生物特征相比,指關節紋特征具有表現穩定、便于采集、易與手形其他特征進行融合,相比于人臉、聲音等生物特征涉及隱私較小,人們更易于接受。
在基礎研究領域,包括一些應用科技領域,要尊重科學研究靈感瞬間性、方式隨意性、路徑不確定性的特點,允許科學家自由暢想、大膽假設、認真求證。不要以出成果的名義干涉科學家的研究,不要用死板的制度約束科學家的研究活動。很多科學研究要著眼長遠,不能急功近利,欲速則不達。
——2016年5月30日,習近平在全國科技創新大會上的講話