鞏震 陳丹紅



摘? 要:目前,在普通手機解鎖、面部鎖定、面部掃描支付和安全防衛(wèi)等領域,人臉識別信息技術都有著非常廣泛的應用。傳統(tǒng)的機器學習算法是基于人的臉部特征的,由于每類樣本的不均衡性嚴重和場景效果的欠缺等因素,算法實現(xiàn)的效果常常不是很理想。本文將針對目前人臉識別技術領域的高語義特征及深度特征提取的缺陷,以及人工提取存在的誤差,運用深度學習算法和類比中心等算法,提高人臉識別在特征提取領域的技術能力。利用卷積神經(jīng)網(wǎng)絡減少人工干預,提高特征提取的算法精度,從而提高損失函數(shù)的精確值。
關鍵詞:人臉識別;算法優(yōu)化;深度學習;卷積神經(jīng)網(wǎng)絡
中圖分類號:TP312? ? ?文獻標識碼:A
文章編號:2096-1472(2021)-01-10-03
Abstract: Face recognition technology is widely used in ordinary mobile phone unlocking, face locking, face scanning payment, and security protection. Traditional machine learning algorithms are based on human facial features, and the effect is often not ideal due to serious imbalance of each type of sample and lack of scene effect. This paper aims to use deep learning algorithm and analog center algorithm to improve technical capability of face recognition with respect to feature extraction. Thus, defects of high semantic features and deep feature extraction, as well as errors in manual extraction will be greatly reduced. Convolutional neural network is used to reduce manual intervention, improve accuracy of feature extraction algorithm, so to improve the performance of loss function.
Keywords: face recognition; algorithm optimization; deep learning; convolutional neural network
1? ?引言(Introduction)
人臉識別始于20世紀60年代,隨著計算機技術和光學成像技術在最近幾年的興起和神經(jīng)網(wǎng)絡技術的發(fā)展,特別是神經(jīng)卷積網(wǎng)絡的巨大成功,人臉識別系統(tǒng)在人的圖像識別和檢測臉型的效果方面有了很大的提高。但是,傳統(tǒng)的人臉識別系統(tǒng)下算法分析技術的發(fā)展仍然存在巨大的不足,這也是本文想要探討和改善的。對此,本文將利用人臉面部檢測、局部二值模式、線性鑒別分析和深度學習網(wǎng)絡來對傳統(tǒng)的人臉識別流程做相關的優(yōu)化和修改,促使計算機能夠在最大程度上深入圖像的高語義,進一步挖掘其深度特征。同時,針對對比損失算法、采樣算法、類比中心損失算法、深度學習下Heatmap算法和軌跡追蹤算法做進一步的修改,不斷提高其精準度,減小其具體的誤差。最后,利用卷積神經(jīng)網(wǎng)絡來處理人臉問題,降低人工干預,減小人為誤差,提高機器自動化率。
2? ?傳統(tǒng)人臉識別的過程(The process of traditional face recognition)
無論是基于傳統(tǒng)的機器學習技術進行圖像處理,還是采用深度學習的信息技術進行圖像處理,過程都是一樣的。面部識別系統(tǒng)有四個基本組件:人臉檢測、對齊、匹配和編碼組成。因此,應該對基于傳統(tǒng)圖像數(shù)據(jù)處理技術和機器學習算法的人臉識別信息系統(tǒng)進行整體的研究和概述,以求得到傳統(tǒng)人臉識別的處理過程,如圖1所示。
3? 經(jīng)典的人臉識別機器學習算法(Classical face recognition machine learning)
經(jīng)典的人臉識別機器學習算法主要是借助計算機隨機生成的一個建議框,然后再利用它做相關目標的檢測工作,這個過程主要分為兩步。
(1)第一步,生成一個建議框。這個步驟最簡單的思想是在圖像中裁剪出一堆要檢測的幀,然后檢測幀中是否有目標。如果有目標,那么建議框在原始圖像中的位置就會檢測到目標的位置。因此,此步驟中目標的覆蓋率越高,生成建議框的策略就越好。常用的建議框生成策略有滑動窗口、選擇性搜索、隨機prim候選框等。人臉識別候選框如圖2所示。
(2)第二步,在得到特征向量后,可以使用傳統(tǒng)的機器學習分類器對特征進行分類,如AdaBoost、CASCADE、SVM、隨機森林等。經(jīng)過中國傳統(tǒng)的分類器分類,可以得到人臉識別區(qū)域、特征向量和分類置信度。通過這些信息,可以完成人臉的對齊、特征的表示以及匹配識別等工作。
4? 傳統(tǒng)人臉識別過程存在的問題分析(Analysis of existing problems in the process of traditional face recognition)
傳統(tǒng)的機器學習算法是基于人的臉部特征的,需要通過算法工程師大量的專家工作經(jīng)驗來進行數(shù)據(jù)特征信息工程和參數(shù)的調(diào)整,對于一個龐大的人臉類別,由于每類樣本的不均衡性嚴重、場景效果不是很好等因素,算法實現(xiàn)效果有時會不是很理想。
比如,傳統(tǒng)的人臉識別算法生成和使用的特征依然是淺層特征,無法從原始數(shù)據(jù)圖像中獲得更深入的高語義特征及其深度特征;為了獲得良好的識別效果,這些傳統(tǒng)的人臉識別算法必須結(jié)合人臉部位的特征,但在特征提取和識別過程中,人工的提取特征往往會出現(xiàn)意想不到的人為誤差;同時傳統(tǒng)的人臉識別算法在進行識別時,在沒有人工干預的情況下,無法從原始圖像中自動提取出有用的系統(tǒng)特征,而且在面對大數(shù)據(jù)時,傳統(tǒng)人臉捕捉方法更表現(xiàn)出其自身的巨大缺陷和困難。
5? 人臉識別技術的優(yōu)化和修改(Optimization and modification of face recognition technology)
5.1? ?克服高語義特征及深度特征進行的人臉識別的算法流程修改
針對高語義特征及深度特征的缺陷進行相關人臉識別算法流程的分析與修改如下。
5.1.1? ?直方圖均衡
使用OpenCV功能實現(xiàn)。OpenCV提供了直方圖均衡功能——CV::equalizeHist(),我們通過修改下面的main函數(shù),并且采用直方圖均衡化功能來實現(xiàn)這一點,效果如圖3所示。
int main()
{
Mat image = imread("Fig3.15(a)1top.BMP", 0);
Histogram1D h;
Mat histo = h.getHistogram(image);
for (int i = 0; i < 256; i++)
{
if (histo.at
cout << "Value " << i << " = " << histo.at
}
namedWindow("Histogram");
imshow("Histogram", h.getHistogramImage(image));
/*namedWindow("Cell");
imshow("Cell", image);
equalizeHist(image, image);
namedWindow("CellequalizeHist");
imshow("CellequalizeHist", image);
namedWindow("Histogram2");
imshow("Histogram2", h.getHistogramImage
(image));*/
waitKey(0);
return 0;
}
5.1.2? ?視網(wǎng)膜圖像增強
基于Retinex的圖像增強的目的是從原始圖像中估計出光亮度L,然后對r進行分解以消除光照不均勻的影響,從而改善圖像的視覺效果,就像人類的視覺系統(tǒng)一樣。Retinex算法分為三類,即從SSR(單尺度Retinex)到MSR(多尺度Retinex)再到最常用的Msrcr(多尺度Retinex帶顏色進行恢復)[1]。Msrcr算法使用顏色恢復因子C來調(diào)整三個顏色通道在原始圖像中的比例[2],以突出較暗區(qū)域的信息,從而消除圖像顏色失真的缺陷。
5.2? ?減少人工誤差問題的算法分析與修改
針對人工設定的特征通常在特征提取和識別過程中存在著不可預期的人工誤差問題的算法,分析與修改如下。
5.2.1? ?利用深度學習網(wǎng)絡進行人臉的識別
雖然卷積神經(jīng)網(wǎng)絡是一個黑箱模型,但它可以選擇通過分析數(shù)據(jù)進行訓練來表示圖像和對象的特征。因此,人臉識別算法可以通過卷積網(wǎng)絡提取大量的人臉特征向量,然后根據(jù)相似性判斷與數(shù)據(jù)庫進行比較,完成人臉識別的過程。針對這一問題第一用到的就是對比損失法,對比損失法不僅考慮到同一類中的距離最小化,還考慮到使用不同類中的距離最大化,充分利用深度學習網(wǎng)絡來訓練樣品的圖片數(shù)據(jù)信息,提高臉部識別的精度。本質(zhì)上,損失函數(shù)是利用同一人的照片在特征空間中距離足夠近,而同一人在特征空間中的距離足夠遠的特征來進行判斷的,直到距離超過特定的閾值。
5.2.2? ?對比損失的不足
由于對比度損失需要準備大量正負樣本,不可能長時間遍歷所有可能的樣本組合;沒有相應的數(shù)學理論支持,優(yōu)化的性能也非常有限,算法不易解釋,因此使用性價比不高。
5.2.3? ?對比損失的修改
利用現(xiàn)有的三重法不能充分運用小批量SGD訓練批量的缺點,創(chuàng)造性地將成對距離向量轉(zhuǎn)化為成對距離矩陣,設計了一種新的結(jié)構(gòu)化數(shù)據(jù)損失函數(shù)[3],這樣,訓練數(shù)據(jù)就可以以較大的概率找到硬陰性的樣本具體位置。隨著訓練的不斷進行,硬樣本的訓練將最大化類中距離,最小化類內(nèi)距離。
5.2.4? ?類別中心損失存在的不足
當負樣本很硬時,損失函數(shù)會很平滑,所以意味著梯度會很小。對于訓練來說,這意味著很硬的樣本不能得到充分的訓練,網(wǎng)絡不能獲得硬樣本的有效信息,因此硬樣本的效果會變差,從而偏離中心值。
5.2.5? ?對類別中心損失算法的修改
將同一類別壓縮在一起,最終得到更具區(qū)分性的特征。中心損失是指為每個類別管理提供這樣一個類別信息中心,并使最小批次的和對應中心一類每批樣品之間的最小距離,從而達到距離類內(nèi)的距離最小的目的[4]。
5.3? 從原始圖像中自動提取出識別特征的算法分析與修改
針對傳統(tǒng)的人臉識別算法在沒有人工干預的情況下,無法從原始圖像中自動提取出有用的識別特征問題的算法,分析與修改如下。
為了找到一種特征組合的方法,以實現(xiàn)最大類間離散度和最小類內(nèi)離散度,建議在低維表示中,相同的類應該緊密地聚集在一起;而不同的類,也應該盡可能地遠離。但是,由于這些算法都是基于特征的,這就需要算法工程師有大量的專家經(jīng)驗來調(diào)整特征和參數(shù)[5]。對于數(shù)據(jù)量大的人臉類別,由于每種樣本的嚴重不平衡的特點,使得場景效果不是很好,算法效果也不是很好。因此,我們可以利用深度學習中的卷積神經(jīng)系統(tǒng)網(wǎng)絡解決這一問題,總的來說,就是將輸入的面部圖像信息轉(zhuǎn)換為矢量表示[6]。
6? ?結(jié)論(Conclusion)
目前,對人臉識別算法的優(yōu)化達到了瓶頸期,技術層面、面部結(jié)構(gòu)的相似性、面部姿勢、年齡的變化、復雜環(huán)境的光照變化、面部裝飾物的屏蔽等方面的檢測[7],也面臨著很多問題,因此,基于各種算法技術的融合,解決人臉識別中的各種問題仍然擁有巨大的市場發(fā)展前景。而且由于神經(jīng)元數(shù)目多、操作時間長的特點,需要多幅人臉圖像進行訓練,但是在訓練過程中需要人為地不斷調(diào)整一些參數(shù),這就造成了巨大的不便,所以,對深度學習算法本身的研究,依然是未來發(fā)展的重點。[8]同時,運用深度學習算法和類比中心等算法可以提高人臉識別在技術領域的高語義特征的提取,利用卷積神經(jīng)網(wǎng)絡減少人工干預和誤差,也應該廣泛采用。
參考文獻(References)
[1] 孫權(quán),姚素英,李健,等.基于邊緣檢測的Retinex圖像增強算法[J].電子技術應用,2013(09):50-53.
[2] 張茗芳.動態(tài)語言Python探討與比較[J].企業(yè)科技與發(fā)展,2012(07):57-60.
[3] 鐘森海,汪烈軍,張莉.單訓練樣本條件下的人臉識別算法研究[J].激光雜志,2014(03):25-27.
[4] 徐向文,趙麗娜.人臉識別距離函數(shù)的討論[J].中國科技博覽,2011(22):81-82.
[5] 齊萌.Android環(huán)境下基于人臉識別的手機解鎖技術研究與軟件開發(fā)[D].江蘇:東南大學,2016.
[6] 肖陽.人臉檢測算法綜述[J].電子技術與軟件工程,2014(04):113-116.
[7] HyoJoon Kim, SangHui Jeong, JiHyeon Seo, et al. Augmented reality for botulinum toxin injection[J].Concurrency and Computation: Practice and Experience, 2020, 32(18):59-63.
[8] TaoYang, Xuran Zhao, Xun Wang, et al. Evaluating facial recognition:web services with adversarial and synthetic samples[J]. Neurocomputing, 2020, 46(13):16-19.
作者簡介:
鞏? ?震(1999-),男,本科生.研究領域:軟件開發(fā),信息研究.
陳丹紅(1970-),女,碩士,教授.研究領域:項目管理,信息研究.