宋一龍,汪棟洋,鐘欽瀚,林 董
(中國人民解放軍陸軍步兵學(xué)院(石家莊校區(qū)),河北 石家莊 050000)
隨著現(xiàn)代管理技術(shù)的不斷發(fā)展,在軍事管理中采用現(xiàn)代化手段越來越普及,其中人臉識別技術(shù)在軍事管理中得到廣泛應(yīng)用。人臉識別的關(guān)鍵是準(zhǔn)確、有效地進(jìn)行特征提取。與傳統(tǒng)特征識別過程中的定義特征、尋找特征不同,深度學(xué)習(xí)具有自主學(xué)習(xí)、最適匹配等優(yōu)點[1-3]。盧宏濤等對基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了闡述及總結(jié),分析了其在圖像分類、物體檢測等方面的應(yīng)用[4]。孫艷豐等提出了基于Fisher準(zhǔn)則的深度學(xué)習(xí)算法,該方法能有效降低模型的復(fù)雜程度,并在樣本較少的情況下得到了較好的應(yīng)用[5]。郭曉潔等提出了一種自適應(yīng)深度卷積神經(jīng)網(wǎng)絡(luò)算法,并在人臉識別中得到了良好的應(yīng)用,該方法有效地解決了大數(shù)據(jù)量下深度學(xué)習(xí)梯度消失的問題[6]。李亞等提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的跨年齡人臉識別的聯(lián)合學(xué)習(xí)方法,該方法實現(xiàn)了特征學(xué)習(xí)和最優(yōu)測度函數(shù)的同步學(xué)習(xí),試驗效果好[7]。
由于人臉特征的復(fù)雜性,一般的深度學(xué)習(xí)方法往往在圖像識別時會造成圖像結(jié)構(gòu)的丟失。在現(xiàn)有的基于深度學(xué)習(xí)的人臉特征提取方法中,根據(jù)特征提取方法過程中涉及的學(xué)習(xí)目標(biāo)函數(shù),可以分為基于Softmax函數(shù)訓(xùn)練、基于Siamese函數(shù)訓(xùn)練和基于Triplet函數(shù)訓(xùn)練,每種訓(xùn)練方法都有其優(yōu)缺點[8-10]。基于Softmax函數(shù)訓(xùn)練的人臉特征提取方法具有訓(xùn)練速度較快的優(yōu)點,但其學(xué)習(xí)到的特征判別性一般,存在泛化性能較差的問題;基于Triplet函數(shù)訓(xùn)練的人臉特征提取方法具有較好的判別性能;但其人臉特征提取方法存在訓(xùn)練速度較慢的缺點。綜合考慮各方法的特性,本文提出了基于混合訓(xùn)練的深度學(xué)習(xí)人臉特征提取方法,即采用了混合Softmax和Triplet函數(shù)訓(xùn)練的人臉特征提取方法,并對該方法的識別特性進(jìn)行了實驗分析,取得了良好的效果。
基于混合訓(xùn)練的深度學(xué)習(xí)人臉特征提取方法的流程圖如圖1所示。

圖1 基于混合訓(xùn)練的深度學(xué)習(xí)人臉特征提取流程圖
基于混合訓(xùn)練的深度學(xué)習(xí)人臉特征提取方法具體步驟如下。
1)利用Softmax函數(shù)訓(xùn)練一個多類人臉身份分類器。利用Softmax函數(shù)進(jìn)行訓(xùn)練,直到收斂為止。

2)基于步驟1)中訓(xùn)練好的網(wǎng)絡(luò)模型,進(jìn)行三元組人臉對的構(gòu)造。對于訓(xùn)練數(shù)據(jù)中的每張人臉圖像a,選擇出與a同類的所有人臉圖像中特征距離最大的圖像P,以及所有和a不同的人臉圖像中特征距離最小的圖像n,構(gòu)成三元組〈a,P,n〉。
3)對于生成的三元組人臉對,在利用步驟1)訓(xùn)練好了的網(wǎng)絡(luò)模型構(gòu)造訓(xùn)練Triplet網(wǎng)絡(luò)(見圖2),A、B、C部分的網(wǎng)絡(luò)權(quán)重直接從步驟1)中學(xué)習(xí)到的權(quán)重拷貝,作為訓(xùn)練Triplet網(wǎng)絡(luò)的初始值,并用Triplet函數(shù)進(jìn)行微調(diào)(fine-tuning)訓(xùn)練,直到收斂為止。采用的函數(shù)如下:

圖2 基于Triplet函數(shù)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
4)在測試數(shù)據(jù)上進(jìn)行測試。如果模型滿足預(yù)期的精度要求或者達(dá)到預(yù)設(shè)的迭代次數(shù),則停止訓(xùn)練;否則,利用上一步中學(xué)習(xí)到的Triplet模型再次進(jìn)行三元組構(gòu)造,并重復(fù)步驟3)、4)。在基于混合訓(xùn)練的方法中,由于基于Softmax訓(xùn)練的方法已經(jīng)給了Triplet網(wǎng)絡(luò)一個比較好的權(quán)重初始值,并且可以基于該初始值來挑選三元組訓(xùn)練數(shù)據(jù),因而采用本文提出的方法可以大大加快Triplet網(wǎng)絡(luò)的訓(xùn)練收斂速度。基于深度學(xué)習(xí)的人臉識別方法主要困難在于特征的獲取。當(dāng)人臉特征獲取到之后,就可以采用傳統(tǒng)的方法來進(jìn)行驗證(1∶1)和識別(I∶N)。本文采用基于L2的距離進(jìn)行特征比對:
式中,xi和yi分別是待比較的2個人臉的特征向量在第i維上的特征值;d是特征的維度。如果距離distance大于閾值T,則判斷2個人為不同的人;反之,為相同的人。
相關(guān)常用訓(xùn)練人臉識別模型的數(shù)據(jù)庫統(tǒng)計見表1。由表1可知,LFW提供的訓(xùn)練數(shù)據(jù)庫包含了13 233張人臉圖像,這些數(shù)據(jù)不足以訓(xùn)練一個大規(guī)模的深層網(wǎng)絡(luò)模型,而且人臉的數(shù)據(jù)量呈現(xiàn)越來越大的趨勢,現(xiàn)有的大規(guī)模人臉圖像數(shù)據(jù)已經(jīng)達(dá)到了百萬級別。考慮數(shù)據(jù)處理量及運算時間,本文選擇利用公開的CASIA-WebFace數(shù)據(jù)庫進(jìn)行訓(xùn)練網(wǎng)絡(luò)模型。

表1 現(xiàn)有的大規(guī)模非限制場景下的人臉圖像數(shù)據(jù)比較
原始的CASIA-WebFace人臉數(shù)據(jù)庫提供了檢測和對齊等預(yù)處理后的人臉圖像。然而,由于該數(shù)據(jù)庫沒有提供該預(yù)處理方法的相關(guān)參數(shù)說明,導(dǎo)致無法對測試圖像進(jìn)行同樣的預(yù)處理操作,為此直接對CASIA-WebFace提供的原始圖像進(jìn)行預(yù)處理,使訓(xùn)練圖像和測試圖像所采用的人臉圖像預(yù)處理方法相同。所采用的人臉預(yù)處理具體步驟如下。
1)人臉檢測。采用的人臉檢測器為基于HOG特征的線性人臉分類器,并在圖像金字塔上利用滑動窗口的方法進(jìn)行檢測。CASIA-WebFace原始數(shù)據(jù)庫經(jīng)過人臉檢測步驟后,得到約35萬張人臉圖像數(shù)據(jù)。
2)人臉對齊。本文沒有采用與DeepFace中一樣的基于3D人臉模型的對齊方法,而是簡單地使用基于2D的人臉對齊方法。對于人臉檢測步驟中檢測到的人臉窗口進(jìn)行人臉68個關(guān)鍵點檢測,并基于這68個人臉關(guān)鍵點與標(biāo)準(zhǔn)人臉關(guān)鍵點之間的匹配關(guān)系,利用最小二乘法求得最佳仿射變換矩陣,再將人臉圖像利用該仿射變換矩陣進(jìn)行變換,得到對齊過后的人臉圖像。數(shù)據(jù)預(yù)處理示意圖如圖3所示。

圖3 人臉數(shù)據(jù)預(yù)處理方法示意圖
3)圖像歸一化。如果直接利用原圖像作為網(wǎng)絡(luò)模型訓(xùn)練的輸入不利于網(wǎng)絡(luò)的學(xué)習(xí),因此需要對數(shù)據(jù)做預(yù)處理工作使其滿足零均值。首先,將像素值歸一化到0~l,并計算所有訓(xùn)練人臉圖像的均值圖像,即計算每個歸一化到相同大小的人臉圖像集每個像素位置的算術(shù)平均值;然后,將每一個訓(xùn)練和測試的人臉圖像都減去該均值人臉圖像,得到一個零均值人臉圖像。
2.3.1 人臉驗證
本文比較了所訓(xùn)練網(wǎng)絡(luò)提取特征在人臉驗證任務(wù)中的性能。LFW人臉驗證測試數(shù)據(jù)包括了10組測試集,每組包含300對的人臉圖像測試對,正負(fù)測試對的比例為1∶1。不同的人臉驗證方法的ROC曲線圖結(jié)果如圖4所示。從圖4中可以看出,基于混合訓(xùn)練的方法獲得的人臉驗證性能顯著好于基于Softmax函數(shù)的訓(xùn)練方法。

圖4 LFW評測數(shù)據(jù)庫中不同算法的ROC曲線
在LFW測試數(shù)據(jù)庫中產(chǎn)生錯誤人臉驗證結(jié)果的部分圖片如圖5所示。從圖5中可以看出,錯誤的拒絕驗證(即同一個人被分類器判斷為不同的人)主要由人臉圖像出現(xiàn)嚴(yán)重的遮擋,如墨鏡、姿態(tài)變化較大的人臉圖像以及錯誤的人臉對齊導(dǎo)致。而錯誤的識別(即非同一個人被分類器判斷為同一個人)主要是由待比較的2張人臉圖像具有相似的姿態(tài)和表情所導(dǎo)致。這些錯誤的發(fā)生,主要原因在于人臉特征提取模型還沒能充分挖掘出針對人臉身份相關(guān)的判別性特征;因此,為進(jìn)一步提高人臉驗證的性能,擁有海量的人臉數(shù)據(jù)顯得特別的重要,特別是包含多樣性較好的人臉數(shù)據(jù)。而對于遮擋和墨鏡等造成的錯誤,可以采用多區(qū)域特征提取融合的方法進(jìn)一步提高人臉驗證的準(zhǔn)確性。


圖5 判斷錯誤的部分圖片
2.3.2 人臉識別
將訓(xùn)練好的人臉特征提取模型用于人臉識別任務(wù)中,以進(jìn)行泛化性分析,即驗證在一個圖像庫中訓(xùn)練好的特征能否遷移到另外一個圖像庫中。泛化性能是對一個人臉特征進(jìn)行判斷的重要依據(jù)。本文分別比對了在Feret、MultiPIE、EFI以及Carmeral2人臉數(shù)據(jù)庫中進(jìn)行人臉識別,其中,MultiPIE數(shù)據(jù)庫包含了在不同姿態(tài)、表情和光照下的共337個不同的人臉圖像,使用后137人中的7個姿態(tài)下的人臉圖像用于測試,共包含了1 879張人臉圖像;Feret數(shù)據(jù)庫包含了200個人在9個不同姿態(tài)下的人臉圖像,使用后100個人的人臉圖像用于測試,共包含900張圖像;EFI人臉數(shù)據(jù)庫包含了100個人在10個不同姿態(tài)下的人臉圖像,將其該數(shù)據(jù)庫所有的圖像用于做測試;Cameral2人臉數(shù)據(jù)庫包含了100個人,每個人包含了16張不同姿態(tài)下的人臉圖像,將所有的圖像用于測試。對這些測試人臉數(shù)據(jù)庫中的人臉圖像進(jìn)行特征提取,并根據(jù)提取的特征,計算其兩兩之間的距離。根據(jù)距離是否超過給定的閾值作為識別的結(jié)果。性能比較結(jié)果見表2。

表2 不同的人臉識別算法在不同的數(shù)據(jù)庫上的性能比較
從表2中可以看出,雖然本文提出的方法沒有傳統(tǒng)人臉識別方法一樣的訓(xùn)練過程,但是在各個數(shù)據(jù)庫中分別取得了非常好的準(zhǔn)確率。
人臉檢索就是在海量數(shù)據(jù)庫中尋找給定特征的人臉圖像。為了進(jìn)行量化比較分析,獨立制作了一個非名人人臉數(shù)據(jù)庫,其包含了100個人共超過2萬張人臉圖像。分別利用Softmax函數(shù)和混合訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行人臉特征提取,并用于人臉檢索中。隨機(jī)選擇5 000張圖片作為測試數(shù)據(jù),計算比較在不同的返回圖像數(shù)目下的準(zhǔn)確率,結(jié)果見表3。從表3可以看出,2種方法在檢索返回的最相似人臉數(shù)目較小時,準(zhǔn)確率都比較高;而隨著返回相似人臉數(shù)目的增大,準(zhǔn)確率都隨之逐步下降;此外,在返回相同的圖片數(shù)目時,基于混合訓(xùn)練網(wǎng)絡(luò)模型提取到的人臉特征的平均檢索準(zhǔn)確率要好于基于Softmax函數(shù)訓(xùn)練模型提取的人臉特征的檢索準(zhǔn)確率。

表3 人臉檢索準(zhǔn)確率比較 (%)
本文針對不同的特征學(xué)習(xí)方法的優(yōu)缺點,提出了一種基于混合訓(xùn)練的深度學(xué)習(xí)人臉識別的方法。該方法可以加快網(wǎng)絡(luò)訓(xùn)練的速度,改進(jìn)特征提取的鑒別能力,并在人臉驗證、人臉識別和人臉檢索任務(wù)中,驗證了其有效性。
[1] Sarikaya R,Hinton G E,Deoras A. Application of deep belief networks for natural language understanding[J].IEEE Transactions on Audio Speech and Language Processing,2014,22(4):778-784.
[2] Mnih A,Kavukcuoglu K.Learning word embeddings efficiently with noise-contrastive estimation[C].Advances in Neural Information Processing Systems,2013.
[3] 萬經(jīng)勇.基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別的研究與應(yīng)用[D].廈門:廈門大學(xué),2016.
[4] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[5] 孫艷豐,齊光磊,胡永利,等.基于改進(jìn)Fisher準(zhǔn)則的深度卷積神經(jīng)網(wǎng)絡(luò)識別算法[J].北京工業(yè)大學(xué)學(xué)報,2015(6):835-841.
[6] 郭曉潔,陳良,沈長青,等.自適應(yīng)深度卷積神經(jīng)網(wǎng)絡(luò)在人臉識別上的應(yīng)用[J].自動化技術(shù)與應(yīng)用,2017,36(7):72-77.
[7] 李亞,王廣潤,王青,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的跨年齡人臉識別[J].北京郵電大學(xué)學(xué)報,2017,40(1):84-88.
[8] Graves A,Jaitly N.Towards end-to-end speech recognition with recurrent neural networks[C]//Proceedings of the 3 1st International Conference on Machine Learning(ICML14).2014.
[9] Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[10] 嚴(yán)嚴(yán),陳日偉,王菡子,等.基于深度學(xué)習(xí)的人臉分析研究進(jìn)展[J].廈門大學(xué)學(xué)報:自然科學(xué)版,2017,56(1):13-24.