賈小碩 曾上游 周悅 馬鋮旭



摘? 要: 傳統人臉圖像對的相似度判定方法易受環境、像素值等因素影響,導致其方法的準確率很低。為此,文中為提高人臉圖像對的相似度判定準確率,設計一種利用卷積神經網絡(CNN)的非線性特點與優化邊緣算子特點相結合的輕量化網絡。實驗結果表明,設計的輕量化網絡與傳統網絡對比在準確率上有效提升大約2%;在模型大小上從原有的40.2 MB縮小到18.9 MB。并且與已有算法做了全面對比,得出改進算法準確率高于已有算法,驗證了改進算法的可實施性。
關鍵詞: 人臉圖像對; 相似度判定; 改進Siamese網絡; 輕量化網絡; 輕量化建模; 對比驗證
中圖分類號: TN911.73?34; TP391.4? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)18?0050?04
Abstract: The traditional method for deciding the similarity of face image pairs is susceptible to some factors such as environment and pixel values, resulting in low accuracy of the method. Therefore, a lightweight network that combines the nonlinear characteristics of convolutional neural networks (CNN) with the characteristics of optimized edge operators is designed to improve the accuracy of the face image pair similarity determination. The experimental results show that, in comparison with the traditional network, the designed lightweight network can increase the accuracy by about 2%, and the model size is reduced from the original 40.2 MB to 18.9 MB. In the experiment, a comprehensive comparison was made with the existing algorithms. The accuracy of the improved algorithm is higher than that of the existing algorithms.
Keywords: face image pair; similarity determination; improved Siamese network; lightweight network; lightweight modeling; comparison validation
0? 引? 言
人臉圖像對的相似度[1]判定是計算機視覺中重要的方向,并廣泛地應用在目標追蹤[2]、目標定位檢測、單目標圖像處理等技術上。隨著Geoffrey Hinton的深度學習思想被提出,卷積神經網絡(Convolutional Neural Network,CNN)在圖像處理領域有了很大的突破,與傳統方法相比,在準確率、運行時間上均取得重大突破,其中最具有代表性的CNN模型有VGG[3],GoogLeNet[4],ResNet[5]等。在人臉圖像對的相似性判定上,Siamese Network [6]最為經典。Siamese Network將CNN與歐氏距離相結合對人臉圖像對進行相似度判定,其CNN部分采用GoogLeNet,但仍存在模型較大,準確率受環境影響等問題。針對以上問題,本文設計將優化的邊緣算法與改進后CNN相結合的輕量化My Net 模型優點是:
1) 優化的邊緣算法,簡化圖像周圍環境復雜性干擾;
2) 改進后的CNN,在準確率不變的前提下,減小模型大小,提升運算速度。
實驗結果證明,My Net模型和Siamese Network相比,不僅準確率得到提高,模型更得到縮小,全面驗證了在人臉圖像相似度判定上,邊緣檢測算法和輕量化CNN結合的高效性。
1 算法改進
1.1? 優化的邊緣算子
在Robinson算子的基礎上,設計一種優化的邊緣算子NR,在圖像的極坐標系的方位處,給出8個極坐標卷積核,具體如圖1所示。
圖1i)與8個方位卷積核R1~R8做卷積操作再累加得出結果cov,如下:
得到cov中的最小值min和最大值max,再代入公式(2),最終得到邊緣特征圖像P的像素值Pm,i,j為:
式中:m,i,j分別表示圖像的寬、長、通數。
對比NR算子與LBP+HOG算子[7]的效果,如圖2所示。
圖2展示了NR在人臉圖像中提取的邊緣輪廓比LBP+HOG算子更清晰,并緩解了環境的干擾。
1.2? My?CNN模型
多次實驗中發現GoogLeNet網絡的前半部分主要對圖像進行粗略地邊緣特征提取,中間部分對人臉圖像進行輪廓比例性計算,最后對人臉圖像進行更為細節化的計算,最終對人臉圖像起到分類效果。這里利用3×3卷積核[8]設計My?CNN結構,如表1所示。
此My?CNN模型主要采用3×3的卷積核,一方面減小網絡參數,提升運算速度;另一方面結合NR算子進行高效人臉特征提取。本文會在實驗中進行全面性效果對比。
1.3? My Net模型
這里主要將NR與表1的My?CNN相結合。利用NR替代傳統CNN前半部分進行粗略化人臉特征提取,再利用My?CNN對整體邊緣特征進行非線性化操作,得出人臉圖像的主要特征值。之后對特征值進行歐氏距離計算得出人臉圖像對的相似度。具體算法如圖3所示。
Image1和Image2 兩張人臉圖像以及對應標簽Y作為算法整體的輸入,Image1和Image2相似則Y為0,反之Y為1;Image1和Image2經過圖像預處理(Image preprocessing)操作,得到225×225格式的灰度圖;2張225×225格式的灰度圖傳輸到NR處,進行邊緣特征提取,得到2張邊緣特征圖像;2張邊緣特征值圖像同時輸入到Net網絡中,分別得到對應的高維特征值G1和G2;高維特征值G1和G2作歐氏距離(Euclidean Distance)計算得到距離值Dist,將Dist與標簽Y對比來優化CNN參數。
2? 實驗分析
2.1? CACD2000數據集
CACD2000數據集包含16萬張人臉圖像,并且個人數據集中都包含了其各年齡段,各場景下的人臉圖像。這里從CACD2000數據集中隨機選出12 000對人臉圖像作為訓練集,其中6 000對人臉圖像作為正確匹配,標注為0,剩余的6 000對人臉圖像作為錯誤匹配,標注為1。從CACD2000數據集中隨機選出3 000對人臉圖像作為測試集,1 500對的人臉圖像作為同一人臉的正確匹配,標注為0,其余的1 500對人臉圖像作為非同一人臉的非正確匹配,標注為1。
2.2? 訓練模型
My?CNN是在TensorFlow框架下搭建的網絡模型,服務器基本配置:AMD Athlon(tm) Ⅱ X4 640 Processor x4;NVIDIA GeForce GTX 1070 GPU;Ubuntu 16.04系統。
訓練過程中的超參數設置:mini batch?size設為1;初始化的學習率為0.001;學習率的衰減周期為400;衰減的系數為0.47;選用具有自適應學習率優化功能的Adam Optimizer優化器,即在每次學習率迭代周期中,按照預設的學習率衰減系數進行周期性衰減更新學習率,為此來優化網絡中的權重和偏置。
2.3? 實驗結果與分析
以下的實驗將驗證NR處理優于無預處理以及LBP+HOG處理,并進一步驗證NR與My?CNN相結合的方式在準確率和模型大小上亦優于傳統CNN模型。
這里采用五折交叉算法來獲取圖像對的最優閾值。在5個閾值點下,將測試集任意分成5份子測試集,其中的4份子測試集作為訓練集用來計算每一個閾值點對應的準確率,取最高準確率的閾值點作為本次循環的較優閾值并計算出另一份子測試集的準確率并視作測試集本次循環下的準確率。
采用感受性曲線(Receiver Operating Characteristic,ROC)來評價網絡的優越性。其中實際標簽和測試標簽都為0,稱作True Positive(tp);實際標簽為0而測試標簽為1,稱作True Negative(tn);實際標簽和測試標簽都為1,稱作False Negative(fn);實際標簽為1,測試集標簽為0,稱作False Positive(fp)。
為驗證NR預處理可行性以及預處理效果優于非預處理效果的前提下,在My?CNN的基礎上對比My Net,My Net?NR,My Net?LBP+HOG的準確率。具體如表2所示,對應的ROC趨勢圖如圖4所示。
由表2和圖4看出,以My Net為基礎網絡,經NR或者LBP+HOG下的預處理要高于無預處理下的準確率;經NR預處理的圖片測試的準確率要高于經LBP+HOG處理以及無預處理的準確率。
下面進一步驗證NR與My?CNN相結合的My Net模型要優于傳統網絡,將在NR以及LBP+HOG基礎上分別對比My Net,Mobile Net[9],Squeeze Net[10]的準確率以及模型大小,如表3、表4所示。
三張網絡的ROC曲線圖如圖5所示。
由表3、表4和圖5看出,在NR,LBP+HOG的基礎上,My?Net的準確率要高于Squeeze Net和Mobile Net,并且模型大小得到很大幅度的縮減。結合表2,驗證了在模型大小以及準確率方面NR和LBP+HOG可替代傳統CNN的前幾層并與My?CNN相結合實行模型的輕量化達到更高效的人臉特征提取。表2也驗證在預處理方面,本文的NR處理要優于LBP+HOG的處理方式。
3? 結? 論
本文設計利用NR算子特點與CNN特點相結合的輕量化My Net模型。實驗充分驗證了利用NR特點代替傳統CNN前幾層的特征提取并與簡單的My?CNN組合的My Net,在人臉圖像相似度判定上,比傳統CNN特征提取更為有效,在模型大小以及準確率上,My Net模型要比傳統模型CNN更有突破性。本文在My?CNN基礎上,驗證了NR要比LBP+HOG在網絡預處理方面,更有優越性。
參考文獻
[1] 王朝卿,沈小林,李磊.圖像相似度計算算法分析[J].現代電子技術,2019,42(9):31?34.
[2] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully?convolutional Siamese networks for object tracking [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 850?865.