遼寧工業大學電子與信息工程學院 汪金濤 曹玉東 李 羊
基于深度學習的人臉識別方法探究
遼寧工業大學電子與信息工程學院汪金濤曹玉東李羊
深度卷積神經網絡具有復雜的網絡結構,與傳統機器學習方法相比具有更強大的特征學習和特征表達能力。使用深度學習算法訓練的卷積神經網絡模型自提出以來在多個大規模人臉識別任務上取得了較高的準確率。文章從典型的網絡結構的構建、訓練方法和性能表現三個方面進行介紹,并展望未來發展的新方向。
卷積神經網絡;深度學習;人臉識別;網絡結構
人臉識別是圖像識別領域一個非常重要的研究方向,由于人臉圖像具有易采集的特性,因此受到許多行業的關注,具有廣闊的應用前景和巨大的商業市場。
在深度學習出現之前,人臉識別采用的主流方法是以Eigenfaces為代表的子空間分析方法。香港中文大學湯曉鷗教授所帶領的研究團隊將當時最為流行的3種子空間方法——主成分分析子空間(PCA)、貝葉斯子空間和線性判別分析子空間(LDA)有機地結合到同一個理論框架中,提出了統一子空間[1]分析方法.這種方法使用LBP和Gabor等特征對人臉圖像中鄰域像素區塊的灰度值或顏色值進行局部特征提取,然后對這些局部特征進行特征變化,得到更易于區分的人臉表示,在人臉識別領域最受關注的測試集LFW上取得了當時的最佳識別性能。
Facebook提出的DeepFace[2]便是一種在人臉識別領域進行了優化的深度學習網絡結構。輸入是正規化到152×152大小的3通道RGB人臉圖,接著是一個卷積層C1,有32個11×11×3大小的卷積核,每個通道的卷積核是11×11,所以3通道卷積核便是11×11×3,每個核的卷積結果為3通道上的卷積結果在對應位置累加得到,所以最后得到32張142×142大小的卷積結果圖。
C1后是一個最大池化層,核大小為3×3,步長為2,故得到32個71×71×3大小的圖片作為結果。M2之后是卷積層C3,這一層有16個卷積核,每個卷積核大小為9×9×16,16指的意思是從M2的32張輸出圖中選擇16張進行卷積,在每張圖以9×9為卷積核得到結果,再將16張卷積圖累加得到每個9×9×16大小卷積核卷積結果圖。
F7是一個全連接層,也就是普通神經網絡使用的隱藏層結構,它的輸入是將L6的16張卷積圖按照像素排列得到的向量,F7的隱藏單元個數為4096個,所以它的輸出也是4096維。DeepFace將F7的輸出作為表示人臉的特征。最后的F8則是一個softmax分類器。
Xiaoou在文獻[3]提出了DeepID,它包括4層卷積層,前三層卷積層之后都緊跟著一個最大池化層,在卷積層之后是一個全連接層,最后則是用于分類的softmax層。DeepID網絡的特別之處有以下幾點:
(1) 多尺度特征:DeepID網絡將第三層卷積層經過池化層后的輸出與第四層卷積層的輸出連接起來之后一起傳播給了全連接層作為輸入。對于網絡結構的特征學習來說這是很重要的一個變動,因為經過多層級聯池化過程,第四層卷積層擁有的特征圖尺寸只有2×1大小,因此很可能會成為特征學習的瓶頸所在。而第三層卷積層學習得到的特征比起第四層要更加具有全局性,因此將這兩層特征聯合起來有助于減少可能的信息損失,使得學習得到特征具有多尺度性;
(2) 網絡的深度:DeepID網絡有4層卷積層,3層池化層,是有深度的網絡結構;
(3) 全連接層神經元的個數少:DeepID網絡全連接層中神經元的個數為160個,它的輸入為第三個池化層的60×(3×2)維加上第四層卷積層的80×(2×1)維一共520維特征,輸出則是softmax層的輸入,因為一共有10000個類別,所輸出有10000維。即要用160個神經元去表示這10000個類別,這說明每個類別的特征都是十分稀疏的,這和神經網絡中的sparse autoencoder很相似,通過引入稀疏性使得學習得到的特征更加具有分類與表示能力。
隨著深度學習在圖像領域研究的深入,利用卷積神經網絡的卷積層、池化層和全連接層等基本結構,就可以讓這個網絡結構自己學習和提取相關特征,省略過往繁雜的建模過程。若能對網絡提取的特征表示進一步的優化,使其能夠更好的表達特征,加上復雜的推理,那么深度學習將在人臉識別等人工智能領域能取得更大的進展。
[1]Wang X,Tang X.A unified framework for subspace face recognition[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2004,26(9):1222-1228.
[2]Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap to human-level performance in face verification[C]// Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1701-1708.
[3]Sun Y,Wang X,Tang X.Deep learning face representation from predicting 10,000 classes[C]//Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1891-1898.
汪金濤(1992—),男,安徽合肥人,碩士研究生,研究方向:模式識別,深度學習。
曹玉東(1971—),男,遼寧鐵嶺人,博士,副教授,研究方向:圖像處理,模式識別。
李羊(1991—),男,河北石家莊人,碩士研究生,研究方向:圖像處理,模式識別。