張丹丹,李 雷
(南京郵電大學 非機構化數據計算理論與應用研究中心,江蘇 南京 210046)
基于PCANet-RF的人臉檢測系統
張丹丹,李 雷
(南京郵電大學 非機構化數據計算理論與應用研究中心,江蘇 南京 210046)
文中提出一種基于簡化卷積神經網絡的特征提取方法的人臉檢測算法。圖像的特征提取較為復雜,需要大量的預處理。深度學習減少了特征提取的工作量,卷積神經網絡就是這方面應用的典型例子。但是,卷積神經網絡參數訓練時間過長,調參主要依靠實驗人員的調參技巧,這大大降低了卷積神經網絡應用的初衷。此外,卷積神經網絡的分類能力較弱,分類效果并不好。綜合以上兩點,文中應用一種簡化的深度學習方法PCANet(主成分分析網絡)提取圖像特征,降低對調參的要求,同時用RF(隨機森林)對其進行后期分類,提高人臉識別分類效果。實驗結果表明,提出的方法對人臉識別率可以達到99%,進一步證明了PCANet在特征提取方面的優越性。
人臉檢測;卷積神經網絡;隨機森林;特征提取;主成分分析網絡
以人體視覺為基礎的圖像分類一直是科研的重點。因為隨著光線的變化、非視角的變化、誤差等都會對分類結果產生巨大的影響。人臉檢測一直是圖像分類中的研究熱點。人臉檢測是指在輸入圖像中分辨圖像中的內容是否為人臉。它在圖像檢索、視覺監視和新一代人機界面等領域都有著巨大的應用價值,一直是模式識別和人工智能等領域的重要研究課題。
常用的人臉檢測方法分為三類:
(1)基于幾何特征的方法。即結構匹配算法,利用人類面部器官在幾何上體現的特征在圖像中定位人臉。但由于此方法對強烈變化的表情和姿態具有較差的魯棒性,因此該方法在實際中并不單一應用;
(2)基于彈性圖匹配的方法。此方法使用動態鏈接結構的彈性匹配定位人臉,然后與已有的人臉庫進行匹配。此方法識別率較高,但是計算量大且識別速度慢;
(3)基于統計理論的人臉檢測方法。此方法的基本思想是對大量的人臉與非人臉進行統計并建立庫,用庫對分類器進行訓練進行識別。此方法在人臉檢測領域有著不可替代的地位。
卷積神經網絡因其可以減少圖片預處理工作而引起了廣泛關注。LeCun等[1-2]證明了卷積神經網絡在手寫體識別上實現特定任務的能力。卷積神經網絡對于目標背景、姿勢等變化表現出了良好的不變性[3-4]。因為卷積神經網絡的上述優點,關于卷積神經網絡的模型也在更大的范圍得到了進一步發展[5-6]。Brian[7]將卷積神經網絡應用于Avater CAP-TCHA數據中,并取得了99%的正確率。F.F.C Tivive等[8]提出了一種基于分流抑制的卷積神經網絡并應用于人臉檢測。Jawad等[9]將卷積網絡作為預處理的過程與支持向量機相結合,提出了一種卷積神經網絡-支持向量機模型并成功應用于機器人系統。
卷積神經網絡可以較好地解決預處理復雜的問題,針對其調參時間長、要求高的問題,文中應用一種簡化的卷積神經網,PCA卷積神經網絡。隨機森林算法被證明對分類有良好的效果。Mosta.K等[10]用兩種方法證明了隨機森林對人臉識別分類有效。因此文中采用隨機森林對卷積神經網絡提取的特征進行分類。
1.1 卷積神經網絡
卷積神經網絡作為一種高效的識別算法,近些年引起了廣泛的關注。經典的卷積神經網絡模型主要由兩部分組成:卷積層、下采樣層。卷積層是卷積神經網絡的重要特性的表現,充分利用卷積的特點,增強特征信號,是提取圖像特征保持其不變性的具體體現。卷積層后是一個下采樣層,用來減少計算時間以及保持空間和結構上的不變性。
1.1.1 卷積層
卷積層,是指用一個可學習的卷積核與上一層輸出的特征圖進行卷積運算,并通過激活函數輸出。卷積運算的一個優點是可以增強原信號的特征,同時降低噪音。卷積層的形式如式(1):
(1)
其中,l代表層數;k是卷積核;Mj代表輸入特征圖的一個選擇。每個輸出圖有一個偏置b。
1.1.2 下采樣層
下采樣層是利用圖像的局部相關性原理,對對象進行采樣,在減少數據處理量的同時保留有用的信息。假設有N個特征圖,特征圖中的每個2×2鄰域相加再乘以一個可訓練的參數,最后加上一個偏執參數,通過輸出函數計算就得到此下采樣層的一個輸出單元。
(2)
其中,down(·)表示次抽樣函數。次抽樣函數一般是對該層輸入圖像的一個n×n大小的區域求和,因此,輸出圖像的大小是輸入圖像大小的1/n。每一個輸出的特征圖有自己的β和b。
1.2 PCANet
主成分分析網絡(PCANet)是由Tsung_Han Chan等[11]提出的一種簡化的卷積神經網絡體征提取方法。該網絡的計算過程包括三個階段:第一、二階段為主成分分析階段,第三階段是哈希和直方圖處理階段。

1.2.1 主成分分析(第一階段)
首先,將圖像按像素分塊:
xi,1,xi,2,…,xi,mn∈Rk1k2
其中,xi.j表示第Ii張圖像的第j個分塊矩陣。
將每個分塊矩陣按列優先化為列向量,每一列減去列平均值得到的向量為:
(3)
對所有輸入圖像進行分塊處理,并且合并得到的向量為:
(4)
假設第i層的濾波器是Li,通過PCA求濾波器,例如式(5):

(5)
其中,IL1為L1×L1單位矩陣的大小。因為L1是XXT的主特征向量,因此PCA濾波結果可以表示為:
(6)

第一階段的主要任務是提出濾波器,并且對圖片進行第一次卷積濾波,如圖1所示。

圖1 第一階段過程圖
1.2.2 主成分分析(第二階段)
本階段與第一階段幾乎相同,第一階段的第i個濾波器的輸出表示為:

(7)
(8)

(9)
合并所有的濾波輸出,結果為:
Y=[Y1,Y2,…,YL1]∈RK1K2×L1Nmn
(10)
第二階段的PCA濾波表示為:
(11)
(12)
第二階段的輸出有L1L2個。如果采用更深度的結構可以取得更好的結果,那么可以簡單重復以上的PCA步驟。
1.2.3 哈希和直方圖處理(第三階段)

(13)

(14)
根據實際應用,這些塊的分割可以重疊,也可以不重疊。不重疊的塊適用于面部圖像,重疊的塊適用于手寫體識別、文本識別以及實物圖像。
第三階段處理示意圖如圖2所示。

圖2 第三階段過程圖
1.3 隨機森林算法
1.3.1 隨機森林
隨機森林(Random Forest),算法是通過訓練N個決策樹進而生成模型,然后充分利用多個決策樹進行分類的一種算法。算法可以用來進行分類、聚類、回歸和生存分析等運算。優點是無需交叉驗證來評價算法分類的準確性,其算法自帶OOB(OutOfBag)評估。
1.3.2Bootstrsap采樣
設集合S中含有n個不同的樣本{x1,x2,…,xn},每次有放回的從集合S中抽取一個樣本,一共抽取n次,可以形成新的集合S*。
1.3.3 隨機森林采樣的算法流程
(1)利用Bootstrsap方法重采樣,隨機產生T個訓練集S1,S2,…,ST。
(2)利用每個訓練集,生成對應的決策樹C1,C2,…,CT。在每個非葉子節點上選擇屬性前,從M個屬性中隨機抽取m個屬性作為當前節點的分裂屬性集,并以這m個屬性中最好的分裂方式對該節點進行分裂。
(3)每棵樹都完整生長,而不進行剪枝。
(4)對于測試集樣本X,用每個決策樹進行測試,得到對應的類別C1(X),C2(X),…,CT(X)。
(5)采用投票的方式,將T個決策樹中輸出最多的類別作為測試集樣本X所屬的類別。
1.4 PCANet-RF算法
卷積神經網絡可以有效地提取圖像特征,但是計算量大且對調參技巧要求較高。因此文中應用一種簡化的卷積神經網絡PCANet,高效地提取圖像特征。
文中主要研究一種混合的分類系統,基于PCANet的隨機森林人臉識別系統。該系統主要包括兩個部分:PCANet提取圖像特征、隨機森林分類,如圖3所示。

圖3 PCA-RF人臉識別系統
2.1 實驗準備
文中使用Intel Corei3 2.26 GHz處理器和512 MB內存的計算機系統。表1給出了文中方法的檢測結果,并和一些比較常用的檢測結果進行比較。
根據文獻[4]的實驗結果,濾波器的數量、分塊的大小、訓練子集的大小都對網絡的分類效果有很大影響。文中實驗的網絡濾波器的大小為k1=k2=5,無重疊的分塊大小為8×6,濾波器的數量為L1×L2。

表1 訓練集對分辨率的影響
2.2 訓練子集大小對實驗結果的影響
表1顯示了參數設置為2.1中默認設置時,訓練子集大小與識別率的關系。從表中可以看到,隨著訓練子集的增加,訓練樣本與測試樣本的正確率都隨之增加。基于PCA網絡的隨機森林方法的人臉檢測系統,其優點是運行時間快,100個測試集需要120.73 s,但是測試集的數量不宜過大,否則容易超出內存空間,對硬件的要求較高。
2.3 實驗結果對比分析
可用于人臉檢測的數據庫類型有很多,文中選用CMU人臉數據庫[12]進行檢測率測試。選用了4 000張大小為32×32的圖片訓練神經網絡。人臉與非人臉的目標值分別被標成1和-1。
檢測結果對比見表2。

表2 檢測結果對比
實驗結果表明,文中所提出的人臉識別算法,對人臉的識別率可達99%,與其他常用的人臉識別算法相比識別率明顯有所提高。
PCANet神經網絡已被成功應用于人臉識別、手寫體識別等方面。文中初步探討了PCANet網絡與隨機森林方法相結合在人臉檢測方面的應用,提出了基于PCANet-RF的人臉檢測方法的工作原理,并進行了仿真實驗,取得了令人滿意的效果,部分檢測圖像如圖4所示。所提方法在人臉檢測的應用中有著廣闊的前景。接下來的工作是進一步對所提方法進行改進,希望可以進一步提高其性能。

圖4 CMU數據庫人臉檢測部分結果
[1]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[2]LeCunY,BengioY.Convolutionalnetworksforimages,speech,andtime-series[M]//Thehandbookofbraintheoryandneuralnetworks.[s.l.]:MITPress,1995.
[3]LeCunY,HuangJF,BottouL.Learningmethodsforgenericobjectrecognitionwithinvariancetoposeandlighting[C]//ProceedingsofCVPR.[s.l.]:IEEEPress,2004.
[4]CheungB,SableC.Hybridevolutionofconvolutionalnetworks[C]//Procof10thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2011:293-297.
[5]LeeH,PhamP,NgAY.Unsupervisedfeaturelearningforaudioclassificationusingconvolutionaldeepbeliefnetworks[C]//ProcofNIPS.[s.l.]:[s.n.],2009:1-9.
[6]MirowskiP,LeCunY,MadhavanD,etal.ComparingSVMandconvolutionalnetworksforepilepticseizurepredictionfromintracranialEEG(R)[C]//Procofmachinelearningandsignalprocessing.[s.l.]:IEEE,2008.
[7]CheungB.Convolutionalneuralnetworksappliedtohumanfaceclassification[C]//Procof11thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2012:580-583.
[8]TiviveFFC,BouzerdoumA.Afacedetectionsystemusingshuntinginhibitoryconvolutionalneuralnetworks[C]//ProcofIEEEinternationaljointconferenceonneuralnetworks.[s.l.]:IEEE,2004:2571-2575.
[9]NagiJ,CaroGAD.ConvolutionalneuralsupportvectormacInes:hybridvisualpatternclassifiersformulti-robotsystems[C]//Procof11thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2012:27-32.
[10]MeguidMKAE,LevineMD.Fullyautomatedrecognitionofspontaneousfacialexpressionsinvideosusingrandomforestclassifiers[J].IEEETransactionsonAffectiveComputing,2014,5(2):141-154.
[11]ChanTsung-Han,JiaK.PCANet:asimpledeeplearningbaselineforimageclassification?[EB/OL].2014.http://arxiv.org/abs/1404.3606.
[12]TheCMUPIEdatabase[EB/OL].2012.http://vasc.ri.cmu.edu/idb/html/face/.
[13]RowleyH,BalujaS,KanadeT.Neuralnetwork-basedfacedetection[J].IEEETransonPatternAnalysisandMachineIntelligence,1998,20(1):23-38.
[14]ViolaP,JonesM.Rapidobjectdetectionusingaboostedcascadeofsimplefeatures[C]//Procofacceptedconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2001:511-518.
[15]CarciaC,DelakisM.Convolutionalfacefinder:aneuralarchitectureforfastandrobustfacedetection[J].IEEETransonPatternsAnalysisandMachineIntelligence,2004,26(11):1408-1423.
Face Detection System Based on PCANet-RF
ZHANG Dan-dan,LI Lei
(Unstructured Data Calculation Theory and Application Research Center,Nanjing University of Posts and Telecommunications,Nanjing 210046,China)
A face detection system was presented based on a simple convolutional neural network.Feature extraction of image is usually complicated which needs much pretreatment.Deep learning reduces pretreatment,such as convolutional neural network,but it needs more time of training and requires certain ability to adjust the parameters,which contrary to the original intention.What is more,classification capability and result of convolutional neural network is not well.Combination of above,the PCANet for feature extraction is applied to lower the ability to adjust the parameters and Random Forest for image classification is used to improve the recognition rate.This method has got a recognition rate as 99%.Experiments has confirmed that PCANet-RF can be successfully used in image classification.
face detection;convolutional neural network;random forest;feature extraction;PCANet
2015-05-15
2015-08-20
時間:2016-01-26
國家自然科學基金資助項目(61070234,61071167,61373137);江蘇省普通高校專業學位研究生科研實踐計劃省立(SJLX_0376)
張丹丹(1990-),女,碩士研究生,研究方向為圖像處理;李 雷,博士,教授,碩士生導師,研究方向為模式識別與智能系統、智能信息處理。
http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1520.044.html
TP391
A
1673-629X(2016)02-0031-04
10.3969/j.issn.1673-629X.2016.02.007