陳 凡,童 瑩,曹雪虹
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
復雜環境下基于視覺顯著性的人臉目標檢測
陳 凡1,童 瑩2,曹雪虹2
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
當前復雜環境下人臉識別因受目標背景雜亂等因素影響,分類效果不理想。針對此問題,提出了基于視覺顯著性的人臉目標檢測方法,利用基于圖論的視覺顯著性算法(Graph-Based Visual Saliency,GBVS)提取復雜環境中的人臉目標的顯著圖,對顯著圖進行閾值分割和形態學操作得到二值人臉目標區域,以區域質心為中心,以區域邊緣到質心的最小距離為邊長,截取圖像中的準確人臉區域,實現復雜環境下的人臉目標檢測。在LFW數據庫上的實驗結果表明,所提算法能夠準確地完成“摳圖”的任務,具有較為理想的人臉檢測效果,因算法實現過程無需人工干預,可有效摒除雜亂背景干擾,且提高了檢測速度,實現了無監督的人臉檢測,為智能化人臉識別提供了理論研究基礎。
復雜環境;基于圖論的視覺顯著性算法;視覺顯著性;人臉檢測
隨著圖像處理和模式識別技術的發展,人臉識別技術已經成為現代模式識別和人工智能領域的研究熱點之一。其中,人臉檢測是人臉識別的預處理步驟,可以有效去除背景干擾,尤其對復雜環境下的人臉識別,進行人臉檢測尤為重要。人臉檢測在近二十年的時間內取得了長足的發展,各種各樣的人臉檢測算法層出不窮,主要包括基于模板匹配的人臉檢測算法和基于膚色模型的檢測算法兩類[1]。基于模板匹配的人臉檢測方法[2-3]是根據先驗數據歸納出一個統一的模板,然后根據一個能量函數確定被檢測域中與模板匹配度最高的區域,即人臉區域。基于膚色模型的人臉檢測算法[4]主要依據是在彩色圖像中,人臉的膚色是區別與非臉的一個顯著特征。兩種方法各有利弊[5]。基于模板匹配的人臉檢測算法原理簡單,速度快,但由于不同人臉差異很大,很難設計出精確匹配的模板,再加上環境的復雜性,很難獲得理想的人臉檢測效果。基于膚色模型的算法是在彩色圖像中檢測人臉的一種很常用的算法,但由于人體其他部位可能具有和人臉相同的膚色,比如男性赤膊等,并且某些場景中的背景也可能會和人臉皮膚有相同的模型分布,因此該方法魯棒性差。
為了解決復雜環境下的人臉檢測問題[6-7],比如光照、多姿態、面部遮擋、復雜背景等因素的影響,提出了基于視覺顯著性的人臉檢測算法。視覺注意機制是人類視覺的一項重要的心理調節機制,視覺顯著性是利用人的視覺注意機制,在大量的視覺信息中迅速找到顯著的或感興趣的物體。當人眼看到一幅帶有復雜背景的圖片時,一般情況下,會把注意力放在圖像中最顯著的區域。因此,所提出的基于視覺顯著性的人臉檢測算法,可以利用視覺注意機制,從復雜背景中快速鎖定人臉目標。相比傳統的人臉檢測算法,不僅可以不受光照、姿態、遮擋等因素的干擾,準確檢測到人臉區域,而且無人工干預,實現過程更加智能化。為后續人臉特征提取、分類提供了有效信息輸入,一方面降低了提取特征的計算量,縮短了特征提取的時間,另一方面,去除了干擾因素,使特征提取更準確,識別率也將大大提高。
當前,視覺顯著性算法的研究已取得很多成果。早期Itti提出生物學啟發計算模型[8]。之后,Harel等改進了Itti模型,引入馬爾可夫鏈,提出基于圖的顯著性(Graph-Based Visual Saliency,GBVS)模型[9],拓寬了顯著性方法計算的思路。接著,提出了基于頻率調制的顯著性(Frequency-Tuned Saliency,FTS)模型[10],此算法在自然圖像的顯著性檢測方面有不錯的效果。為彌補之前顯著圖算法只能檢測出獨立物體或者主體物體的弊端,Goferman S等提出基于內容感知的顯著性檢測(Context-Aware Saliency Detection,CASD)模型[11],此方法可以檢測出體現圖像語義的區域。因為GBVS方法提取的顯著圖的灰度較平均,可以定位出大致目標人臉區域,而其他顯著圖方法或忽略了目標信息在顯著圖中的完整性[12],或檢測的目標區域細節紋理太過清晰,顯然不利于后續對顯著圖進行閾值分割得到模板的工作。為此,提出了基于視覺顯著性的人臉目標檢測方法,該方法利用基于圖論的顯著性模型獲取人臉區域的顯著圖。在輸入具有復雜背景的圖片后,應用GBVS獲取人臉圖像的視覺顯著圖,并對其進行閾值分割得到一幅二值模板。因該模板是比較粗糙的,包含一些小的信息干擾或丟失,因而引入形態學操作得到更加精確的二值模板。尋找精確的二值模板中白色區域的質心,并以區域質心為中心,以區域邊緣到質心的最小距離為邊長,截取圖像中的準確人臉區域,從而檢測到目標人臉。
看到一幅圖像,第一眼關注的是圖像中最吸引眼球的區域。這部分人眼感興趣的區域因為和周圍背景有很大的差異,所以更容易讓人察覺,這就是人類的視覺注意機制。顯著區域最能表現此幅圖像的主要內容,包含原圖的信息量最大,因此可以利用視覺注意機制進行復雜環境下的目標人臉檢測。GBVS算法在特征提取的過程中類似Itti算法去模擬視覺原理,但在顯著圖生成的過程引入馬爾可夫連,用純數學計算得到顯著值。圖1是視覺顯著圖的獲取流程。

圖1 GBVS顯著圖獲取示意圖
視覺顯著圖獲取步驟如下:
(1)輸入一幅大小為250×250的灰度圖片,利用高斯核函數平滑圖像,每次將分辨率降低為原來的1/2,下采樣4次,實驗中只用第2,3,4次采樣得到的圖像。分別提取這3幅圖像的亮度和方向特征,其中方向特征是提取的0°,45°,90°,135°方向的信息,最后可得到15幅底層特征圖(圖像尺寸32×32)。
(2)把這15幅特征圖依次作為輸入,計算每幅圖的激活圖。對每一幅特征圖,以圖中的每一個像素點為節點,根據像素點間的灰度值相似度和像素點位置間的距離(歐氏距離)作為連接權值,建立一個全連通的有向圖GA,如圖2所示。
從節點(i,j)到節點(p,q)的有向邊會賦予一個權值W((i,j),(p,q)),權值定義為:
W((i,j),(p,q))=d((i,j)‖(p,q))·F(i-p,j-q)
(1)
其中,d((i,j)‖(p,q))表示節點(i,j)和節點(p,q)之間灰度值M(i,j)和M(p,q)的相似程度,計算公式為:

(2)

圖2 有向圖構建示意圖
F(a,b)表示節點(i,j)與節點(p,q)位置間的歐氏距離,計算公式為:
(3)
(3)連接權值矩陣(1 024×1 024),并進行歸一化,使矩陣每列之和為1,形成馬爾可夫狀態轉移矩陣。
(4)對馬爾可夫轉移矩陣進行多次迭代,直到馬爾可夫鏈達到平穩分布。馬爾可夫鏈的平穩分布反映了隨機游走者到達每個節點/狀態消耗的時間。節點視覺特征越相似,權值就越大,轉移概率越大,在兩點之間游走花費的時間就短;反之,則越長。視覺特征越不相似的點越顯著。
(5)找到馬爾可夫矩陣的主特征向量(1 024×1),主特征向量是主特征值對應的向量,矩陣的多個特征值中模最大的特征值叫主特征值,對應圖像的顯著節點。把主特征向量重新排列成2維(32×32)的形式,就得到了激活圖,并進行歸一化。
(6)按照上面的方法得到每個特征通道的特征圖的激活圖,再把各個特征通道內激活圖相加,最后把亮度和方向特征通道激活圖都疊加起來,就得到了視覺顯著圖。
算法流程圖如圖3所示。

圖3 所提算法流程圖
所提出的算法,其輸入是一幅250×250的灰度圖像,輸出是包含目標人臉區域的圖像。算法可分為兩部分:第一部分是利用視覺注意機制獲取目標人臉區域的顯著圖部分,具體算法已給出;第二部分是利用顯著圖提取人臉區域圖像部分,具體實現步驟如下:
(1)輸入圖像是一幅250×250的灰度圖片I(x,y),利用GBVS算法提取目標人臉區域顯著圖,記為S(x,y)。
(2)采用雙三次插值算法調整S(x,y)圖像尺寸為250×250,把S(x,y)中的每個像素按照灰度值強弱劃分成n個等級(n一般取99),返回第m個百分位值,此處m取60。把這個值作為閾值,分割顯著圖S(x,y)得到模板M1(x,y)。
(3)判斷模板M1(x,y)是否有冗余,若是,則執行步驟(5);否則執行步驟(6)。
(4)判斷模板M1(x,y)是否完全覆蓋了目標人臉區域,若否,則執行步驟(5);若是,則執行步驟(6)。
(5)調整模板M1(x,y)得到精細模板M2(x,y)。如果模板M1(x,y)余留了目標人臉以外的區域,就把M1(x,y)中的冗余區域刪除,只保留有用的區域;如果M1(x,y)沒有完全覆蓋整個目標人臉區域,就對M1(x,y)實施閉運算;如果M1(x,y)丟失信息過多,就對M1(x,y)進行孔洞填充。
(6)確定目標人臉區域。初始化變量sum_x、sum_y、area,用以記錄精細模板M2(x,y)中非零區域橫縱坐標之和與非零區域數目。遍歷M2(x,y),如果其中某個像素點值為1,就把area值加1,sum_x和sum_y的值分別加上該點對應的橫縱坐標值。遍歷完M2(x,y)之后,用area對sum_x和sum_y求平均就得到M2(x,y)的質心p。用edge函數處理M2(x,y),得到M2(x,y)區域邊緣的二值圖像,求出質心p到區域邊緣的最小距離d。以p為中心,以d為邊長作正方形,這個正方形區域就是目標人臉所在的區域。
(7)將輸入圖片I(x,y)與目標人臉區域作匹配就得到最終的人臉檢測圖。
對所提出的算法在LFW(LabeledFacesintheWild)人臉數據庫[13]上進行了實驗。這個數據庫包含5 749個不同人13 233張人臉圖片,圖片大小為250×250,其中1 680個人有兩張以上的圖片,剩余的4 069個人只有一張圖片,有些圖片中含有不只一張人臉,但是目標人臉是位于圖片中間,不是目標人臉的人臉均被視為背景,每張圖片都分配了唯一的統一格式的名字標識。實驗采用的計算機硬件配置是Intel(R)Core(TM)i5-5200@ 2.20GHz2.20GHz,4.00GB內存,其軟件環境是Windows8操作系統,程序使用Matlab2014a語言進行編寫。主要包括以下三個實驗仿真。
3.1 所提出算法與Itti、CASD人臉檢測效果比較
采用GBVS、Itti、CASD三種顯著圖算法提取同一幅圖片的視覺顯著圖,再用閾值分割的方法得到二值模板,然后把二值模板與輸入圖片相乘得到人臉區域分割圖,結果如圖4所示。

圖4 不同的顯著圖方法分割的人臉效果圖
通過分析比較圖4中三種顯著圖方法分割人臉區域的效果,可以看出,GBVS顯著圖方法提取的目標顯著區域輪廓模糊,閾值分割更容易區分與非臉區域,因此更完整地分割出了目標人臉,既無較多冗余信息,也沒丟失面部信息;Itti方法忽略了目標信息在圖像中的完整性,效果次之,可以看到嘴巴區域信息完全丟失,此外,還殘留了些許的衣服領口信息;CASD方法提取的顯著區域紋理過于詳細,灰度值差異大,不利于二值化分割,不僅額頭、臉頰、鼻梁有嚴重的信息丟失,而且綬帶和衣領部分有較多冗余信息,分割效果最差。
3.2 所提出算法與基于模板的人臉檢測效果比較
基于模板的人臉檢測(Template-Based Face Detection,TBFD)方法是通過定位輸入圖片中人的兩只眼睛,獲取眼睛之間的線段距離D,再分別以D的中點為端點,向上0.5D距離和向下1.5D距離為另一端點作線段,以D和2D確定的矩形區域為人臉模板截取輸入圖片,從而達到人臉檢測的目的。對大多數圖片而言,TBFD方法和基于GBVS的人臉檢測方法都能得到很好的效果,將其稱為典型圖片。但有的圖片不然,這些圖片用所提出的基于GBVS的人臉檢測方法要比TBFD的人臉檢測方法好得多,稱之為非典型圖片。圖5(a)、(b)各列出了幾張典型和非典型的圖片,以及采用所提出的算法和TBFD方法的人臉檢測效果。

圖5 所提出算法與TBFD方法檢測得到的典型與非典型圖片
從圖5(a)、(b)中可以看出,在處理正面人臉圖片時,所提出算法和TBFD方法得到的人臉檢測效果相差無幾,都準確提取出了圖片中的目標人臉區域。但是如果圖片中人臉存在姿態的變化,因為人的兩眼之間的距離D隨姿態發生改變,TBFD方法中以D和2D確定的矩形區域不能再截取到完整的目標人臉,所以圖5(b)中TBFD方法檢測到的人臉信息丟失嚴重,單從人臉檢測結果判斷已經不能辨識出這個人了,因此檢測效果不如所提出的算法好。此外,還可以從算法消耗時間上比較兩種算法的優劣。算法消耗時間從輸入一張圖片開始計時直到目標人臉被檢測出停止計時。通過實驗得到所提出算法和TBFD方法消耗的時間結果如表1所示。

表1 所提出算法與TBFD方法檢測時間比較
從表1中可以看出,所提出算法與TBFD方法檢測目標人臉所消耗的時間是不同的,所提出算法消耗時間明顯低于TBFD方法。所提出算法耗費的時間在顯著圖獲取、模板獲取、模板調整、目標人臉區域獲取上,因為算法運行迅速,所以處理一張圖片只需1.27s。而TBFD方法消耗的時間在定位人的兩只眼睛和人的反應時間上,其中人的反應時間更長,所以處理一張圖片平均消耗的時間是4.80s。此外,TBFD方法還存在檢測方法機械,檢測出的目標人臉圖像分辨率較低等問題。綜合考慮兩種算法在人臉檢測效果與消耗時間兩個方面上的性能,前者算法更有效。
3.3 所提出算法在非控人臉識別中的應用
從LFW數據庫中選出有20張以上(包括20張)圖片的人作為實驗數據,總共62類人,共3 023張圖片。把這3 023張圖片作為輸入,利用所提出算法提取目標人臉區域得到另一個新的人臉數據庫(記為LFW-GBVS)。隨機抽取數據庫中每類人的10張圖片作為訓練樣本,每類人剩下的圖片留作測試,即每個人臉數據庫共620個訓練樣本,2 403個測試樣本。
采用HOG算法[14]對兩個人臉數據庫進行特征提取,并用SVM分類器[15]進行分類,得到的實驗結果如表2所示。

表2 LFW與LFW-GBVS人臉庫的識別性能比較
從表2可以看出,LFW-GBVS人臉庫的識別性能得到很大提升,識別率提高到72.53%,是LFW人臉庫識別率的2倍;識別時間為57.8 s,降為原來的1/4。因此,所提出算法在非控人臉識別方面是實用且有效的,這為今后研究非控環境下的人臉識別提供了技術支持。
為解決復雜環境下因受目標背景雜亂等因素影響人臉識別分類效果不理想的問題,提出了一種基于視覺顯著性的復雜環境下的人臉檢測方法。該方法根據GBVS算法獲得人臉顯著圖,根據顯著圖選擇閾值進行閾值分割得到二值模板,對模板進行調整直到最優,找到模板中的目標人臉所在區域,將目標人臉區域與輸入圖片匹配檢測到人臉目標。實驗結果表明,所提出的方法能有效摒除雜亂背景干擾,顯著提高非控環境下人臉識別的準確率,且與其他人臉檢測方法相比,不僅準確度高,而且算法運行快速,適用于非控環境下的人臉檢測問題。
[1] Yun J U,Lee H J,Paul A K,et al.Face detection for video summary using illumination-compensation and morphological processing[J].Pattern Recognition Letters,2009,30(9):856-860.
[2] Yilmaz S.Gray level based face detection using template face mask and L1 norm[J].IJWA,2010,2(4):243-249.
[3] Cheng J.A multi-template combination algorithm for protein comparative modeling[J].BMC Structural Biology,2008,8(1):18.
[4] Du C,Zhu H,Luo L M,et al.Face detection in video based on AdaBoost algorithm and skin model[J].Journal of China Universities of Posts and Telecommunications,2013,20(13):6-9.
[5] 姚 坤.人臉檢測技術綜述[J].電子技術與軟件工程,2014(13):122.
[6] 廖廣軍.復雜條件下的人臉檢測與識別應用研究[D].廣州:華南理工大學,2014.
[7] 葉海燕.復雜條件下的人臉檢測與識別應用研究[J].新課程,2015(1):6-7.
[8] Itti L, Koch C. Computational modelling of visual attention[J].Nature Reviews Neuroscience,2001,2(3):194-203.
[9] Harel J, Koch C, Perona P. Graph-based visual saliency[C]//Advances in neural information processing systems.[s.l.]:[s.n.],2006:545-552.
[10] Achanta R, Hemami S,Estrada F,et al.Frequency-tuned salient region detection[C]//Proc of IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2009:1597-1604.
[11] Goferman S,Zelnik-Manor L,Tal A.Context-aware saliency detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
[12] 趙宏偉,陳 霄,劉萍萍,等.視覺顯著目標的自適應分割[J].光學精密工程,2013,21(2):531-538.
[13] Huang G B,Ramesh M,Berg T,et al.Labeled faces in the wild:a database for studying face recognition in unconstrained environments[R].Massachusetts:University of Massachusetts,Amherst,2007.
[14] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2005:886-893.
[15] Cortes C,Vapnik V.Support vector machine[J].Machine Learning,1995,20(3):273-297.
Face Target Detection of Visual Saliency in Complex Environment
CHEN Fan1,TONG Ying2,CAO Xue-hong2
(1.College of Communications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China; 2.College of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China)
At present,the classification accuracy of face recognition in complex environment is not satisfied because of the background clutter and other factors.To solve this problem,a face detection algorithm based on visual saliency has been proposed,in which graph based visual salient algorithm is employed to extract salient maps of face region in complex environment and then threshold segmentation and morphological operations is run to get the binary face marks and the centroid is taken as center as well as the minimum distance of the region edge and centroid as side length to crop the accurate area of target face to achieve the goal of face detection in complex environment.Results of experiments on the LFW image database show that the proposed algorithm can accurately fulfill “matting” tasks and achieve good results in face detection,the process of which needs no artificial participation,and can effectively exclude the interference of pell-mell background besides having improved the detection rate,realizing the unsupervised face detection,providing a theoretical foundation for intelligent research of face recognition.
complex environment;GBVS;visual saliency;face detection
2016-02-25
2016-07-06
時間:2017-01-04
國家自然科學基金資助項目(61471162);江蘇省自然科學基金(BK20141389);南京工程學院科研基金(QKJA201304)
陳 凡(1991-),女,碩士研究生,研究方向為圖像處理與模式識別;童 瑩,副教授,研究方向為圖像處理與模式識別;曹雪虹,教授,研究方向為無線通信系統與信息理論。
http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1023.038.html
TP273
A
1673-629X(2017)01-0048-05
10.3969/j.issn.1673-629X.2017.01.011