999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位

2017-03-01 08:01:58陳銳林達(dá)
關(guān)鍵詞:關(guān)鍵點(diǎn)特征

陳銳, 林達(dá)

(1.四川理工學(xué)院自動(dòng)化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室, 四川自貢643000)

基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位

陳銳1,2, 林達(dá)1,2

(1.四川理工學(xué)院自動(dòng)化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室, 四川自貢643000)

由于人臉姿態(tài)、表情、遮擋物、光照問(wèn)題的影響,人臉關(guān)鍵點(diǎn)檢測(cè)時(shí)通常會(huì)出現(xiàn)較大的誤差,為了準(zhǔn)確且可靠地檢測(cè)關(guān)鍵點(diǎn),提出了一種基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的方法。利用人臉檢測(cè)器檢測(cè)到的人臉圖像作為輸入,第一層卷積神經(jīng)網(wǎng)絡(luò)直接檢測(cè)所有的5個(gè)人臉關(guān)鍵點(diǎn)。隨后根據(jù)這些檢測(cè)到的點(diǎn)裁剪出5個(gè)人臉局部圖像,級(jí)聯(lián)的第二層網(wǎng)絡(luò)使用5個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò)單獨(dú)地定位每個(gè)點(diǎn)。在實(shí)驗(yàn)測(cè)試環(huán)節(jié),級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)方法的使用將人臉關(guān)鍵點(diǎn)的平均定位誤差降低到了1.264像素。在LFPW人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明:該算法在定位準(zhǔn)確性和可靠性上要優(yōu)于單個(gè)CNN的方法以及其他方法,該算法在GPU(圖形處理器)模式下處理一個(gè)人臉圖像僅需15.9毫秒。

人臉關(guān)鍵點(diǎn);卷積神經(jīng)網(wǎng)絡(luò)(CNN);深度學(xué)習(xí)

引言

人臉關(guān)鍵點(diǎn)定位是人臉識(shí)別等應(yīng)用中必不可少的一個(gè)預(yù)處理環(huán)節(jié),即使是簡(jiǎn)單地根據(jù)檢測(cè)到的雙眼坐標(biāo)來(lái)旋轉(zhuǎn)圖像將雙眼置水平面,也可以有效提升人臉識(shí)別的準(zhǔn)確率,復(fù)雜的預(yù)處理手段也更加離不開精確的人臉關(guān)鍵點(diǎn)定位算法。

人臉關(guān)鍵點(diǎn)定位算法可以分為兩類:分類法和直接預(yù)測(cè)法。第一類算法,如文獻(xiàn)[1-3]首先要對(duì)需要檢測(cè)的每個(gè)關(guān)鍵點(diǎn)區(qū)域單獨(dú)訓(xùn)練分類器,再通過(guò)對(duì)局部窗口下的圖像進(jìn)行分類來(lái)尋找候選區(qū)域,隨后通過(guò)形態(tài)約束在這些候選區(qū)域中估計(jì)最優(yōu)關(guān)鍵點(diǎn)。

分類法在尋找候選區(qū)域時(shí),容易出現(xiàn)找到過(guò)多或數(shù)量不足的候選區(qū)域,這些對(duì)人臉定位算法的性能造成了一定的負(fù)面影響,而且運(yùn)行效率較低。與前者相比,不需要使用滑動(dòng)窗口對(duì)人臉圖像進(jìn)行掃描并分類的直接預(yù)測(cè)法要更為高效,文獻(xiàn)[4-6]直接用回歸器定位人臉圖像的人臉關(guān)鍵點(diǎn),人臉關(guān)鍵點(diǎn)的位置隨著迭代而更新直到收斂。文獻(xiàn)[7-8]首先從帶有人工標(biāo)注關(guān)鍵點(diǎn)坐標(biāo)的訓(xùn)練樣本中學(xué)習(xí)到模型,利用學(xué)習(xí)到的模型直接對(duì)人臉圖像的關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行估計(jì),這種方法明顯要優(yōu)于其他的大部分方法,尤其在運(yùn)行效率上要遠(yuǎn)高于分類法。近來(lái),文獻(xiàn)[9-11]提出了一種由分類法和直接預(yù)測(cè)法結(jié)合改進(jìn)而來(lái)的由粗到細(xì)的定位方法,該方法可以一定程度上提高定位算法的準(zhǔn)確性。這類方法在第一次粗定位到的人臉關(guān)鍵點(diǎn)的基礎(chǔ)上,再次估計(jì)更為精確的人臉關(guān)鍵點(diǎn)位置。大部分定位方法都面臨著提取到的特征不足以準(zhǔn)確定位人臉關(guān)鍵點(diǎn),選擇合適的特征提取方法就變得尤為重要。在整個(gè)人臉區(qū)域圖像提取到的紋理信息特征包含豐富的信息,若是使用該特征進(jìn)行人臉關(guān)鍵點(diǎn)定位,通過(guò)分類器或回歸器進(jìn)行精確定位顯得異常困難。

為了解決上述問(wèn)題,本文提出使用級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)對(duì)人臉關(guān)鍵點(diǎn)進(jìn)行定位。卷積神經(jīng)網(wǎng)絡(luò)以整個(gè)人臉圖像為輸入,其深層的網(wǎng)絡(luò)結(jié)構(gòu)可以充分地提取到人臉圖像的紋理信息特征,在該特征上進(jìn)行人臉關(guān)鍵點(diǎn)定位可以達(dá)到較高的準(zhǔn)確性和可靠性。同時(shí)在高性能GPU加速和深度學(xué)習(xí)框架[12-13]下,可以快速地完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。僅使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)即可準(zhǔn)確且高效地定位到人臉關(guān)鍵點(diǎn),然而仍一定程度上存在著些許誤差,通過(guò)級(jí)聯(lián)的第二層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行修正,可以有效降低定位誤差。

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)相結(jié)合而提出的新型人工神經(jīng)網(wǎng)絡(luò),其在模式識(shí)別領(lǐng)域的表現(xiàn)要遠(yuǎn)超大部分的傳統(tǒng)方法,尤其在人臉識(shí)別、字符識(shí)別等圖像分類領(lǐng)域取得令人驚訝的成果,甚至在人臉識(shí)別領(lǐng)域上已經(jīng)超越人類。

卷積神經(jīng)網(wǎng)絡(luò)通過(guò)引入權(quán)值共享、局部感知以及池化層對(duì)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化。卷積神經(jīng)網(wǎng)絡(luò)中卷積層神經(jīng)元只與上一層的小范圍內(nèi)的神經(jīng)元相連接,而不是與上一層所有的神經(jīng)元進(jìn)行相連,且處于同一特征映射面上的神經(jīng)元權(quán)值是共享的。權(quán)值共享和局部感知策略的應(yīng)用,大幅度減少了需要學(xué)習(xí)的參數(shù),使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更為高效。池化層輸出的特征具有平移、旋轉(zhuǎn)空間等不變性,使得卷積神經(jīng)網(wǎng)絡(luò)對(duì)平移、旋轉(zhuǎn)等影響具有良好的魯棒性。通過(guò)卷積層和池化層的交替使用,卷積神經(jīng)網(wǎng)絡(luò)完成了對(duì)圖像特征從局部到全局的學(xué)習(xí)過(guò)程。

常見(jiàn)的CNN模型中,通常以卷積層和池化層交替使用,即通過(guò)卷積層計(jì)算特征映射圖,再利用池化層降低特征映射圖的尺寸,且保持特征的旋轉(zhuǎn)和平移特性,在特征映射圖尺寸和層數(shù)達(dá)到要求時(shí),將二維的特征映射圖按順序排列起來(lái)轉(zhuǎn)換為一維的特征,再與全連接層進(jìn)行連接。卷積層的運(yùn)算過(guò)程可以表示為:

(1)

式中:X(l,k)表示第l層輸出的第k組特征映射圖,nl表示第l層特征映射圖的層數(shù),W(l,k,p)表示第l-1層中第p組特征映射圖向第l層中第k組特征映射圖映射時(shí)所用的濾波器。第l層的每一組特征映射圖的生成都需要nl-1個(gè)濾波器和一個(gè)偏置,假設(shè)濾波器的大小為h×w,那么第l層卷積層的參數(shù)數(shù)量為nl-1×nl×h×w+nl。

常見(jiàn)的池化操作有最大值池化、均值池化等,本文的卷積神經(jīng)網(wǎng)絡(luò)僅使用了最大值池化。池化操作后,特征映射圖的大小會(huì)根據(jù)步長(zhǎng)step,縮小至原先的1/step。最大值池化的一般形式可以表現(xiàn)為:

(2)

式中:X(l+1,k)(m,n)為第l+1層輸出的第k組特征映射圖坐標(biāo)(m,n)處的值;s為池化窗口的大小,step為池化窗口移動(dòng)時(shí)的步長(zhǎng),本文中s和step均設(shè)置為2。

卷積神經(jīng)網(wǎng)絡(luò)在反向傳播以最小化誤差函數(shù)為目的,來(lái)更新神經(jīng)元之間的所有連接權(quán)值和偏置。考慮到人臉關(guān)鍵點(diǎn)定位任務(wù),采用平方和損失函數(shù),它可以表示為:

(3)

式中:N為神經(jīng)網(wǎng)絡(luò)輸出層節(jié)點(diǎn)數(shù),y為神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值,d為人工標(biāo)注值。

本文使用隨機(jī)梯度下降[14]算法對(duì)神經(jīng)元之間的所有連接權(quán)值和偏置進(jìn)行更新,則最終的損失函數(shù)的表現(xiàn)形式為:

(4)

式中:m為每次反向傳播時(shí)所用訓(xùn)練樣本的數(shù)量,W為網(wǎng)絡(luò)中每一層的權(quán)重矩陣。

卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣W在反向傳播時(shí)進(jìn)行更新,在網(wǎng)絡(luò)訓(xùn)練開始前,以隨機(jī)值矩陣W0對(duì)網(wǎng)絡(luò)進(jìn)行初始化,t+1次迭代后更新的權(quán)重矩陣Wt+1可以表示為:

(5)

2 人臉關(guān)鍵點(diǎn)定位

由于姿態(tài)、光照、遮擋以及分辨率等影響,使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)定位的關(guān)鍵點(diǎn)仍存在一定程度的誤差,而級(jí)聯(lián)卷積網(wǎng)絡(luò)的運(yùn)用可以有效降低誤差。人臉關(guān)鍵點(diǎn)定位算法共訓(xùn)練6個(gè)卷積神經(jīng)網(wǎng)絡(luò),如圖1 所示。首先以人臉檢測(cè)器檢測(cè)到的人臉圖像作為輸入,第一個(gè)卷積網(wǎng)絡(luò)作為第一層實(shí)現(xiàn)對(duì)所有關(guān)鍵點(diǎn)的粗定位實(shí)現(xiàn)。人臉關(guān)鍵點(diǎn)包括雙眼、鼻尖和雙側(cè)嘴角,共計(jì)5個(gè)點(diǎn)。通過(guò)粗定位預(yù)測(cè)到的關(guān)鍵點(diǎn),按照雙眼到嘴巴中心的距離對(duì)圖像進(jìn)行縮放,隨后再以關(guān)鍵點(diǎn)為中心,裁剪出5個(gè)局部區(qū)域圖,第二層的5個(gè)卷積網(wǎng)絡(luò)將完成人臉關(guān)鍵點(diǎn)的精確定位。

2.1 級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文設(shè)計(jì)的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò),第一層的卷積神經(jīng)網(wǎng)絡(luò)F1的輸入為整張人臉,輸入由人臉檢測(cè)器檢出,縮放至112×112大小,F(xiàn)1可以對(duì)雙眼、鼻尖和雙側(cè)嘴角進(jìn)行粗定位。第二層的卷積神經(jīng)網(wǎng)絡(luò)分別為L(zhǎng)E、RE、N、LM、RM,這些網(wǎng)絡(luò)要分別定位左眼、右眼、鼻尖、左側(cè)嘴角、右側(cè)嘴角。第二層的網(wǎng)絡(luò)模型結(jié)構(gòu)相同,輸入均為32×32的圖像,

根據(jù)F1定位到的關(guān)鍵點(diǎn)計(jì)算雙眼中心到雙側(cè)嘴角中心的距離,并按照比例對(duì)圖像進(jìn)行縮放,使該距離為48,隨后在縮放后的圖像上,分別裁剪出5塊以F1定位到的關(guān)鍵點(diǎn)為中心,大小為32×32的圖像。第二層的5個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別對(duì)5個(gè)局部圖像進(jìn)行單點(diǎn)定位,相比與F1定位到的關(guān)鍵點(diǎn)而言,第二層的卷積網(wǎng)絡(luò)定位的坐標(biāo)要精確許多。

圖1 人臉關(guān)鍵點(diǎn)定位算法流程圖

2.2 各級(jí)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

人臉定位算法使用了2種不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),第一層和第二層的網(wǎng)絡(luò)結(jié)構(gòu)不同,LE、RE、N、LM、RM結(jié)構(gòu)相同。第一層采用了CNN模型A結(jié)構(gòu),以112×112×3的圖像作為輸入,輸出分別為所有關(guān)鍵點(diǎn)的坐標(biāo)。第二層采用了CNN模型B結(jié)構(gòu),以32×32×3的圖像為輸入,輸出單個(gè)關(guān)鍵點(diǎn)坐標(biāo)。CNN模型A和B均由7層卷積層、3層池化層和2層全連接層組成,模型A、B的具體結(jié)構(gòu)參數(shù)見(jiàn)表1 。為了保持卷積處理后,圖像尺寸的變化,在卷積操作前,大部分卷積層都對(duì)輸入特征圖進(jìn)行了邊緣零填充。

表1CNN模型A、B的結(jié)構(gòu)

與文獻(xiàn)[15]中采用3層級(jí)聯(lián)的網(wǎng)絡(luò)不同,本文僅使用了2層,第一層卷積神經(jīng)網(wǎng)絡(luò)完成關(guān)鍵點(diǎn)的粗定位,第二層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行5次精確的單點(diǎn)定位。在F1中,輸入大小為112×112×3的整張人臉,卷積層Conv1使用了64個(gè)不同的卷積核對(duì)人臉圖像的不同紋理和邊緣特征進(jìn)行學(xué)習(xí)。隨著卷積層和池化層的交替使用,特征映射圖的長(zhǎng)寬不斷變小,層數(shù)不斷增加,Con42輸出的特征映射圖同全連接層Fc1進(jìn)行連接,F(xiàn)c1輸出的160維的特征將作為最后的關(guān)鍵點(diǎn)坐標(biāo)定位。全連接層Fc2根據(jù)Fc1輸出的特征,進(jìn)行最終的關(guān)鍵點(diǎn)坐標(biāo)預(yù)測(cè)。模型A中的Fc2輸出為10維,用于5點(diǎn)定位,而模型B的Fc2層輸出為2維,用于單點(diǎn)定位。Drop層引入Dropout[16],通過(guò)隨機(jī)將神經(jīng)元的部分輸出置零,來(lái)提升網(wǎng)絡(luò)的泛化能力,Dropout只在訓(xùn)練環(huán)節(jié)時(shí)使用。

3 實(shí)驗(yàn)

3.1 訓(xùn)練數(shù)據(jù)的擴(kuò)充及預(yù)處理

本文實(shí)驗(yàn)數(shù)據(jù)均來(lái)自文獻(xiàn)[15],其中包含13 466個(gè)人臉圖像,所有人臉圖像都有相關(guān)坐標(biāo)標(biāo)注信息,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的過(guò)程中,10 000張圖像作為訓(xùn)練集,3 466張圖像作為測(cè)試集。僅10 000張圖像作為訓(xùn)練集是遠(yuǎn)遠(yuǎn)不夠的,數(shù)據(jù)增強(qiáng)可以有效提高卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn),通過(guò)順時(shí)針和逆時(shí)針?lè)謩e旋轉(zhuǎn)16°與8°對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,隨后通過(guò)鏡面翻轉(zhuǎn)再次進(jìn)行擴(kuò)充,最終獲得80 000個(gè)訓(xùn)練數(shù)據(jù)。由于圖像中存在大量無(wú)關(guān)的背景,需要通過(guò)人臉檢測(cè)器檢出人臉區(qū)域。第一層的F1將在這80 000個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在F1訓(xùn)練完成后,使用F1對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行關(guān)鍵點(diǎn)定位,根據(jù)比例將雙眼中心到嘴角中心的距離調(diào)整至48像素。隨后以F1定位的關(guān)鍵點(diǎn)為中心,并對(duì)該坐標(biāo)進(jìn)行5次小幅度隨機(jī)偏移后,裁剪出32×32的人臉局部圖像。最終可以收集到250萬(wàn)個(gè)人臉局部圖像,第二層的LE、RE、N、LM、RM分別使用其中的50萬(wàn)個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練。

實(shí)驗(yàn)使用開源深度學(xué)習(xí)框架Caffe[12]來(lái)完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,并使用Python語(yǔ)言完成代碼編寫,硬件平臺(tái)為i5-4590,3.3GHz的處理器,內(nèi)存為8GB,顯卡為GTX960,內(nèi)含GPU,系統(tǒng)為Windows7。圖2 為本文算法的人臉關(guān)鍵點(diǎn)定位測(cè)試效果圖,其中第一行圖像在人臉關(guān)鍵點(diǎn)定位時(shí)僅使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò),即F1,可以發(fā)現(xiàn)定位算法仍存在瑕疵,定位不夠精確,第二行圖像使用的定位算法為本文提出的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法,在表情、遮擋物、扭曲等影響下,該算法仍可以精確定位人臉圖像關(guān)鍵,精確度得到了明顯提升。

圖2 人臉關(guān)鍵點(diǎn)定位效果對(duì)比圖

3.2 實(shí)驗(yàn)測(cè)試

表2 為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)所用的驗(yàn)證集的測(cè)試結(jié)果,該驗(yàn)證集僅用于測(cè)試網(wǎng)絡(luò)泛化能力。從表2 中可以看出,單個(gè)卷積神經(jīng)網(wǎng)絡(luò)在測(cè)試樣本上的總平均誤差以及單個(gè)點(diǎn)的平均誤差均遠(yuǎn)高于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò),本文提出的算法提高了關(guān)鍵點(diǎn)定位的精確度。圖3 是LFPW[1]人臉庫(kù)中部分圖像的人臉關(guān)鍵點(diǎn)定位效果,可以看出在姿態(tài)偏轉(zhuǎn)嚴(yán)重、以及各種表情下仍能準(zhǔn)確地定位到人臉關(guān)鍵點(diǎn)。表2 與表3 中的誤差均為定位誤差err的平均值。

表2 不同模型誤差對(duì)比

圖3 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位效果圖

表3 不同算法誤差對(duì)比

單CNN(F1)方法在GPU模式下,進(jìn)行一次人臉關(guān)鍵點(diǎn)定位,僅需要3.3毫秒。在相同的測(cè)試環(huán)境下,本文提出的級(jí)聯(lián)CNN方法中級(jí)聯(lián)的第二層CNN需要耗時(shí)12.6毫秒,總耗時(shí)15.9毫秒,而CPU模式下總耗時(shí)23.1毫秒。

卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程需求很高的內(nèi)在并行度,并存在著大量的浮點(diǎn)數(shù)據(jù)運(yùn)算以及大規(guī)模的矩陣運(yùn)算,有著高度并行結(jié)構(gòu)的圖形處理器可以很好的解決這些問(wèn)題。在相同情況下,GPU模式下的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度遠(yuǎn)超于CPU模式下的訓(xùn)練速度。在CNN(F1)的訓(xùn)練過(guò)程中,GPU模式下迭代1000次用時(shí)僅為34.7秒,而CPU模式下用時(shí)611.3秒,GPU模式下Caffe訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的速度是CPU的17.6倍。使用支持GPU加速的開源深度學(xué)習(xí)框架Caffe可以大幅度縮短卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時(shí)。

3.3 與其他算法的對(duì)比

為了與其他算法相比較,本文將在LFPW人臉數(shù)據(jù)庫(kù)進(jìn)行測(cè)試,該數(shù)據(jù)庫(kù)由1432張人臉圖像組成,其中訓(xùn)練集有1132張圖像,測(cè)試集有300張臉圖像。LFPW主要用于在非限制環(huán)境下,如姿態(tài)、表情、光長(zhǎng)存在很大差異,以及遮擋物存在的情況下測(cè)試人臉關(guān)鍵點(diǎn)定位算法。本文僅獲得訓(xùn)練集中的781個(gè)圖像和測(cè)試集中249個(gè)圖像的關(guān)鍵點(diǎn)人工標(biāo)注信息,由于部分人臉圖像難以被人臉檢測(cè)器檢測(cè),以至于最終僅在983張人臉圖像上進(jìn)行了測(cè)試,結(jié)果見(jiàn)表3 。從表3 可以看出,本文提出的算法在相同測(cè)試樣本下,與其他算法相比仍具有較好的表現(xiàn),準(zhǔn)確性更高。

4 結(jié)束語(yǔ)

本文提出的人臉關(guān)鍵點(diǎn)算法通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)人臉關(guān)鍵點(diǎn)進(jìn)行定位,可以快速且準(zhǔn)確地定位到人臉關(guān)鍵點(diǎn)。在LFPW人臉庫(kù)上的測(cè)試表明,通過(guò)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)可以有效降低誤差,算法的平均像素誤差降低至1.264,且檢測(cè)速度快,在GPU模式下定位一張人臉圖像的關(guān)鍵點(diǎn)僅需15.9毫秒。如果可以獲取到更多具有人臉關(guān)鍵點(diǎn)標(biāo)注信息的數(shù)據(jù),則最終訓(xùn)練出的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)將具有更好的魯棒性和準(zhǔn)確性。文中提出的算法對(duì)光照、遮擋、姿態(tài)、表情等干擾,表現(xiàn)出較好的抗干擾能力,將該算法應(yīng)用于人臉識(shí)別程序中,必然可以提高人臉識(shí)別的準(zhǔn)確率。

[1]BELHUMEUR P N,JACOBS D W,KRIEGMAN D J,et al.Localizing parts of faces using a consensus of exemplars.IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(12):545-552.

[2]LIANG L,WEN F,SUN J.Face alignment via component-based discriminative search//Proceedings of the 10th European Conference on Computer Vision,Marseille,France,October 12-18,2008:72-85.

[3]RAMANAN D,ZHU X.Face detection, pose estimation, and landmark localization in the wild.Computer Vision and Pattern Recognition,2012,157(10):2879-2886.

[4]GAO X D,WEI Y,WEN F,et al.Face alignment by explicit shape regression.International Journal of Computer Vision,2014,107(2):177-190.

[5]COOTES T F,EDWARDS G J,TAYLOR C J.Active appearance models.IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(6):681-685.

[6]FANELLI G,GALL J,DANTONE M,et al.Real-time facial feature detection using conditional regression forests.Computer Vision & Pattern Recognition,2012,157(10):2578-2585.

[7]KIMURA M,YAMASHITA T,YAMAUCHI Y,et al.Facial point detection based on a convolutional neural network with optimal mini-batch procedure//Proceeding of 2015 IEEE International Conference on Image Processing,Quebec,Canada,September 27-30,2015:2860-2864.

[8]YAMASHITA T,WATASUE T,YAMAUCHI Y,et al.Facial point detection using convolutional neural network transferred from a heterogeneous task//Proceeding of 2015 IEEE International Conference on Image Processing,Quebec,Canada,September 27-30,2015:2725-2729.

[9]SAUER P,COOTES T,TAYLOR C,et al.Accurate regression procedures for active appearance models.Bmvc,2011,1(6):681-685.

[10]REN S,CAO X,WEI Y,et al.Facealignment at 3000 FPS via regressing local binary features.IEEE Transactions on Image Processing,2014,25(3):1685-1692.

[11]YU X,HUANG J,ZHANG S,et al.Pose-Free facial landmark fitting via optimized part mixtures and cascaded deformable shape model//Proceeding of 2013 IEEE International Conference on Computer Vision,Sydney,December 1-8,2013:1944-1951.

[12]JIA YQ,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding//Proceedings of the 22nd ACM international conference on Multimedia,Orlando,Florida,USA,November 3-7,2014:675-678.

[13]ABADI M,AGARWAL A,BARHAM P,et al.TensorFlow:large-scale machine learning on heterogeneous distributed systems.Google Research whitepaper,2016.

[14]BOTTOU L.Stochastic gradient descent tricks.Berlin Heidelberg:Springer,2012:421-436.

[15]SUN Y,WANG X,TANG X.Deep convolutional network cascade for facial point detection.Computer Vision and Pattern Recognition,2013,9(4):3476-3483.

[16]SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting.Journal of Machine Learning Research,2014,15(1):1929-1958.

[17]BOLME D S,DRAPER BA,BEVERIDGE J R.Average of synthetic exact filters//Proceeding of 2012 IEEE Computer Society Conference on Computer Vision & Pattern Recognition,SanDiego,California,June 20-26,2009:2105-2112.

[18]楊海燕,蔣新華,聶作先.基于并行卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位方法研究.計(jì)算機(jī)應(yīng)用研究,2015,32(8):2517-2519.

Facial Points Detection Based on Cascade Convolutional Neural Network

CHENRui1,2,LINDa1,2

(1.School of Automation & Information Engineering, Sichuan University of Science & Engineering,Zigong 643000, China;2.Artificial Intelligence Key Laboratory of Sichuan Province, Zigong 643000, China)

Suffered from facial pose, expressions, occlusions and illumination, there is usuallylager errorsin thefacial points detection. In order to detect facial points accurately and reliably, a method based on cascade convolutional network is proposed. Using the face image detected from face detector as input, all of 5 facial points are detected bythe first level CNN directly. After then 5 images from the facial points are cropped, and each of the points is predicted singly by the second level CNN with 5 different CNN. The mean error of all points is reduced to 1.264 pixel in test phase by the cascade convolutional network method. The experiments on LFPW database show that this method outperforms single CNN method and many other methods in both detection accuracy and reliability. This method process one face image takes approximately 15.9 ms on a standard GPU (graphics processing unit).

facial points; convolutional neural network (CNN); deep learning

2016-11-06

陳 銳(1990-),男,安徽六安人,碩士生,主要從事模式識(shí)別與人工智能方面的研究,(E-mail)573743392@qq.com

1673-1549(2017)01-0032-06

10.11863/j.suse.2017.01.06

TP391.41

A

猜你喜歡
關(guān)鍵點(diǎn)特征
抓住特征巧觀察
聚焦金屬關(guān)鍵點(diǎn)
肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
豬人工授精應(yīng)把握的技術(shù)關(guān)鍵點(diǎn)
醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
鎖定兩個(gè)關(guān)鍵點(diǎn)——我這樣教《送考》
主站蜘蛛池模板: 國產尤物AV尤物在線觀看| 亚洲黄色成人| 毛片网站在线播放| 无码丝袜人妻| 精品视频一区二区三区在线播| 青青草国产一区二区三区| 精品精品国产高清A毛片| 国产美女自慰在线观看| 国产精品亚洲天堂| 日本手机在线视频| 国产精品永久免费嫩草研究院| 日韩亚洲综合在线| 蜜臀AV在线播放| 国产午夜无码专区喷水| 97人妻精品专区久久久久| 一本二本三本不卡无码| 色综合网址| 波多野一区| 999在线免费视频| 国产精品香蕉在线观看不卡| 国产chinese男男gay视频网| 亚洲第一区精品日韩在线播放| 九九热这里只有国产精品| 在线观看无码av五月花| 在线播放国产99re| 午夜欧美理论2019理论| 四虎成人精品| 国产香蕉在线视频| 日本www色视频| 婷婷色一二三区波多野衣| 欧美三级日韩三级| 激情国产精品一区| 日本一区中文字幕最新在线| 色综合天天综合| 99国产精品一区二区| 国产女人在线视频| 午夜国产精品视频| 亚洲黄色网站视频| 国产在线麻豆波多野结衣| 在线国产91| 亚洲欧美极品| 国产在线自揄拍揄视频网站| 欧美日韩免费| 日本精品视频一区二区| 永久免费精品视频| 免费a级毛片视频| 欧美日韩在线第一页| 国产成人av一区二区三区| 色成人亚洲| 亚洲综合色区在线播放2019| 黄片在线永久| 欧美日韩第三页| 中文字幕乱妇无码AV在线| 91精品国产91久无码网站| 71pao成人国产永久免费视频| 国产一区二区三区在线精品专区| 永久成人无码激情视频免费| 热久久国产| 中文国产成人精品久久一| 亚洲伊人天堂| 91在线一9|永久视频在线| 精品久久久久久成人AV| 亚洲国产中文在线二区三区免| 狠狠色综合久久狠狠色综合| 国产91丝袜在线观看| 国模私拍一区二区| 91蜜芽尤物福利在线观看| 国产靠逼视频| 欧美日韩91| 91人妻在线视频| 国产成人亚洲精品无码电影| 国产网站一区二区三区| 日本国产精品一区久久久| 一级毛片不卡片免费观看| 国产一区亚洲一区| 中文字幕 日韩 欧美| 国产在线观看精品| 日本午夜三级| 毛片免费高清免费| 最新国产在线| 亚洲全网成人资源在线观看| 一区二区欧美日韩高清免费|