何 勇 孫哲南 王財勇 王云龍 朱宇豪
1(湖南工業(yè)大學(xué)計算機學(xué)院 湖南 株洲 412007) 2(中國科學(xué)院自動化研究所 北京 100190)
隨著現(xiàn)代社會的高速發(fā)展,安全、可靠的身份驗證變得更加重要,以人臉、虹膜、指紋等為代表的現(xiàn)代生物特征識別技術(shù)正逐步取代傳統(tǒng)的身份識別技術(shù),并廣泛應(yīng)用在安防、金融支付、刑偵、考勤門禁等領(lǐng)域。眼睛是人臉、虹膜、眼周識別等最重要的特征,因此準(zhǔn)確可靠的眼睛定位對于提升身份識別的性能有重要意義。此外,眼睛也是表現(xiàn)人的情感和狀態(tài)的重要窗口,因此眼睛狀態(tài)估計在人機交互、睡眠研究和疲勞駕駛等領(lǐng)域都有廣泛應(yīng)用。
眼睛關(guān)鍵點可以準(zhǔn)確地反映眼睛在人臉圖像中的位置,而眼睛狀態(tài)估計是為了估計眼睛的左右和開閉狀態(tài)。眼睛作為一種特殊的生物特征,很容易受到光照條件、鏡片遮擋、頭部姿態(tài)改變的影響,導(dǎo)致眼睛的形態(tài)發(fā)生較大的變化,這就為定位眼睛位置、評估眼睛狀態(tài)造成了很大困擾,大多數(shù)眼睛定位和狀態(tài)估計方法都嘗試著增加網(wǎng)絡(luò)深度或者采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)來應(yīng)對這些挑戰(zhàn)。
針對生物識別場景下廣泛存在的半人臉圖像,本文提出直接利用單階段的堆疊沙漏網(wǎng)絡(luò)[1]定位眼睛關(guān)鍵點,從而確定眼睛的位置,并利用獲取的關(guān)鍵點估計眼睛的左右和開閉狀態(tài)。此外基于關(guān)鍵點信息也可以用于眼周圖像的對齊,進一步地提高眼周識別的精度。針對現(xiàn)有的眼睛數(shù)據(jù)集存在姿態(tài)變化性較差、狀態(tài)單一等缺點,收集并整理了一個新的有挑戰(zhàn)性的數(shù)據(jù)集OCE-1000,并手動地為每只眼睛標(biāo)記了四個關(guān)鍵點(左眼角、上眼皮最高點、右眼角、下眼皮最低點)和左右開閉狀態(tài),滿足眼睛關(guān)鍵點定位和狀態(tài)估計的需要。最終的實驗結(jié)果表明提出的方法在復(fù)雜背景和嚴(yán)重遮擋的條件下可以達到很高的關(guān)鍵點定位和狀態(tài)估計精度。
本文主要貢獻為:1) 建立了一個較大的可見光和近紅外眼睛數(shù)據(jù)集OCE-1000,補充了生物特征識別領(lǐng)域眼睛數(shù)據(jù)的空缺,并且該數(shù)據(jù)集可以公開獲取;2) 提出了高效的單階段網(wǎng)絡(luò)框架可以在復(fù)雜場景下預(yù)測眼睛的關(guān)鍵點,定位出眼睛的位置,并基于這些關(guān)鍵點實現(xiàn)了準(zhǔn)確的眼睛狀態(tài)估計;3) 提出了基于關(guān)鍵點的眼周圖像裁剪和對齊,提升了眼周識別的可用性和準(zhǔn)確性。
眼睛檢測是一個熱門的研究話題,很多優(yōu)秀的方法陸續(xù)被提出。經(jīng)典的Viola-Jones[2]檢測器可以通過提取眼睛周圍的haar特征并使用級聯(lián)分類器來檢測眼睛的位置。Young等[3]通過霍夫變換確定虹膜和瞳孔的位置來定位眼睛區(qū)域。Feng等[4]使用Variance Projection Function(VPF)[5]來定位眼睛的關(guān)鍵點,從而指導(dǎo)檢測眼睛的位置和形狀。El Kaddouhi等[6]采用Viola-Jones檢測器來檢測人臉的位置,然后基于人臉的位置和先驗的知識來生成眼睛的檢測框。總體來說,這些早期的眼睛檢測方法大多依賴手工特征或者先驗策略,因此容易受到外界噪聲因素的干擾。此外,眼睛狀態(tài)需要在檢測的基礎(chǔ)上進行估計。
隨著深度學(xué)習(xí)的發(fā)展,各種先進的目標(biāo)檢測方法被提出,例如SSD[7]、YOLO[8]、Faster RCNN[9]。這些方法會在輸入圖像上生成大量的錨點框,并為每一個檢測框打一個分?jǐn)?shù),然后選擇其中得分較高的檢測框作為預(yù)測框,這些方法為了更準(zhǔn)確地定位目標(biāo)的位置,往往需要生成大量候選檢測框,這在一定程度上會限制目標(biāo)檢測的速度和準(zhǔn)確性。
此外現(xiàn)實場景捕獲的人臉或者眼部圖像含有很嚴(yán)重的噪聲,挑戰(zhàn)著許多現(xiàn)有的方法,表現(xiàn)在:1) 局部極端光照(如:強光和陰影)和遮擋會給眼睛區(qū)域帶來較大變化和干擾,導(dǎo)致某些區(qū)域像素值偏離正常值,甚至遺失;2) 變化的臉部姿態(tài)會干擾很多依賴先驗知識的眼睛定位和狀態(tài)估計方法;3) 現(xiàn)有數(shù)據(jù)集常常存在類別不均勻的問題,例如閉眼的圖像是少數(shù)的,影響了很多方法的訓(xùn)練。圖1展示了在不同的姿態(tài)和遮擋、光照下的眼睛圖像。

圖1 不同的姿態(tài)和遮擋、光照下的眼睛圖像
為應(yīng)對這些挑戰(zhàn),Huang等[10]使用級聯(lián)的兩階段框架先預(yù)測人臉的68個關(guān)鍵點從而獲取眼睛的位置,然后采用一個多任務(wù)的網(wǎng)絡(luò)去估計眼睛區(qū)域的7個關(guān)鍵點和眼睛的開閉狀態(tài),這種方法造成重復(fù)的低層次特征提取,速度較慢。Gou等[11]提出了級聯(lián)回歸的方法,可以檢測眼睛的位置并估計瞳孔被眼皮遮擋的概率,這個方法在光源復(fù)雜、鏡框遮擋和目標(biāo)模糊等情況下會導(dǎo)致定位和狀態(tài)估計結(jié)果不準(zhǔn)確。
拋卻冗余的基于錨點框的檢測方法以及級聯(lián)的思路,直接預(yù)測人臉圖像中的眼睛關(guān)鍵點,從而預(yù)測眼睛位置和狀態(tài)估計的方法明顯在抗干擾的性能上更為優(yōu)越。這是因為檢測框考慮的是目標(biāo)中更具判別性的區(qū)域,而關(guān)鍵點選擇的往往是最具有判別性的點,這些點與點之間往往存在著各種聯(lián)系,這就保證了在某些區(qū)域或者某些關(guān)鍵點被遮擋或者不存在的情況下,依然可以有效地預(yù)測出目標(biāo)的其他關(guān)鍵點,這些關(guān)鍵點不但反映了目標(biāo)的位置,同時也可以反映目標(biāo)當(dāng)前的狀態(tài)。基于此,選擇使用性能卓越的堆疊沙漏網(wǎng)絡(luò),提取不同尺寸下的眼睛特征,保證了眼睛關(guān)鍵點定位的準(zhǔn)確性,同時基于眼睛關(guān)鍵點的空間位置關(guān)聯(lián)性和人的先驗知識,使眼睛狀態(tài)估計更為魯棒。
提出一種基于眼睛關(guān)鍵點來定位并估計眼睛狀態(tài)的方法。主要分為以下幾個步驟:1) 利用堆疊沙漏網(wǎng)絡(luò)強大的特征提取能力融合不同尺度下的特征,并輸出一系列熱點圖,每一個熱點圖表征了關(guān)鍵點存在的概率。2) 基于這些關(guān)鍵點的空間位置關(guān)系生成一系列候選檢測框,利用IOU選擇眼睛最佳檢測框。3) 利用人的先驗知識,在這些關(guān)鍵點基礎(chǔ)上建立眼睛狀態(tài)估計策略,輸出狀態(tài)估計結(jié)果。圖2是基于眼睛關(guān)鍵點定位眼睛位置和狀態(tài)估計的框架示意圖,圖3是網(wǎng)絡(luò)輸出的眼睛關(guān)鍵點的熱點圖及其對應(yīng)眼睛的位置。

圖2 整體網(wǎng)絡(luò)框架結(jié)構(gòu)圖

圖3 網(wǎng)絡(luò)熱點圖及對應(yīng)眼睛位置
Newell等[1]提出的沙漏網(wǎng)絡(luò)最初被用來估計人體姿態(tài)關(guān)節(jié)點,它可以很好地挖掘人體各部分關(guān)節(jié)點之間的位置關(guān)聯(lián)性,通過堆疊多個沙漏網(wǎng)絡(luò),制定合理的訓(xùn)練策略,即使在嚴(yán)重遮擋和復(fù)雜背景的條件下,也可以實現(xiàn)很好的關(guān)鍵點定位結(jié)果。當(dāng)前一些目標(biāo)檢測任務(wù)通過堆疊沙漏網(wǎng)絡(luò)輸出特定的目標(biāo)關(guān)鍵點實現(xiàn)目標(biāo)檢測。殘差模塊是沙漏網(wǎng)絡(luò)的基本結(jié)構(gòu)單元,如圖4所示。

圖4 沙漏網(wǎng)絡(luò)的基本模塊單元—殘差模塊
沙漏網(wǎng)絡(luò)以殘差模塊為基本單元。殘差模塊[12]在保留原有尺寸特征的基礎(chǔ)上,同時提取了較高層次的特征,并且不改變數(shù)據(jù)尺寸,只改變數(shù)據(jù)深度。沙漏網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)結(jié)構(gòu)類似。單階的沙漏網(wǎng)絡(luò)擁有上下兩個半路,上半路在原始輸入尺度上經(jīng)過若干個殘差模塊,逐步提取更深層次特征,下半路經(jīng)歷了先max pooling降采樣,然后經(jīng)過殘差模塊提取深度特征,再升采樣(采用最近鄰插值)的過程。多階子模塊提取深度的特征,同時保持特征尺度不變。多階沙漏每次先分出上半路保留原始信息,然后開始降采樣;每次升采樣之后,和上一個尺度保留的上半路信息相加;在兩次降采樣之間,一般使用三個殘差模塊來提取特征;兩次相加之間,還需要使用一個殘差模塊再次提取特征。三階沙漏網(wǎng)絡(luò)示意圖如圖5所示。

圖5 三階沙漏網(wǎng)絡(luò)模型
進一步地,堆疊多個沙漏網(wǎng)絡(luò),前一個沙漏網(wǎng)絡(luò)的輸出作為下一個沙漏網(wǎng)絡(luò)的輸入,采用由粗到精的方法逐步細化關(guān)鍵點的定位精度。在本文中,采用MSE損失來訓(xùn)練眼睛關(guān)鍵點定位:
(1)

2.3.1眼睛定位方法
經(jīng)過觀察分析,結(jié)合眼睛關(guān)鍵點之間的位置關(guān)系,可以生成指定大小的眼睛檢測框來表示眼睛位置,示意圖如圖6所示,具體步驟如下(以右眼為例):
步驟1利用眼睛右眼角關(guān)鍵點(xrr,yrr)、左眼角關(guān)鍵點(xrl,yrl)得到眼睛中心點坐標(biāo):
步驟2計算眼睛右眼角到中心點(xrc,yrc)的歐氏距離Lrrc和眼睛左眼角到中心點(xrc,yrc)的歐氏距離Lrlc:
(2)
(3)
步驟3經(jīng)過線性變換得到檢測框的左上角的點(xblt,yblt)和右下角的點(xbrb,ybrb):
(4)
(5)

圖6 眼睛定位示意圖
調(diào)節(jié)參數(shù)α、β(α≥0.5,β≥0.5),可以直接生成不同大小的眼睛檢測窗口,本文選擇與標(biāo)記框(經(jīng)驗上手動標(biāo)記)有最大IOU的檢測框,在訓(xùn)練集上進行實驗比較,發(fā)現(xiàn)在NIR-1000數(shù)據(jù)集下,α=β=0.7的時候,可以保障與標(biāo)記框有最大IOU,同樣在VIS-1000數(shù)據(jù)集上,α=β=0.85的時候獲得最佳檢測框。
2.3.2眼睛狀態(tài)估計
眼睛關(guān)鍵點標(biāo)注示意圖如圖7所示。

(a) 眼睛睜開 (b) 眼睛閉合圖7 眼睛關(guān)鍵點標(biāo)注示意圖
從眼睛在開閉狀態(tài)下建立的先驗知識中獲得啟發(fā),提出基于眼睛關(guān)鍵點的眼睛狀態(tài)估計方法。鑒于已經(jīng)得到了上眼皮最高點(xrt,yrt)和下眼皮最低點(xrb,yrb),右眼角關(guān)鍵點(xrr,yrr)和左眼角關(guān)鍵點(xrl,yrl),利用上下眼角之間的高度差hrtb=|yrt-yrb|作為衡量眼睛開閉狀態(tài)的指標(biāo),考慮到不同場景下,這個高度差沒有一個統(tǒng)一的衡量指標(biāo)來認定眼睛的狀態(tài),所以利用左右眼角之間的水平差值wrrl=|xrr-xrl|來歸一化這個指標(biāo),映射為t=hrtb/wrrl,因此t可以作為反映當(dāng)前眼睛狀態(tài)的指標(biāo)。經(jīng)過實驗驗證,得到眼睛開閉狀態(tài)實驗結(jié)果分布圖如圖8所示。

圖8 開閉眼狀態(tài)統(tǒng)計直方分布圖
由圖8發(fā)現(xiàn):當(dāng)t<0.3的時候,眼睛大概率可判定為閉眼狀態(tài),當(dāng)t>0.3的時候,大概率可判定眼睛為睜眼狀態(tài)。t值可能會隨著人種不同、民族不同而略有改變,但在已經(jīng)獲得眼睛關(guān)鍵點的基礎(chǔ)上,t值的選取可以根據(jù)不同任務(wù)需求來選定。

(6)
(7)

目前針對眼睛的數(shù)據(jù)特別稀少,現(xiàn)有的文章中提到的數(shù)據(jù)集多是從網(wǎng)上爬取,或者挑選部分人臉數(shù)據(jù)集來做關(guān)于眼睛定位的任務(wù),這些數(shù)據(jù)集往往會存在檢測目標(biāo)狀態(tài)單一、圖像質(zhì)量較差、標(biāo)注不完善等問題。為此,在可見光和近紅外光源條件下建立了一個較為完善的眼睛數(shù)據(jù)集OCE-1000。OCE-1000數(shù)據(jù)集包含2 000幅圖像,包含遮擋、面部表情和頭部姿態(tài)等多種變化,其中有1 000幅可見光下采集的圖像組成VIS-1000數(shù)據(jù)集,分辨率為4 160×2 336。除此之外,還包含了1 000幅分辨率為1 080×1 920的近紅外圖像組成了NIR-1000數(shù)據(jù)集,圖9中是OCE-1000部分?jǐn)?shù)據(jù)集圖像。這個數(shù)據(jù)集用來做眼睛定位和狀態(tài)估計任務(wù)是有挑戰(zhàn)性的,但也可以真實反映網(wǎng)絡(luò)模型的魯棒性。在這個數(shù)據(jù)集上,同時標(biāo)注包含了眼角和眼皮四個關(guān)鍵點的坐標(biāo),還包括眼睛區(qū)域的標(biāo)定框和眼睛的狀態(tài)。

圖9 隨機選取部分OCE-1000數(shù)據(jù)集圖像
堆疊沙漏網(wǎng)絡(luò)可以準(zhǔn)確預(yù)測眼睛關(guān)鍵點。圖像輸入沙漏網(wǎng)絡(luò)之前,首先經(jīng)過一個核大小7×7、Stride為2的卷積層和一個2×2的max pooling層。接下來輸入到3個形似編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)的沙漏網(wǎng)絡(luò),受殘差網(wǎng)絡(luò)的啟發(fā),沙漏網(wǎng)絡(luò)采用殘差模塊結(jié)構(gòu)設(shè)計來使整個網(wǎng)絡(luò)更深并且更容易優(yōu)化,設(shè)置整個沙漏網(wǎng)絡(luò)的通道層為256,并且在最后256個優(yōu)化的特征層使用8個核大小為1×1的卷積層使輸出為8個眼睛關(guān)鍵點的熱點圖。訓(xùn)練期間,在輸入圖像的分辨率為512×256,最終的輸出分辨率為128×64。整個網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的Adam算法優(yōu)化整個網(wǎng)絡(luò),初始學(xué)習(xí)率設(shè)置為2e-5并且選擇batch size為8,我們設(shè)置了最大訓(xùn)練迭代次數(shù)為750,學(xué)習(xí)率隨著驗證集的損失而調(diào)整,如果在若干個迭代次數(shù)中驗證集的損失不再下降,則學(xué)習(xí)率降低為原來的0.5倍,直到網(wǎng)絡(luò)收斂。保存所有訓(xùn)練迭代中Loss最低的5次。訓(xùn)練過程中,將訓(xùn)練集分成兩部分,分別用于訓(xùn)練和驗證,比例為3 ∶1。
3.3.1眼睛關(guān)鍵點定位的結(jié)果
在不同的眼睛數(shù)據(jù)集上,眼睛圖像的尺寸大小不一,需要一個合理的眼睛關(guān)鍵點評價標(biāo)準(zhǔn),利用2.4節(jié)所示評判規(guī)則可以很好地解決這個挑戰(zhàn)。在VIS-1000數(shù)據(jù)集和NIR-1000數(shù)據(jù)集中,都選擇預(yù)測的眼睛關(guān)鍵點偏差率大于0.2視為預(yù)測失敗,實驗結(jié)果如表1所示。

表1 OCE-1000數(shù)據(jù)集關(guān)鍵點定位結(jié)果
從表1可以看出,在NIR-1000數(shù)據(jù)集中關(guān)鍵點偏差率比VIS-1000數(shù)據(jù)集中的偏差率小,這是因為圖像中背景信息所造成的影響,NIR-1000數(shù)據(jù)集中的圖像內(nèi)容較為單一,目標(biāo)很明顯,而在VIS-1000數(shù)據(jù)集中圖像背景復(fù)雜,目標(biāo)狀態(tài)、尺寸大小差異性較大,很容易受到背景信息的干擾。盡管存在數(shù)據(jù)上的差異,但是提出的方法在兩個數(shù)據(jù)集上都達到了98%以上的關(guān)鍵點定位準(zhǔn)確率。表2是在公共數(shù)據(jù)集Gi4e和BioID上預(yù)測的關(guān)鍵點的定位結(jié)果,表明模型的泛化性良好。

表2 在Gi4e和BioID數(shù)據(jù)集關(guān)鍵點定位結(jié)果
3.3.2眼睛關(guān)鍵點檢測的結(jié)果
為了更好地展示眼睛定位的效果,我們選擇使用關(guān)鍵點來生成眼睛檢測框,這些點不僅包含著眼睛的位置信息,同時也包含著眼睛的類別信息(左眼和右眼),所以基于這些點可以很好地生成眼睛檢測框。我們統(tǒng)計了訓(xùn)練集中標(biāo)記的眼睛檢測框,根據(jù)2.3.1節(jié)所示的生成規(guī)則發(fā)現(xiàn),在NIR-1000訓(xùn)練數(shù)據(jù)集中令α=β=0.7,可以實現(xiàn)與標(biāo)記的眼睛檢測框有最大重疊,即生成眼睛檢測框的左上角和右下角的坐標(biāo)可表示為:
(8)
在VIS-1000訓(xùn)練數(shù)據(jù)集中令α=β=0.85,可以保證與標(biāo)記的眼睛檢測框有最大的重疊,即生成眼睛檢測框的左上角和右下角的坐標(biāo)可表示為:
(9)
在上述生成規(guī)則下,在測試集上可以保持生成的預(yù)測眼睛檢測框與標(biāo)記的眼睛檢測框達到IOU=0.8,準(zhǔn)確率達到了97%以上,對比傳統(tǒng)的目標(biāo)檢測方法,結(jié)果如表3所示。

表3 在OCE-1000數(shù)據(jù)集眼睛檢測結(jié)果
3.3.3眼睛狀態(tài)估計的結(jié)果
采用2.3.2節(jié)所示方法,融合人們對于眼睛開閉狀態(tài)先驗知識的理解,利用預(yù)測的上眼皮關(guān)鍵點和下眼皮關(guān)鍵點的距離在眼睛開閉狀態(tài)下的變化表示眼睛開閉狀態(tài)。設(shè)定判別眼睛開閉狀態(tài)的閾值為0.3,發(fā)現(xiàn):當(dāng)t<0.3的時候,眼睛可判定為閉眼狀態(tài),當(dāng)t>0.3的時候,可判定眼睛為睜眼狀態(tài)。表4是在公共數(shù)據(jù)集Gi4e和BioID上與其他眼睛狀態(tài)估計方法的比較,發(fā)現(xiàn)本文提出的算法均可以達到最優(yōu)的實驗結(jié)果。表5是在標(biāo)注的數(shù)據(jù)集OCE-1000上與其他眼睛狀態(tài)估計方法的比較,發(fā)現(xiàn)本文提出的算法同樣可以達到最優(yōu)的實驗結(jié)果。

表4 在公共數(shù)據(jù)集Gi4e和BioID上的對比實驗結(jié)果(%)

表5 在標(biāo)注數(shù)據(jù)集與其他眼睛狀態(tài)估計方法的比較(%)
表面上看,眼睛狀態(tài)估計依賴于眼睛關(guān)鍵點預(yù)測的準(zhǔn)確性,其實在加入眼睛各個關(guān)鍵點之間的位置關(guān)聯(lián)性后,可以保證即使在關(guān)鍵點預(yù)測一般的情況下,也可以實現(xiàn)較好的眼睛狀態(tài)估計。
深度學(xué)習(xí)的發(fā)展很大程度上是數(shù)據(jù)量的爆發(fā)式增長,很多數(shù)據(jù)集數(shù)據(jù)量達到十幾萬,甚至數(shù)百萬,但在虹膜識別、鞏膜識別還有眼周識別領(lǐng)域,目前比較缺乏較大規(guī)模的數(shù)據(jù)集。目前存在的較大的人臉圖像有數(shù)百萬,可以考慮從這些人臉圖像中獲取眼周、虹膜和鞏膜圖像,而不需要特意取采集,這是本文算法的一個優(yōu)勢。
在一幅包含眼睛的人臉圖像上,通過直接預(yù)測眼睛的關(guān)鍵點,輸出眼睛的狀態(tài),根據(jù)在2.3.1節(jié)中所提出的方法,當(dāng)α和β相同時,提取的眼睛區(qū)域是一個正方形,當(dāng)α和β不同時,提取的眼睛區(qū)域是一個長方形,調(diào)節(jié)α和β可以提取出最佳的眼睛圖像,這里取α=β,使提取的眼睛區(qū)域為正方形。對于提取虹膜、鞏膜圖像,往往取0.7附近比較好,而對于眼周識別來說,需要更多的眼睛區(qū)域的特征,就需要取1.5。表6和表7是在OCE-1000數(shù)據(jù)集上采用不同超參數(shù)裁剪眼睛區(qū)域與手動標(biāo)注的groundtruth交并比的結(jié)果,可以看出在合適的α和β參數(shù)下能得到最佳的眼睛區(qū)域。

表6 在NIR-1000數(shù)據(jù)集上不同的超參數(shù)的比較

表7 在VIS-1000數(shù)據(jù)集上不同超參數(shù)的比較
在人臉識別和虹膜識別受約束的環(huán)境下,眼周識別是一種有效的生物識別方法。眼周識別指的是利用眼睛區(qū)域的紋理、皮膚、眉毛等特征來識別,但眼睛的位置和狀態(tài)容易受到頭部姿態(tài)變化的影響,這對利用眼周來進行識別是很不利的。基于提出的眼睛關(guān)鍵點定位方法得到準(zhǔn)確的眼睛關(guān)鍵點信息,根據(jù)在2.3.1節(jié)方法,選取合適大小的α、β兩個超參數(shù),可以裁剪合適大小的眼睛區(qū)域進行眼周識別;通過關(guān)鍵點信息對不同狀態(tài)下的眼睛做仿射變換,實現(xiàn)人眼的對齊,避免由于眼睛形狀各異導(dǎo)致識別不到或者識別錯誤,大大提高眼周識別的準(zhǔn)確率。眼睛關(guān)鍵點也是很好的語義信息,可以提升眼周識別的魯棒性,增強識別效果。
根據(jù)在OCE-1000數(shù)據(jù)集上得到的眼睛關(guān)鍵點信息,調(diào)節(jié)α和β兩個超參數(shù),得到如下大小的眼周數(shù)據(jù)集,同時利用眼睛的左右關(guān)鍵點進行仿射變換,將眼睛對齊到圖像中的固定位置,選取圖像像素平均值補全對齊后缺失的像素值,對齊結(jié)果如圖10所示。

圖10 眼睛對齊前后對比結(jié)果
利用眼睛關(guān)鍵點進行眼周對齊操作之后,將眼睛區(qū)域變換到圖像中的固定區(qū)域,對于實現(xiàn)特征提取,特征匹配和識別有重要意義。
相比于之前的眼睛定位和狀態(tài)估計需要先執(zhí)行眼睛檢測,再設(shè)置一個合理的分類器來估計眼睛狀態(tài),現(xiàn)在更多地考慮兩個任務(wù)之間存在的關(guān)聯(lián)性,通過單階段網(wǎng)絡(luò)大大削弱網(wǎng)絡(luò)的復(fù)雜度,同時依賴于眼睛的先驗知識,基于數(shù)據(jù)驅(qū)動的方式,極大地提升網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性。區(qū)別于傳統(tǒng)的基于目標(biāo)檢測框的方法,首先采用性能優(yōu)越的堆疊沙漏網(wǎng)絡(luò)預(yù)測出眼睛邊緣的四個極值點(左眼角、上眼皮最高點、右眼角、下眼皮最低點)。然后將這些關(guān)鍵點作為線索,融合關(guān)鍵點之間的空間位置關(guān)系,依賴于人在眼睛開閉狀態(tài)下的先驗知識,設(shè)定合適的閾值,可以實現(xiàn)高效地估計眼睛當(dāng)前的狀態(tài)。該方法首次在單階段網(wǎng)絡(luò)框架下同時實現(xiàn)眼睛定位和狀態(tài)估計,通過在新建立的眼睛數(shù)據(jù)集OCE-1000進行驗證分析,證明了該方法的可行性和有效性,為實現(xiàn)眼睛檢測和狀態(tài)估計提出了新的思路和方法。
眼睛的關(guān)鍵點提供了精準(zhǔn)的目標(biāo)定位信息,可以合理地把眼睛區(qū)域提取出來,這就為創(chuàng)建一個大型眼周數(shù)據(jù)集提供了可能。利用預(yù)測的眼睛關(guān)鍵點進行眼部預(yù)處理,實現(xiàn)眼周對齊,可以提升眼周識別的準(zhǔn)確性。