張 劍 賀 鑫 王孝雄
(大連理工大學(xué),遼寧 大連116024)
現(xiàn)有的人臉檢測(cè)和人臉對(duì)齊方法大多忽略了這兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系。雖然已有幾篇論文試圖共同解決這些問題,但這些作品仍然存在局限性。但是,使用的手工特征限制了它的性能。多視點(diǎn)人臉檢測(cè),但由于弱人臉檢測(cè)器產(chǎn)生的初始檢測(cè)窗口,檢測(cè)精度受到限制。
另一方面,在訓(xùn)練過程中,挖掘訓(xùn)練中的硬樣本對(duì)增強(qiáng)檢測(cè)能力至關(guān)重要。然而,傳統(tǒng)的硬樣本挖掘通常采用離線方式,這大大增加了手工操作。設(shè)計(jì)一種能自動(dòng)適應(yīng)當(dāng)前訓(xùn)練過程的在線硬樣本人臉檢測(cè)與對(duì)準(zhǔn)方法。
我們提出了一種通過多任務(wù)學(xué)習(xí)利用統(tǒng)一級(jí)聯(lián)CNN 實(shí)現(xiàn)這兩種任務(wù)集成的新框架。所提出的CNNs 由三個(gè)階段組成。
在第一階段,它通過淺層CNN 快速生成候選窗口。然后,通過更復(fù)雜的CNN 對(duì)窗口進(jìn)行細(xì)化,以拒絕大量非人臉窗口。最后,它使用更強(qiáng)大的CNN 來細(xì)化結(jié)果并輸出面部標(biāo)志的位置。由于這種多任務(wù)學(xué)習(xí)框架,該算法的性能可以顯著提高。
我們的應(yīng)用技術(shù)概括如下:
(1)提出一種基于級(jí)聯(lián)CNN 的人臉檢測(cè)與對(duì)準(zhǔn)框架,并詳細(xì)介紹了該框架。
(2)本文提出了一種有效的在線硬樣本挖掘方法,以提高挖掘性能。
(3)在具有挑戰(zhàn)性的基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),以顯示所提議的Ap-proach 在臉部檢測(cè)和臉部對(duì)齊任務(wù)方面與現(xiàn)有技術(shù)相比有顯著的性能改進(jìn)。
在目前已有的技術(shù)里,設(shè)計(jì)了多個(gè)CNS 用于人臉檢測(cè)。然而,我們注意到它的性能可能受到以下事實(shí)的限制:
一些濾波器缺乏權(quán)重的多樣性,這可能限制了它們產(chǎn)生區(qū)別描述。
與其他多類目標(biāo)檢測(cè)和分類任務(wù)相比,人臉檢測(cè)是一項(xiàng)具有挑戰(zhàn)性的二值分類任務(wù),因此可能需要較少的濾波器數(shù)量,但需要更多的濾波器區(qū)分。為此,我們減少濾波器的數(shù)量,并將5×5 濾波器改為3×3 濾波器,以減少計(jì)算量,同時(shí)增加深度以獲得更好的性能。
有了這些改進(jìn),以前的體系結(jié)構(gòu)相比,我們可以以更少的運(yùn)行時(shí)間獲得更好的應(yīng)用效果。對(duì)于公平的比較,我們使用相同的數(shù)據(jù)為這兩種方法。見圖。

多級(jí)聯(lián)卷積網(wǎng)絡(luò)圖
我們利用三個(gè)任務(wù)來訓(xùn)練CNN 檢測(cè)器:人臉/非人臉分類、邊界盒回歸和人臉標(biāo)志定位。
學(xué)習(xí)目標(biāo)被制定為兩類分類問題。對(duì)于每個(gè)樣本,我們使用交叉熵?fù)p失:

對(duì)于每個(gè)候選窗口,我們預(yù)測(cè)它與最近的地面真值之間的偏移即,邊界框的左頂部、高度和寬度)。我們把學(xué)習(xí)目標(biāo)歸結(jié)為一個(gè)回歸問題。每個(gè)樣本的歐幾里得損失:

不同于傳導(dǎo)傳統(tǒng)的硬樣本挖掘是在對(duì)原始分類器進(jìn)行訓(xùn)練之后,在人臉分類任務(wù)中進(jìn)行在線硬樣本挖掘以適應(yīng)訓(xùn)練過程。
在本文中,我們提出了基于一種多任務(wù)級(jí)聯(lián)CNN 結(jié)構(gòu)框架的面部檢測(cè)分割的方法。實(shí)驗(yàn)結(jié)果表明,我們的方法在同時(shí)進(jìn)行多個(gè)任務(wù)時(shí),始終相比其他方式更加出色,同時(shí)實(shí)現(xiàn)640x480的實(shí)時(shí)性能最小人臉尺寸為20x20 的VGA 圖像。主要出色表現(xiàn)的三個(gè)方面分別為精心設(shè)計(jì)的級(jí)聯(lián)CNN 架構(gòu)、檢測(cè)中困難樣本挖掘、人臉對(duì)齊聯(lián)合學(xué)習(xí)。