崔 凱, 才 華, 陳廣秋, 谷欣超, 孫俊喜
(1. 長春理工大學 電子信息工程學院, 長春 130022; 2. 長春理工大學 計算機科學技術學院, 長春 130022; 3. 東北師范大學 信息科學與技術學院, 長春 130117)
人臉檢測在人機交互、 身份驗證等領域應用廣泛[1]. 人臉特征的提取是人臉檢測的基礎, 特征模型可表示人臉的主要特征, 在實際應用中, 由于復雜背景、 人的豐富表情、 光照明暗變化等條件的干擾, 給特征的提取帶來了諸多困難, 為了保證人臉檢測的有效性, 用于人臉檢測的特征必須有較強的魯棒性.
紋理特征是內容圖像檢索技術(CBIR)研究的重點[2]. 局部二值模式(LBP)特征[3]是一種常用的有效紋理特征, LBP特征可提取圖像局部區域的紋理信息, 但其存在一定的局限性, 如所得數據維數過高、 對紋理區域不魯棒等; 文獻[4]提出了中心對稱局部區域二值模式(CS-LBP)描述符, 該特征可很好地描述紋理圖像的局部特征, 但其不具有旋轉不變性, 易導致圖像中心鄰域點局部信息的丟失. 基于此, 本文借鑒二進制Haar特征的積分圖求累積強度[5], 并考慮到特征的旋轉不變性, 提出一種多紋理CS-LBP特征算子. 多紋理CS-LBP特征繼承了二進制Haar特征和LBP特征的所有優點, 特征數量少, 但可有效地捕獲圖像的局部強度結構, 具有更強的辨別能力, 且在檢測過程中不需要特殊的光照校正, 節省計算成本[6].
目前, 主要有3種不同類型的人臉探測器: 1) 改進自Viola和Jones的級聯框架[7]; 2) 可變形模型(DPM)[8]; 3) 基于神經網絡的探測器, 如卷積神經網絡(CNN)等[9-10].
本文綜合考慮人臉檢測精度和時間, 采用一種針對多視角人臉檢測級聯結構人臉檢測框架, 通過引入由精到粗的設計理念[11], 針對人臉圖像中的不同視角進行分區, 分別進行多紋理特征的提取, 并采用并行計算方式的獨立分類器, 逐漸去除非人臉窗口. 采用多層感知器MLP綜合各視角的檢測效果, 最終實現快速準確的人臉檢測. 最后, 在人臉檢測測試集FDDB[12]和CMU PIE[13]上對本文檢測方法進行驗證, 測試效果較理想.
LBP主要用于獲取圖像的局部紋理特征, 該特征通過提取度量圖像的局部對比度獲得. 先將中心像素周圍8個像素的灰度值減去中心像素灰度值, 如果差值大于0, 則標記為1, 反之該像素所在的位置記為0; 然后與相應的權重相乘, 乘積的累加和即為該8鄰域的LBP值[14], 如圖1所示.

圖1 原始LBP特征Fig.1 Original LBP features
LBP特征值定義為

圖2 CS-LBP特征Fig.2 CS-LBP features
CS-LBP特征如圖2所示, 其對灰度圖像的方向變化進行編碼, 該特征結合了SIFT特征[16]和LBP特征的優點.
CS-LBP特征值定義為
其中, 閾值t反映了紋理的平坦性特點. CS-LBP特征有效地將圖像維數降為16維[17].
人臉局部特征具有不同的方向性, 本文對CS-LBP特征進行改進, 得到4個部分特征: 水平紋理、 垂直紋理、 +45°紋理和-45°紋理, 該方法一方面保留了CS-LBP的優點, 另一方面引進了方向, 在保證對光照的魯棒性外, 還具有一定的旋轉不變性.
為了加強特征的辨別能力, 本文借鑒Haar特征, 通過積分圖進行運算, 即合并8個局部相鄰的大小相同的2-矩形二進制Haar特征, 它們擁有同一個中心矩形. 用于組合的8個二進制Haar特征如圖3所示.圖4為組合特征, 其中黑色區域表示共享.

圖3 用于組合的8個二值Haar特征Fig.3 Eight binary Haar features for combination

圖4 組合特征Fig.4 Combination features
組合特征用I(X,Y,S,L)表示, 其中:X和Y表示圖像特征左頂位置的坐標; (S,L)表示矩形的寬度和高度. 特征組合完成后, 即可進行多紋理CS-LBP特征的計算.圖5為多紋理CS-LBP特征的模型.
莫言認為:“長篇小說的結構是長篇小說藝術的重要組成部分,是作家豐沛想象力的表現。好的結構,能夠凸顯故事的意義,也能夠改變故事的單一意義”[13]。在他看來,結構從來不僅僅是小說的外在形式,它有時候就是故事的內容,是作家思想情感的展示方式,包孕著作家的胸懷氣象和話語寄托,傳達著作家的藝術才華和審美意圖。只有好的故事結構才能承擔起故事的豐富內蘊,呈現文本的多義多解。在諸多長篇小說敘事結構中,“復調型的民間敘事結構是莫言小說的最基本的敘事形態”[14](P29),成為莫言文學作品深厚內蘊的有力承載者。
多紋理CS-LBP特征模型計算公式如下:

(10)

(11)

圖5 多紋理CS-LBP特征模型Fig.5 Multi-texture CS-LBP feature model
其中:Ti表示第i個像素區域的灰度值之和;t表示閾值;ω表示各方向紋理特征的權重. 多紋理CS-LBP特征繼承了二進制Haar特征和LBP的所有優點, 數量較少, 卻可有效地捕獲圖像的局部強度結構, 具有較強的辨別能力, 并在檢測過程中不需要特殊的光照校正. 該特征對人臉紋理具有代表性, 同時還可以減少特征的數量.

圖6 人臉檢測器的整體結構框架Fig.6 Overall framework of face detector
采用級聯結構多視角人臉檢測器, 在檢測框架中, 根分類器進行二值分類. 根據視角的不同, 人臉被分成多個子類, 每個子類都由相應的模型進行處理. 級聯結構采取并行模式, 在精度和速度方面效果較好.圖6為檢測器的整體結構框架. 首先針對不同視角, 多個分類器并行運行, 進行多紋理特征的提取, 迅速剔除多數的非人臉候選窗口. 每個分類器針對不同視角進行專門訓練, 以確保具有較高的召回率. 其次, 采用多層感知器MLP級聯(multilayer perceptron)[18]驗證剩余候選窗口, 此時分類器的數目較前面有所減少, 雖然更耗時, 但判決能力更強. 最后, 通過統一的MLP處理余下的各視角的候選窗口, 實現最終的人臉檢測輸出.
首先, 將復雜的多視角人臉檢測劃分成多個簡單的單視角人臉檢測問題. 根據提取的多紋理特征, 采用多個快速級聯分類器進行分類, 每個獨立視角的分類都是并行的, 當且僅當所有的快速級聯分類器分類為非人臉時, 窗口才被去除. 所有模型共享用于特征提取的特征圖, 運行速度快, 召回率高. 此外, 并行結構允許視角分區, 靈活性更強, 不會像樹形結構因為不正確的分支而導致漏檢.
其次, 完成上述操作后, 多數的非人臉窗口被排除, 余下的候選窗口需要進一步驗證. 引入多層感知器MLP級聯, MLP是一種由輸入層、 輸出層和隱藏層三部分組成的神經網絡.N層多層感知器F(x)可表示為
F(x)=fN-1(fN-2(…f1(x))),
(12)
fi(x)=σ(Wix+bi),
(13)

(14)
其中:xi表示第i個訓練樣本的特征向量;yi相應的標記為1或0, 表示樣本是否為人臉.
最后, 采用統一的MLP處理前兩個階段保留下來的少數窗口. 綜合各視角的檢測結果, 最終實現人臉與非人臉區域的準確區分.
為了驗證多紋理CS-LBP特征和檢測器的有效性, 本文在FDDB和CMU PIE兩個驗證數據集上進行實驗.
共采用150個多紋理CS-LBP特征, 這些特征是從圖像的局部片段中提取的, 如果它們之間有較大的重疊, 則多余的部分會被覆蓋, MLP級聯階段有一個隱藏層, 分別包含10,15,20個隱藏單元, 最后的統一MLP包含60個隱藏單元的隱藏層結構.
為了分析多紋理CS-LBP特征的檢索效果, 統計一般情況下標準圖像庫中512個結果的平均查準率和查全率[19]作為檢索效果評價標準. 設在圖像庫R中,Qi表示第i類圖像的集合, ‖Qi‖表示R中與Qi在視覺上相似的圖像數目, 一次查詢中返回的結果記為(Y1,Y2,…,Yn),N表示查完某個圖像庫所需的次數,X表示實驗圖像庫(X∈R). 則平均查全率定義為
(15)
平均查準率定義為
(16)
其中
(17)
隨機選擇8個小型圖像庫, 再分別從每個小型庫中隨機選出8幅圖像作為實驗圖像庫, 在檢索過程中, 再選擇與每個圖像視覺上最接近的前25幅圖像作為關聯圖像, 則對每個算子, 總共檢測64次. 分別計算每個亞小型圖像庫的平均查準率與平均查全率.
圖7為不同特征的平均查全率與查準率對比曲線. 由圖7可見, 在相同的測試圖像集下, 多紋理CS-LBP特征的查全率和查準率均比原始的LBP特征和改進的CS-LBP特征高, 因此多紋理CS-LBP特征檢測性能更好.

圖7 不同特征的平均查全率與查準率對比曲線Fig.7 Contrast curves of average recall and precision of different features
將本文采用的級聯結構與CNN進行比較, 主要對比兩種常見的CNN模型LeNet[20-21]和AlexNet[22-23]. LeNet和AlexNet的輸出層被調整為二值分類, 即人臉和非人臉. CNN的兩個模型與本文級聯結構采用相同的訓練集, 包含9 204個多視角人臉的樣本和10 000個非人臉樣本. 在FDDB和CMU PIE數據集上的測試結果分別列于表1和表2. 由表1和表2可見, 隨著檢測誤報數的增加, 3種檢測網絡的準確率越來越高, 級聯結構人臉檢測器的性能比LeNet好很多, 性能也優于8層的AlexNet.

表1 FDDB數據集測試準確率

表2 CMU PIE數據集測試準確率
綜上所述, 本文提出了一種多紋理CS-LBP特征, 結合了Haar特征積分圖和LBP的優點, 根據人臉圖像的模型特征, 從水平紋理、 垂直紋理、 +45°紋理和-45°紋理4個方向進行特征提取, 保證了在不同方向、 光照、 旋轉情況下人臉檢測的魯棒性. 此外, 本文算法采用一種級聯結構的多視角人臉檢測框架, 用由粗到細的設計理念, 逐層篩選候選人臉窗口, 有效提高了人臉檢測的準確性, 且縮短了并行計算時間. 最后, 在人臉檢測數據集FDDB和CMU PIE上進行評估, 驗證了本文方法對復雜環境下的多視角人臉檢測十分有效, 與傳統的CNN方法相比, 具有更高的精度.