于賢杰,張建偉,楊夢龍
(1.四川大學 計算機學院(軟件學院),四川 成都 610065;2.四川大學 空天科學與工程學院,四川 成都 610065;3.四川川大智勝軟件股份有限公司,四川 成都 610045)
人臉檢測技術發展至今,已有很多工作者對其進行總結,對人臉檢測方法全面的調查可參考文獻[1]。目前人臉檢測算法主要分為One-stage和Two-stage方法,One-stage如YOLO[2]、SSD[3]等采用多層直接預測的方式,層與層之間無相互關聯,檢測速度快但檢測框準確度不佳。Two-stage算法如Faster-RCNN[4]、R-FCN[5]等采用由粗到精的檢測方式,檢測質量明顯提升,但由于僅采用一層特征作為特征輸入,對小目標檢測效果很差。
神經網絡隨著層數加深對分類越來越敏感,對回歸越來越不利,因此如何找到一個折中方案對檢測質量有很大影響。近幾年提出了很多算法在一定程度上解決了此類難題:IRNN[6]算法通過整合ROI(region of interest)內外部信息提升網絡檢測質量;FPN[7]算法采用特征金字塔結構,明顯提升了小目標的檢測質量;RON[8]算法采用特征融合結構,可以檢測圖像中多尺度的目標;CoupleNet[9]算法融合了全局信息與局部信息用于目標檢測;DetNet[10]算法平衡了分類任務與回歸任務,引入空洞卷積既保持感受野大小又保持較大的分辨率。
本文提出一種基于回歸置信度的多尺度人臉檢測網絡(regression-based multi-scale face detection net,RM net)。該網絡以R-FCN網絡為原型,采用多尺度特征融合結構提取特征,在預測階段既輸出分類置信度又輸出回歸置信度,同時將回歸置信度作為NMS[11]算法的排序指標。該網絡不僅能檢測多尺度的人臉,還能獲得精確的候選框。
通過分析目前的人臉檢測算法發現一個問題:檢測任務與分類任務是分開進行的,而最終得到的預測框的依據是分類置信度。這個問題會產生兩方面不利影響。一是基于分類置信度的目標框迭代回歸存在缺點。二是分類任務與回歸任務沒有明顯的正相關性,部分更優的預測框被排除掉。
在R-FCN網絡中,分類與回歸分別通過兩條支路得到,二者之間無必然聯系,由此得到的預測結果勢必會引入誤差,這也是傳統方法最終預測結果與真實值有些許偏離的原因。針對這個問題,在改進的網絡中增加一條用于預測回歸置信度的支路,回歸置信度的監督信息由預測結果和真實值決定,通過這種改進方法將回歸置信度與預測結果聯系起來。圖1中對比了傳統方法與改進后算法的迭代過程,在視覺上傳統基于分類置信度得到的預測框與真實框的IOU(intersection over union)隨著迭代次數先上升后下降,而改進方法得到的預測框與真實框的IOU隨著迭代次數是不斷上升的。改進的方法使得預測框與真實框越來越接近,對于人臉尺度變化較大的情況也會有不錯的效果。

圖1 傳統方法與改進方法的迭代過程
在目標檢測文獻[12]中,該作者通過聚類算法計算預測框和真實框的IOU值與分類置信度、回歸置信度的關系,發現預測框與分類置信度并無明顯的正相關,而與回歸置信度有明顯的正相關性。人臉檢測一般在最后階段通過NMS移除部分預測框,NMS算法以分類置信度為排序依據保留分類置信度最高的預測框,這種方法并不能很好表征預測框的準確性,換言之,可能將部分最接近真實框的預測框排除,分類置信度高的預測框并不一定是最優的預測框。圖2中對比了分類置信度與回歸置信度兩個指標,其中預測框1與預測框2都是對同一真實框的預測,根據傳統算法,預測框1比預測框2分類置信度高,因此只要預測框1與預測框2的IOU超過NMS算法設定的閾值,將會保留預測框1并過濾掉預測框2,但無論視覺上還是觀測IOU值,均可發現預測框2應為最優檢測框,同時通過計算預測框1與預測框2的回歸置信度,可以發現預測框2的回歸置信度優于預測框1,因此采用回歸置信度替代分類置信度將有更好的效果。

圖2 分類置信度與回歸置信度的影響對比
這部分介紹改進的人臉檢測模型。2.1節展示整體的網絡結構,2.2節詳細介紹多尺度特征融合方法,2.3節介紹基于回歸置信度的NMS算法。
本文提出的RM net是在R-FCN網絡的基礎上衍化而來,圖3為R-FCN與RM net網絡結構對比圖,圖3(a)為R-FCN網絡結構圖,圖3(b)為RM net網絡結構圖。R-FCN網絡僅采用基礎網絡最后一層作為特征輸入,這種方法提取的特征對尺度信息不夠敏感,將單尺度特征結構改進為多尺度特征融合結構以融合高低層特征。R-FCN網絡最終預測結果有兩條支路,分別預測分類置信度和得到預測坐標,由于兩條全連接層支路計算量太大,改為采用同一條支路進行預測、回歸,同時借鑒文獻[13]的思想,將全連接層改為1×1卷積層,大大減少了計算量。另一處改進為增加回歸置信度支路,該支路參數與計算分類置信度、回歸坐標的支路相同。

圖3 R-FCN與RM net網絡結構對比
特征金字塔結構已經被廣泛證明了其有效性,正如DetNet論文中所說,需要在分類任務與檢測任務中找到一個平衡點,借鑒其網絡結構構建基礎網絡,以ResNet-101[14]為基礎網絡,將網絡最后一個階段去掉,然后增加兩個新的階段,網絡結構如圖4所示,其中Stage5、Stage6為兩個dense block模塊,dense block模塊借鑒論文DenseNet[15]。

圖4 多尺度特征融合結構
傳統算法存在分類置信度與精確定位之間的不匹配問題,由此提出基于回歸置信度的NMS算法,該算法采用回歸置信度作為排序指標。算法具體過程如下,選擇與真實框具有最高回歸置信度的候選框bi,用該候選框bi去評估候選框集合中的所有候選框,選擇所有與候選框bi的IOU值大于Ωnms的候選框bj組成新的候選框集合,比較候選框bi的分類置信度si與所有候選框bj的分類置信度sj,令si=max(si,sj),在候選框集合中去除候選框bi與所有bj,繼續進行以上步驟至候選框列表為空。算法的偽代碼見表1。

表1 基于回歸置信度的NMS算法
本文實驗環境配置見表2。

表2 實驗環境配置
RM net采用end-to-end的方式訓練,圖片輸入進行了縮放,將圖片設置為長寬限制為800px~1200px,batch size設置為2,預訓練模型采用在ImageNet上訓練好的ResNet模型。正負樣本界定準則:IOU大于0.5設置為正樣本,IOU小于0.3設置為負樣本,保證正負樣本比例為1∶3。采用動量梯度下降(gradient descent with momentum)算法進行訓練,學習率設置:低于120 000次:0.0025;120 000 次至170 000次:0.000 25;170 000次至200 000次:0.000 03。數據增廣采用隨機水平翻轉圖片的方法。
FDDB是一個專門為無約束人臉檢測問題的研究而設計的,該數據集共包括2845張圖片,共5171張人臉,這些圖片采集于自然條件下拍攝的人臉,在表情、光照、遮擋、分辨率等各個方面都存在豐富的多樣性,貼近現實情況,因而是一個具有挑戰性的數據集。實驗采用10重交叉驗證的方式進行,結果如圖5所示。誤檢個數為0時檢測率能達到80%以上,誤檢個數為27時檢測率即可達到90%,誤檢個數為2000時,檢測率達到98.5%,相比其它算法優勢明顯。

圖5 FDDB實驗結果
同時,通過對比模型在FDDB數據集上的檢測結果與FDDB標注數據集,將所有漏檢的圖片篩選出來,共有82張圖片存在漏檢,圖6為部分漏檢圖片展示,矩形框為預測框,橢圓形框為真實框。實驗結果中90%以上漏檢人臉為模糊人臉,即造成效果低于其它模型的原因是模型未能學習好模糊人臉的特征(即困難人臉問題)。

圖6 部分漏檢圖片展示
WIDER FACE[16]是一個更廣泛的人臉檢測基準數據集,該數據集包含32 203張圖片和393 703張人臉。該數據集基于61個事件類別分類,對于每個事件類別選取其中的40%作為訓練集,10%用于交叉驗證,50%作為測試集。使用該數據集提供的訓練集訓練之后,widerface實驗結果如圖7所示,圖7(a)為簡單樣本的檢測結果,圖7(b)為中等樣本的檢測結果,圖7(c)為困難樣本的檢測結果。從圖中可以看出模型的檢測結果在簡單樣本、中等樣本上的檢測得分分別為0.96、0.948,效果明顯優于其它算法,但是在困難樣本上的檢測得分僅僅達到0.797,檢測質量明顯下降。通過分析其中原因發現與在FDDB上測試的問題一致,都是模糊人臉的辨別能力不足,即模型對未聚焦人臉檢測能力有所欠缺。

圖7 widerface實驗結果
本文提出了一種基于回歸置信度的多尺度精確人臉檢測模型RM net,提升了人臉尺度變化較大情況下的人臉檢測率以及人臉檢測框的準確率。通過融合多尺度的特征增強了對小人臉的敏感性,采用回歸置信度替代分類置信度的方式使得人臉檢測更加精確。本模型使用了在ImageNet上預訓練的Resnet101模型,只需要很短時間即可達到很高的準確率,且采用了多尺度特征融合后對人臉不同姿態、尺度等有很好的魯棒性。實驗過程已驗證該模型對不同尺度人臉具有很好的效果,但對模糊人臉檢測率低下,下一步工作準備處理模糊人臉難以檢測問題,進一步提升模型效果。