999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種端到端的人臉對齊方法

2021-10-15 10:08:28康智慧王全玉王戰軍
計算機工程 2021年10期
關鍵詞:關鍵點深度特征

康智慧,王全玉,王戰軍

(1.北京理工大學 計算機科學與技術學院,北京 100081;2.北京理工大學 人文與社會科學學院,北京 100081)

0 概述

人臉對齊是在給定的圖像中確定人臉主要器官(如眼睛、鼻子、嘴巴等)的輪廓點位置,這些輪廓點在人臉研究中被稱為人臉特征點或人臉關鍵點,對人臉研究具有重要意義,在人臉驗證、人臉表情識別、人機交互以及人臉動畫技術方面起著不可代替的作用。

隨著研究人員對人臉關鍵點檢測的研究,許多優秀的方法不斷被提出。其中根據是否有參數分為參數化方法和非參數化的方法。在參數化方法中具有代表性的人臉關鍵點檢測方法有基于主動形狀模型(Active Shape Model,ASM)[1]的方法和基于主動外觀模型(Active Appearance Model,AAM)[2]的方法。ASM 方法是基于局部特征的,獨立考慮每個關鍵點周圍的變化,通過訓練學習到的全局形狀來檢測人臉關鍵點;AAM 是對ASM 的一種改進和優化,同時考慮面部形狀和紋理,以便更精確地檢測人臉關鍵點。基于非參數化的方法有基于圖模型的馬爾科夫隨機場的建模、基于級聯回歸的方法和基于深度學習的方法。基于級聯回歸的方法采用從粗略估計到精細估計的方式對人臉關鍵點進行直接估計,并不需要對任何模型進行學習和建模。隨著深度學習研究的不斷深入,基于深度學習的方法在人臉關鍵點檢測方面的應用也隨之增加,該方法通過對訓練數據的學習自動地生成人臉關鍵點檢測模型,無需人工干預。這種超強的學習能力,使其成為近年來廣泛使用的方法。然而,即使已經存在大量先進的人臉關鍵點檢測算法,人臉關鍵點檢測任務仍然面臨很多挑戰:不同的人臉表情、不同的頭部姿勢以及遮擋、光線等外在條件都會影響人臉關鍵點的位置和外觀特征,從而影響人臉關鍵點檢測的準確性和可靠性;現存的人臉關鍵點檢測方法大多不是端到端的檢測,中間過程需要大量的人工干預,使得模型不具有良好的穩定性;目前的多數方法輸入的是人臉的局部特征,關鍵點定位不具有整體的穩定性。很多方法雖然具有良好的定位精度,但是其模型規模過大,在實時性方面還有待提高。

為解決上述方法的不足,本文提出一種基于深度學習的人臉對齊方法。采用整張圖像作為網絡的輸入,以保證人臉對齊具有全局性,在此基礎上設計一種端到端的網絡結構,減少中間過程人工干預帶來的不確定性,并采用基于深度可分離卷積[3]模塊,構建一個類VGG[4]結構的網絡進行人臉特征提取與關鍵點定位。

1 相關工作

在計算機視覺領域的研究初期,人臉關鍵點檢測大都基于傳統機器學習,其中的經典方法是基于AAM[2]的算法,其采用人臉形狀和外觀2 種特征進行人臉關鍵點檢測,隨后文獻[5-6]在AAM 基礎上進行優化,其中主要有2 個優化方向:對關鍵點準確率進行提升與對擬合的速度進行提升。

隨著深度學習的普及以及計算機性能的提升,人們開始采用深度學習的方法對人臉關鍵點進行檢測。2013 年,SUN 等[7]提出采用深度學習方法對人臉關鍵點進行檢測和跟蹤,該算法采用了三層級聯卷積神經網絡(Convolutional Neural Network,CNN)的結構對人臉的5 個關鍵點進行檢測,取得了較好的檢測結果。

文獻[8]采用由粗到精的深度學習方法對人臉的68 個關鍵點進行檢測,該方法的貢獻在于檢測的關鍵點更多,而且降低了傳統卷積網絡的網絡復雜性和減輕了訓練模型的負擔。文獻[9]提出人臉關鍵點檢測不是一個獨立的問題,對人臉關鍵點位置的估計會受到許多因素的影響,因此提出了一種基于多任務學習的人臉關鍵點檢測算法(Multi-Task Convolutional Neural Networks,MTCNN)。當人臉有遮擋或者人臉姿勢變化較大時,該算法獲得了較高的準確率。為了能夠更好地克服頭部姿勢運動帶來的困擾,2017 年KOWALSKI 等[10]提出深度對齊網絡(Deep Alignment Network,DAN)的人臉關鍵點檢測算法。該算法在人臉關鍵點檢測的整個過程中采用整張臉作為輸入,使得對于頭部運動較大變化時關鍵點的檢測都很穩定,這也是本文的創新動機來源之一。除了卷積神經網絡外,遞歸神經網絡(Recurrent Neural Network,RNN)也被用于人臉關鍵點的檢測與跟蹤。

2 用于人臉對齊的端到端網絡

本節首先對提出的用于人臉對齊的端到端的網絡模型進行總體概述。然后分別對每個子模塊進行介紹,子模塊主要包含深度可分離卷積模塊、改進的倒殘差結構和Squeeze-and-Excitation 結構[11]。最后介紹本文設計的網絡結構的具體實現。

2.1 端到端的網絡模型方法

本文設計一種端到端的網絡模型對圖像中的N個人臉關鍵點進行定位。圖1 所示為該方法的整體結構。

圖1 人臉對齊網絡結構Fig.1 Structure of face alignment network

本文基于深度可分離卷積的方法對圖像中的人臉關鍵點進行定位。采用該網絡結構的主要原因是:深度可分離卷積可以采用不同尺寸的視野域,不同的視野域可以提取出不同的圖像特征。在計算量一定的情況下,與傳統的全卷積網絡相比,深度可分離卷積可以被設計為更深層次的網絡,因此其采集到的圖像特征會更加豐富。采用深度可分離卷積神經網絡可以減少網絡模型中的參數個數,縮短計算時間,從而提升效率。由于VGG 結構在目標檢測中具有良好的表現,因此采用類VGG 的結構進行網絡構建來提高人臉對齊的精度。

2.2 深度可分離卷積結構

在特征提取網絡中,主要是從圖像的像素信息中提取與關鍵點定位相關的特征,本文采用基于深度可分離卷積的網絡結構對圖像信息進行提取。深度可分離網絡是由HOWARD 等[3]在2017 年提出的。視野域在深度卷積操作中對應的就是卷積核,選擇不同尺寸的卷積核進行操作,意味著考慮的圖像周圍的環境不同,因此提取到的特征就會不同。一個標準的卷積既可以卷積又可以將輸入合并為一組新的輸出,而深度可分離卷積包含2 個部分:一個專門用于卷積的層稱為深度卷積層;另一個專門用于特征生成的層稱為點式卷積層。深度卷積層將卷積按照圖像通道數均勻分解,點式卷積層采用1×1 的卷積實現。深度可分離卷積結構如圖2 所示。

圖2 深度可分離卷積結構Fig.2 Structure of depth separable convolution

假設輸入特征圖為D1×D1×M,輸出的特征圖為D2×D2×N,卷積核的大小為K,若采用普通的卷積操作,則計算成本為K×K×M×N×D1×D1。若采用深度可分離卷積操作,則深度卷積的計算成本為K×K×M×D1×D1,1×1 卷積操作的計算成本為M×N×D1×D1,因此深度可分離卷積的總的計算成本為K×K×M×D1×D1+M×N×D1×D1。僅一次卷積操作,在計算成本上采用深度可分離卷積為普通卷的1/N+1/(K2)。由此可見,采用深度可分離結構比普通的卷積網絡的計算成本低,因此在計算量一定的情況下,深度可分離卷積能夠提取到更深層次的圖像特征。因此,本文設計的網絡結構在設備的計算能力有限或者對實時性要求較高的場景下具有一定的優勢。

為加速模型收斂和防止過擬合,在每個卷積分支的卷積后都會進行一次批量正規化,采用的激活函數是ReLU6,ReLU6 的計算如式(1)所示:

2.3 改進的倒殘差結構

為避免訓練階段出現梯度消失等情況,采用MobileNet 系列中的一種稱為“倒殘差”[11]模塊,即在每次深度卷積之后再與此次深度卷積之前的圖像特征做合并,作為下一次深度卷積的輸入。但是這一“倒殘差”的變換與傳統的殘差網絡的變換過程有所不同,由于深度可分離卷積不能改變通道數,通道數量越多采集到的特征也就越多,因此為了提取到更多的特征,在進行深度卷積之前需要先增加通道數,“倒殘差”結構的變換過程在通道數量上的變化恰好與傳統的殘差結構的變換過程相反,即倒殘差的變換過程是“擴展-深度分離卷積-壓縮”。

原始的倒殘差結構在輸入尺寸與深度卷積后的尺寸相同的情況下直接合并通道,若兩者尺寸不同則直接采用卷積后的特征作為下一模塊的輸入,這在一定程度上損失了圖像特征。為了最大限度地避免圖像特征的丟失,本文對輸入尺寸與深度可分離卷積后的尺寸不同的情況做了改進,即將輸入的尺寸經過池化變換后生成與深度可分離卷積輸出尺寸相同的特征圖,然后將兩者合并,作為下一次卷積的輸入。改進前后的倒殘差結構在2 種情況下的結構如圖3 所示。圖3(a)表示當卷積的步長stride=1時的情況,即直接將輸入與卷積之后的輸出合并;圖3(b)是原始倒殘差結構卷積步長為stride=2 時的情況,即直接將卷積后的輸出作為下一卷積的輸入;圖3(c)是卷積步長stride=2 時改進后的結構,將原始的輸入進行池化操作后與卷積后的輸出進行合并。

圖3 改進前后的倒殘差結構Fig.3 Inverse residual structure before and after improvement

很明顯,當stride=2 時,在改進后的結構中,不僅包含了原始結構的卷積操作的輸出特征,另外增加了對輸入進行池化后的特征,池化后的特征在一定程度上保留著原始輸入的特征,與原始模型相比較,用于下一次卷積的特征內容更加豐富。

2.4 Squeeze-and-Excitation 結構

Squeeze-and-Excitation 結構由HU 等[12]提出,該結構能夠學習圖像通道之間的關系。圖4 所示為Squeeze-and-Excitation 模塊詳細結構,X??H′×W′×C′為輸入,Ftr為普通的卷積操作,U??H×W×C為X經過Ftr卷積后的輸出,Fsq(·)為全局的平均池化操作,該操作是Squeeze 過程,Fex(·,W)為2 個連續的全連接操作,全連接的輸出維度為1×1×C,該過程稱為Excitation,Fscale(·,·)為采用hard_sigmoid 激活函數的激活層,目的是將最后的輸出值限定在[0,1]之間,并將該值作為每個通道的系數乘以特征U,使得到的特征中重要的特征增強,不重要的特征減弱,最終提取到的特征指向性更強。

圖4 Squeeze-and-Excitation 模塊結構Fig.4 Modular structure of Squeeze-and-Excitation

在卷積操作Ftr中,輸入為X??H′×W′×C′,卷積核表示為V=[v1,v2,…,vc],卷積操作的輸出表示為U=[u1,u2,…,uc]。其中,vc是第c個卷積核參數,對應的輸出uc可以表示為:

其中:*為卷積操作;vc=是二維空間卷積核,其代表著vc的一個通道,對應于X的單個通道。根據式中的表達可知輸出是由所有通道之和產生的,通道之間的依賴關系隱藏在vc中。

每個卷積核都只能對局部區域進行操作,因此輸出的uc都無法利用該區域以外的上下文信息。為克服這一問題,采用全局的平均池化的方法將全局信息壓縮到一個通道中,生成通道的統計信息。統計信息z??C是通過將U的空間維度減小到H×W實現的。因此,z的第c個統計信息如式(3)所示:

在獲得統計信息后,為了捕捉通道之間的依賴關系,采用式(4)進行全連接操作,該過程即Excitation 操作。

其 中:δ表 示ReLU 函 數;;σ表示sigmoid 激活函數。運算的流程如圖5 所示。

圖5 Excitation 結構Fig.5 Excitation structure

2.5 人臉對齊網絡

根據上文的分析可以得出:深度可分離卷積結構與傳統的卷積操作相比具有計算成本低的特點,因此在計算成本一定的情況下,采用深度可分離卷積可以提取到更深層次的網絡結構。圖像通道數越多,提取到的圖像特征也會越多,但是深度可分離卷積又不能改變圖像的通道數,因此采用改進的倒殘差結構對圖像的通道數進行增加,同時在原始深度卷積特征的基礎上增加了對輸入的池化輸出部分特征,使得用于下一次卷積的輸入特征增加。采用Squeeze-and-Excitation 可以學習到不同通道之間的關系,更加有利于最終人臉關鍵點的定位。搭建類VGG 結構是由于VGG 結構在目標檢測中表現良好,說明這樣的結構是利于特征提取的。

本文基于深度可分離卷積結構、改進的倒殘差機構和Squeeze-and-Excitation 結構構建一個類VGG結構的人臉對齊網絡。

在人臉特征提取網絡中,輸入是人臉圖像X??W′×H′×C′,W′為圖像的寬度,H′為圖像的高度,C′為圖像的通道(RGB)。本文使用的是224×224×1 的二維圖像,經過多次的深度可分離卷積后提取出豐富的人臉特征,用于最終的人臉關鍵點定位。

本文設計的網絡輸出為對人臉的N個關鍵點進行定位,采用(x,y)表示人臉關鍵點坐標位置,最終輸出的結果為(N,2)結構。本文對人臉的68 個關鍵點進行測試時N為68,當僅對人臉內部關鍵器官眼睛、鼻子、嘴巴進行測試時,N為各個器官的輪廓關鍵點數目。

3 實驗結果與分析

3.1 數據集

本文介紹了用于人臉關鍵點定位[13-15]的各種數據集[16-17],300W[18]數據集是來自文獻[13-17]中介紹的LFPW、HELEN、AFW、IBUG 和300W 私有測試集這5 個數據集的集合。300W 數據集具有圖像內容廣泛、數據量大等優點,數據集對圖像中的人臉標記了68 個關鍵點的坐標,根據文獻[10]的劃分方法將數據集劃分為訓練集和測試集。

訓練集部分包括AFW 數據集以及LFPW 和HELEN 的訓練子集,共計3 148 張圖像。測試數據由其余數據集組成:IBUG、300W 專用測試集,LFPW、HELEN 測試子集。為便于與現有的方法進行比較,將該測試數據分為4 個子集:

1)普通數據集。包括LFPW 和HELEN 測試子集,共計554 張圖像,該測試集的特點是圖像均為正面人臉,可以很容易地定位到人臉關鍵點位置。

2)具有挑戰性數據集。包括IBUG 數據集,共有135 張圖像,該測試集的特點是這類圖像或者為側面人臉,或者是光線不佳時的人臉,該數據集中的人臉關鍵點不易被定位。

3)由子集1)、子集2)共同構成的300W 公共測試集,共計689 張圖像。

4)300W 專用測試集,共600 張圖像。

普通數據集的樣例如圖6(a)所示,具有挑戰性的數據集樣例如圖6(b)所示。

圖6 300W 測試數據集樣例Fig.6 Samples of 300W test dataset

3.2 評估方法

對于人臉關鍵點的檢測,在近來的相關研究中,針對單個面部圖像的面部特征點檢測誤差的度量有如下3 種方法:

1)預測關鍵點和真實關鍵點之間的平均距離除以眼間距離(外眼角之間的距離),如圖7 所示。

圖7 兩眼間外側距離Fig.7 Outer distance between eyes

2)預測關鍵點和真實關鍵點之間的平均距離除以瞳孔間距離(眼中心之間的距離)。

3)預測關鍵點和真實關鍵點之間的平均距離除以邊界框的對角線。

本文采用第1 種歸一化方法,以便與先進的算法進行比較。均方誤差的計算方法如式(5)所示:

另外,本文還采用累積誤差分布(CED)曲線下的面積(AUC0.08)和失敗率進行結果評估。

3.3 實驗及數據集處理

本文主要采用平均誤差、失敗率等對實驗結果進行評估。首先對本文設計的網絡結構進行68 個人臉關鍵點的定位評估,并與先進的人臉對齊方法進行比較。其次分別對人臉的眼睛、鼻子和嘴巴這3 個主要器官的輪廓進行評估,并與現存的眼睛、鼻子、嘴巴的定位方法進行比較。

為提高訓練模型的性能,本文進行數據增強,即對原始數據進行平移、放大、縮小、旋轉等操作,最終將每個原始圖像擴充為10 張,這樣獲得的訓練圖像共計31 480 張,測試圖像是原來的10 倍。

3.4 實驗結果

采用300W 訓練集進行模型的訓練,并分別在300W 的4 個子測試集上進行測試。

1)68 個關鍵點定位結果

首先在300W 的公共測試集的普通數據集和具有挑戰性數據集上對設計的網絡結構分別進行測試。表1 為先進的人臉對齊方法和本文設計的人臉對齊方法的平均誤差的測試結果。

表1 人臉對齊方法在300W 公共測試集上的平均誤差Table 1 The average error of the face alignment method on the 300W public test set %

從表1 的數據可知,本文方法在所有列出的關鍵點定位方法中僅次于DAN 算法的結果,但是本文方法的模型簡單,參數數量少于DAN。

在300W 公共測試集上采用AUC 和錯誤率對設計的網絡模型進行評估,其中將可接受的誤差設置為0.08,實驗結果如表2 所示。

表2 人臉對齊方法在300W公共測試集上的AUC和失敗率Table 2 AUC and failure rate of face alignment method on 300W public test set %

從表2 的數據可知,本文方法對68 個關鍵點的AUC0.08僅比ESR 和SDM 稍高,但是失敗率卻低于這2 種算法,在此種評估方法中本文設計的模型處于居中偏上的水平。

2)人臉內部關鍵器官輪廓點的定位結果

本文分別對眼睛、鼻子、嘴巴這3 個主要的面部器官的輪廓進行測試,并與現有的面部器官的定位結果進行比較,如表3 所示。

表3 在300W 公共測試集上測試的平均誤差Table 3 The average error of tested on the 300W public test set %

從對人臉的關鍵器官的關鍵點定位可以看出,在普通數據集上這3 個器官的定位誤差比最先進的算法誤差還要小,在挑戰性數據集上,只比DAN 的結果稍差一點,在整體數據集上的測試結果都優于其余方法。由此推斷出本文算法的較大誤差存在于人臉外輪廓的定位上,因此本文算法適用于對眼睛鼻子嘴巴定位精度較高且對人臉外輪廓定位精度相對不高的人臉任務中。

為評估提出算法的穩定性,在300 W 的專用的私有測試集上對人臉內部關鍵點的平均誤差、AUC0.08和失敗率進行評估,與先進方法的比較如表4 所示。

表4 300W 私有測試集上的平均誤差AUC 和失敗率Table 4 Average error AUC and failure rate on 300W private test set %

從表4 的數據可知,在僅對內部51 個關鍵點進行評估時,AUC0.08的值要遠高于最好的算法DAN 的AUC0.08值,失敗率比DAN 算法降低了0.67 個百分點,比MDM 方法降低了4.8 個百分點,說明本文設計的方法有良好的關鍵點定位效果。表4 中的結果與在300W 公共數據集上的得到的結論一致,說明了本文設計算法的有效性和穩定性。

3)人臉對齊性能對比

本文采用python 語言實現的算法在NVIDIA GeForce RTX 2060 GPU 筆記本電腦上的人臉對齊速度為65 frame/s,為證明本文提出算法在性能方面的優勢,在同樣的硬件條件下對python 實現的DAN 算法進行了性能評測,其人臉對齊速度為50 frame/s,這一結果充分說明了本文提出方法在性能上優于DAN 算法。

4 結束語

本文基于MobileNets 系列的子模塊,設計一種端到端的用于人臉對齊的網絡。該網絡基于深度可分離卷積構建,對倒殘差模塊進行改進,減少特征的損失。實驗結果表明,該方法對人臉68 個關鍵點的定位,在定位精度上優于大部分先進算法,而對面部主要器官的51 個輪廓關鍵點的定位誤差明顯小于多數先進算法的定位誤差,在性能方面具有良好的實時性,適用于對眼睛、鼻子、嘴巴定位精度較高且對人臉外輪廓定位精度相對較低的人臉任務。下一步將研究提高本文算法對人臉外部輪廓關鍵點的定位精度,使算法適用于更廣泛的人臉研究相關領域。

猜你喜歡
關鍵點深度特征
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
今日農業(2021年8期)2021-11-28 05:07:50
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
醫聯體要把握三個關鍵點
中國衛生(2014年2期)2014-11-12 13:00:16
主站蜘蛛池模板: 91人妻在线视频| 婷婷午夜影院| 波多野结衣在线se| 久久精品中文字幕少妇| 一区二区三区四区精品视频| 热久久这里是精品6免费观看| 欧美视频在线第一页| 婷婷综合缴情亚洲五月伊| 久久免费观看视频| 亚洲第一香蕉视频| 国产96在线 | 国产视频a| 第九色区aⅴ天堂久久香| 色妞www精品视频一级下载| 一区二区三区成人| 亚洲高清资源| 日韩小视频在线播放| 免费大黄网站在线观看| 日韩毛片在线播放| 色欲不卡无码一区二区| 免费xxxxx在线观看网站| 国产精品网拍在线| 国产欧美日韩免费| 亚洲激情区| 成人福利在线视频免费观看| 凹凸国产分类在线观看| 丁香六月综合网| 日韩欧美国产成人| 精品福利国产| 色有码无码视频| 亚洲中文字幕久久无码精品A| 日韩毛片视频| 亚洲青涩在线| 黄色一级视频欧美| 国产精品视频第一专区| 亚洲毛片网站| 欧美日本在线观看| 久久亚洲精少妇毛片午夜无码 | 97国产一区二区精品久久呦| 国产尤物视频在线| 日本在线欧美在线| 欧洲高清无码在线| 久久一色本道亚洲| 午夜综合网| 亚洲中字无码AV电影在线观看| 国产在线日本| 国产午夜小视频| 四虎永久在线精品影院| 国产精品九九视频| 无码中文字幕精品推荐| 538国产视频| 日韩午夜福利在线观看| 亚洲精品无码AV电影在线播放| 无遮挡一级毛片呦女视频| 国产在线观看第二页| 亚洲无码高清一区| 国产一区免费在线观看| 91久久国产热精品免费| 欧美日韩国产综合视频在线观看| 她的性爱视频| 久久午夜夜伦鲁鲁片不卡| 99久久免费精品特色大片| 在线一级毛片| 人妻精品久久无码区| 久久九九热视频| 欧美日韩福利| 免费在线成人网| 国产精欧美一区二区三区| 福利一区在线| 熟妇丰满人妻| 婷五月综合| 奇米精品一区二区三区在线观看| 青青操国产视频| AⅤ色综合久久天堂AV色综合| 国产噜噜噜| 日韩黄色精品| 欧美日韩专区| 精品国产aⅴ一区二区三区| 国产成人综合亚洲欧美在| 一区二区三区四区在线| 午夜日b视频| 国产美女丝袜高潮|