999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種多任務面部特征點與頭部姿態(tài)檢測方法*

2022-10-20 01:09:40毅王旭彬王偉
電子器件 2022年3期
關鍵詞:特征檢測

韓 毅王旭彬王偉*

(1.華中科技大學機械科學與工程學院,湖北 武漢 430000;2.安陽工學院計算機科學與信息工程學院,河南 安陽 455000)

面部特征點檢測與頭部姿態(tài)估計是計算機視覺與深度學習中較為常見的研究任務,但無論是使用計算機視覺方法還是深度學習方法,目前的許多檢測方法都以單一檢測任務為目的進行,沒有充分利用兩個任務間的關聯(lián)特性以將兩個任務高效地結合起來。而使用多任務學習(Multi Task Learning,MTL)可充分利用隱含在多個相關訓練任務中的特定信息,相比于單任務學習(Single Task Learning,STL),多任務學習可以獲得適用不同任務的特征,共享不同任務之間的內(nèi)在聯(lián)系以及復雜的非線性映射關系,且有效地增加用于訓練模型的樣本大小。

目前多數(shù)使用級聯(lián)卷積神經(jīng)網(wǎng)絡進行面部特征點檢測的方法效果較好,如文獻[1]使用三層級聯(lián)卷積神經(jīng)網(wǎng)絡進行人臉關鍵點檢測,將多個網(wǎng)絡的輸出融合在一起進行估計,其深層的卷積網(wǎng)絡結構可于初始化階段就在整個面部區(qū)域提取全局高級特征,級聯(lián)網(wǎng)絡的設計為其提供了較高的可靠性;文獻[3]基于級聯(lián)網(wǎng)絡和殘差特征,使用一種結合殘差特征的沙漏網(wǎng)絡結構進行面部特征點檢測,組合了不同的優(yōu)化準則,實驗得出二級級聯(lián)結構的特征點定位精度與四級棧式結構相當。

對于頭部姿態(tài)估計的方法,可使用計算機視覺方法,如文獻[6]提出了一種分層的圖形模型,通過利用幀上的現(xiàn)有姿勢信息從實際視頻中概率估計連續(xù)的頭部姿勢角度;也可使用點云來進行估計,如文獻[10]提出一種以點云數(shù)據(jù)為輸入的HPENet,采用多層感知器和最大池化層實現(xiàn)點云的特征提取,提取的特征通過全連接層輸出預測的頭部姿態(tài);或是基于面部特征點對頭部姿態(tài)進行估計,如文獻[7]將圖像中人臉五官特征點使用修正牛頓法與模型對齊以確定人臉姿態(tài),文獻[8]使用人眼和鼻孔的位置信息,將眼睛、鼻子定位結果與正臉頭部姿態(tài)中的眼睛、鼻子進行對比,從而對不同的頭部姿態(tài)進行粗估計;或者使用卷積神經(jīng)網(wǎng)路,如文獻[9]通過訓練一個多損失的卷積神經(jīng)網(wǎng)絡,使用RGB 圖像結合分類和回歸損失的方法來預測歐拉角。

在人臉識別方面,使用多任務卷積神經(jīng)網(wǎng)絡的方法相較于同類型的單任務方法有著更優(yōu)秀的效果,如文獻[5]提出了一個高效的深度級聯(lián)的多任務網(wǎng)絡框架,它利用了檢測和對齊之間的內(nèi)在聯(lián)系來提高整體網(wǎng)絡的性能,通過三個階段深度卷積網(wǎng)絡預測人臉位置以及面部特征點位置,使得特征點的定位更加準確。

文中首先設計了相關性實驗以挑選出與頭部姿態(tài)變化相關性較強的面部特征點,進而設計了一種基于多任務學習的卷積神經(jīng)網(wǎng)絡(Multi-task Learning Convolutional Neural Network,MTL-CNN),將特定面部特征點檢測和頭部姿態(tài)估計這兩個相關性較強的任務聯(lián)合,充分利用兩者之間的內(nèi)在聯(lián)系,建立兩任務間復雜的映射關系,共享核心卷積神經(jīng)網(wǎng)絡提取到的特征,后使用不同的分類器同時進行預測,精心設計的損失函數(shù)去差異化策略解決了尺度差異,有效提高了兩任務的檢測精度。

1 面部特征點與人臉姿態(tài)

1.1 準備工作

頭部姿態(tài)的變化與面部特征點有著緊密的聯(lián)系,在頭部進行動作時,面部特征點位于頭部前方觀測方向上的投影會隨著頭部動作進行變化。而面部特征點的變化具有選擇性,并非所有特征點都對頭部動作有著明顯的響應;且某些特征點具有代表性,例如眼睛瞳孔的位置可良好地表達眼部整體的位置。因此若將全部面部特征點用于頭部姿態(tài)估計則會加重神經(jīng)網(wǎng)絡的任務,過多的噪聲特征點也會影響識別精度。

為探究面部特征點與頭部姿態(tài)同時變化時的相關性,尋找隨頭部姿態(tài)變化較為明顯的面部特征點以設計多任務神經(jīng)網(wǎng)絡,排除無關特征點的干擾,本章基于相關性分析設計實驗,對面部特征點與人臉姿態(tài)的關系進行探究。

1.2 相關性實驗

實驗基于AFLW 數(shù)據(jù)集,隨機挑選出2 000 張覆蓋各種頭部姿態(tài)的圖片,其中每張圖像經(jīng)處理裁切為450×450 pixel,對應3 個頭部姿態(tài)參數(shù)yaw、pitch 以及roll,如圖1 所示,以及21 個二維面部特征點坐標,如圖2 所示。

圖1 3 個頭部姿態(tài)參數(shù)

圖2 面部特征點轉化為歐氏距離的示例

由于面部特征點坐標位置無法直接與三個頭部姿態(tài)參數(shù)進行對比,因此對二者進行轉化處理。首先建立二維坐標系,對于數(shù)據(jù)集中的共21 個面部特征點,使用該特征點與原點的歐氏距離d(式(1))來表達面部特征點的位置,其中(xi,yi)代表第i個特征點在該坐標系下的坐標,(x0,y0)則代表該坐標系的原點。轉換后的特征點數(shù)據(jù)可視化如圖2 所示;后基于三個用于描述頭部姿態(tài)的歐拉角ψ(yaw,偏航)、θ(pitch,俯仰)以及φ(roll,桶滾),求得旋轉矩陣R(式(2))以表達頭部姿態(tài)。

部分通過式(1)計算出的歐氏距離數(shù)據(jù)分布如圖3 所示。KS 檢驗(Kolmogorov-Smirnov test)是比較一個頻率分布f(x)與理論分布g(x)或者兩個觀測值分布的檢驗方法。實驗使用KS 檢驗方法檢驗數(shù)據(jù)是否符合正態(tài)分布,部分顯著性檢驗值p-value如表1 所示,結果顯示求得的歐氏距離數(shù)據(jù)并非呈正態(tài)分布。

圖3 鼻子和嘴巴中點數(shù)據(jù)分布

表1 K-S 檢驗結果

使用復相關分析的方法研究面部特征點與頭部姿態(tài)的聯(lián)系。由于特征點為手動標注,且被遮擋的、不可見的特征沒有對應坐標,因此對空值做剔除處理。以清洗后數(shù)據(jù)求得的歐氏距離d作為自變量,將通過三個歐拉角求得的旋轉矩陣R設置為因變量,基于數(shù)據(jù)并非呈正態(tài)分布且存在異常值的特點,選擇spearman 相關系數(shù)探究面部特征點與頭部姿態(tài)同時變化時的相關性,計算結果的熱力圖如圖4所示,部分特征與頭部姿態(tài)的spearman 相關系數(shù)絕對值如表2 所示。

圖4 spearman 相關系數(shù)計算結果

表2 部分spearman 系數(shù)結果

實驗結果表明眼部、嘴部以及鼻子部位的特征點變化對于頭部姿態(tài)變化的響應較為明顯,達到了強相關。故選取與頭部姿態(tài)相關性較高且具有位置代表性的雙眼瞳孔、鼻尖以及兩嘴角共五個面部特征點作為目標特征點。使用相關性較高的特征點不僅能使多任務學習卷積神經(jīng)網(wǎng)絡快速準確地標注面部特征點,也使其更精準地預測頭部姿態(tài)。

2 基于多任務學習的卷積神經(jīng)網(wǎng)絡MTL-CNN

普通學習器一般可以學習到輸入中大量且普遍存在的特征,卻忽視掉少量不常見但對模型有用的特征,而多任務學習則可避免這樣的情況發(fā)生,兩任務相互促進,不同任務的信息有助于共享的隱藏層學習到更好的內(nèi)部表示,有效增加了樣本大小,且能使兩任務的泛化能力大大提高。

經(jīng)相關性實驗表明,特定面部特征點與頭部姿態(tài)的變化呈強相關性,進而本章基于多任務學習設計了一種多任務學習卷積神經(jīng)網(wǎng)絡MTL-CNN,可同時進行特定面部特征點檢測與頭部姿態(tài)估計。

2.1 MTL-CNN 整體框架

MTL-CNN 采用的是多任務學習中的硬參數(shù)共享策略,應用到所有任務的所有隱藏層上而保留任務相關的輸出層,其結構如圖5 所示,包含核心網(wǎng)絡(Backbone)與兩個子網(wǎng)絡(Task1 與Task2),即面部特征點檢測與頭部姿態(tài)估計。兩個子網(wǎng)絡共享一個由卷積神經(jīng)網(wǎng)絡組成的核心網(wǎng)絡,共享兩任務間的內(nèi)在聯(lián)系以及復雜的非線性映射關系。

圖5 MTL-CNN 結構

核心網(wǎng)絡包含8 個卷積層,4 個池化層,1 個全連接層,使用ReLU 作為激活函數(shù),通過添加較多的卷積層以穩(wěn)定地增加網(wǎng)絡深度,在所有層中卷積濾波器被設置為3×3 大小,有效地減小參數(shù),可更好地提取深層特征。連接核心網(wǎng)絡的兩個子網(wǎng)絡如圖5 中Task1 與Task2 所示,共含有5 個全連接層,Task1 中的2 個全連接層連接核心網(wǎng)絡輸出5 個面部特征點的位置;Task2 中的3 個全連接層連接核心網(wǎng)絡輸出3 個頭部姿態(tài)參數(shù)。

2.2 MTL-CNN 工作流程

Dlib 開源庫[29]是一個優(yōu)秀的機器學習庫,可廣泛應用至許多場景,MTL-CNN 的輸入圖像使用Dlib中的人臉定位并添加寬容度策略,如算法1 所示,使裁剪區(qū)域變大,確保裁剪出的人臉圖像完整,后將將圖片重新調(diào)整至128×128(即圖像存儲在128×128的矩陣中)以送入MTL-CNN。

算法1 寬容度策略

MTL-CNN 以經(jīng)過算法1 處理的存儲在128×128×3 三維矩陣中的二維彩色人臉圖像為輸入,首先經(jīng)過核心網(wǎng)絡以提取特征。圖像通過核心網(wǎng)絡的處理被映射至1×1 024 矩陣中的特征圖以進行后續(xù)處理。輸出的特征圖將被分別送至兩子網(wǎng)絡處理,子網(wǎng)絡基于總特征圖各取所需,選取適用于目標任務的特征作為輸入進行處理。

2.3 MTL-CNN 的訓練

核心神經(jīng)網(wǎng)絡在5 個面部特征點位置和3 個頭部姿態(tài)參數(shù)的監(jiān)督下學習人臉圖像的深層特征,后經(jīng)過兩個子網(wǎng)絡輸出預測的1×10 的面部特征點和1×3 的用于表達頭部姿態(tài)的歐拉角。

對于子網(wǎng)絡Task1,其輸出為1×10 的五個面部特征點,分別為雙眼瞳孔、鼻尖以及嘴角兩側,將其視為回歸問題,對于每個特征點數(shù)據(jù)與預測數(shù)據(jù)計算歐氏距離作為網(wǎng)絡的損失函數(shù),即L2 范數(shù)損失函數(shù)(式(3)),其中∈R10,為預測的面部坐標,為該樣本的真實坐標。

子網(wǎng)絡Task2 的任務為估計頭部姿態(tài),輸出為1×3的三個歐拉角yaw、pitch 以及roll。與Task1 一樣將其視為回歸問題,對于每個樣本,采用L2 范數(shù)損失函數(shù)(式(4)),其中∈R3,代表預測的歐拉角值,為真實歐拉角值。

由于Task1 與Task2 采用了不同的損失函數(shù),不同任務的損失尺度差異對MTL-CNN 的影響較大,且使用加權求和時模型性能受權值影響,對此MTL-CNN 基于文獻[12]提出的使用任務間的同方差不確定性給損失函數(shù)賦權,通過神經(jīng)網(wǎng)絡的輸出來平衡兩個損失函數(shù),如式(5)所示。其中為網(wǎng)絡輸出,式中右側前兩項與后一項存在抑制關系,解決了尺度差異以及兩值相差過大的問題。

3 MTL-CNN 測試實驗

為探究MTL-CNN 的實際表現(xiàn),本章將基于不同數(shù)據(jù)集設計多種實驗以測試MTL-CNN 的性能。本次實驗在配備Intel Xeon E-2224G 處理器及Nvidia RTX 2080ti 工作站上進行,實驗環(huán)境配置為CUDA10.0,tensorflow1.14.0,首先測試MTL-CNN 的整體性能,后進行兩個任務的分離實驗。

3.1 實驗數(shù)據(jù)集

實驗共選取AFLW[15]、AFW、CMU Multi-PIE[20]以及BIWI[27]共4 個相關數(shù)據(jù)集。

(1)AFLW 數(shù)據(jù)集是一個包括多姿態(tài)、多視角的大規(guī)模人臉數(shù)據(jù)庫,圖像來自于flickr,共有21 997張圖像,2 593 張面孔,59%為女性,41%為男性。每張圖像中標注了21 個關鍵點,大部分圖像為彩色圖。AFLW 在多角度人臉檢測、關鍵點定位以及頭部姿態(tài)估計領域是非常重要的一個數(shù)據(jù)集。

(2)AFW 中有473 張標記的人臉圖像,每一張人臉圖像都提供了方形邊界框,含有6 個關鍵點和3 個頭部姿態(tài)參數(shù)。

(3)CMU Multi-PIE 由美國卡耐基梅隆大學建立,包含337 位志愿者的75 000 張多姿態(tài)面部圖像,每位志愿者的多視角圖像由15 個圍繞在該志愿者周圍的攝像機同時拍攝,如圖6 所示。

圖6 CMU Multi-PIE 數(shù)據(jù)集

(4)BIWI 數(shù)據(jù)集包含1 000 個高質(zhì)量的3D 掃描儀和專業(yè)麥克風采集的3D 數(shù)據(jù),其中有14 個人,6 個男性與8 個女性,以25 幀/s 的速度獲取密集的動態(tài)面部掃描,如圖7 所示。

圖7 BIWI 數(shù)據(jù)集

3.2 訓練實驗

MTL-CNN 以處理過后的AFLW 數(shù)據(jù)集作為訓練數(shù)據(jù)。訓練流程如圖8 所示。

圖8 MTL-CNN 訓練流程

由于AFLW 中的圖片大都包含人臉以外的區(qū)域,因此首先使用2.2 節(jié)中的方法對其進行裁切以排除無關區(qū)域,并確保裁剪出的人臉包含目標面部特征點,如算法1 所示,后根據(jù)裁剪尺寸對面部特征點的位置進行縮放調(diào)整,提取出雙眼瞳孔、鼻尖和嘴角兩側的特征點數(shù)據(jù)以及yaw、pitch 和roll 三個頭部姿態(tài)數(shù)據(jù),通過對圖像數(shù)據(jù)進行隨機平移、旋轉變換等數(shù)據(jù)增強操作將訓練數(shù)據(jù)擴充至原訓練數(shù)據(jù)的30 倍,得到完整的訓練數(shù)據(jù)。

采用Adam 優(yōu)化算法[28]進行訓練時,基于訓練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡模型的權重,初始學習率設定為0.001,dropout 設定為0.5,訓練結果如圖9 所示,橫坐標表示訓練次數(shù),從訓練結果來看,MTL-CNN 對于兩個任務都有較好的表現(xiàn)。

圖9 MTL-CNN 訓練結果

MTL-CNN 于劃分的測試集進行驗證,Task1 的平均準確率為97.75%,Task2 的平均準確率為98.21%,平均準確率為97.98%。為進一步探究MTL-CNN 中兩個任務的精準度,采用不同的數(shù)據(jù)集分別對面部特征點檢測與頭部姿態(tài)估計進行測試。

3.3 Task1 與Task2 的分離測試實驗

對于Task1,面部特征點檢測任務,MTL-CNN 基于AFLW[15]、AFW 數(shù)據(jù)集進行測試。以MTL-CNN 標定的各點與原數(shù)據(jù)集中標定各點的偏移為度量,MTL-CNN 的表現(xiàn)如表3 所示,平均準確率為97.30%。

對于頭部姿態(tài)估計任務,將MTL-CNN 用于CMU Multi-PIE 數(shù)據(jù)集[20]進行測試。以MTL-CNN 預測的三個頭部姿態(tài)值與原數(shù)據(jù)集中頭部姿態(tài)的三個值的誤差為度量,MTL-CNN 的表現(xiàn)如表3 所示,平均準確率為98.10%。

表3 MTL-CNN 在AFW、AFLW 和CMU Multi-PIE數(shù)據(jù)集上的測試結果

為進一步探究多任務方法相較于單任務方法的優(yōu)點,對于面部特征點檢測任務,實驗首先對AFLW中的測試集與AFW 數(shù)據(jù)集進行預處理,并整理至一起,后選取不同的特征點定位方法包括ESR[19]、TSPM[16]、RCPR[18]、TCDCN[23]、SDM[24]、TCNN[25]、CDM[26]與MTL-CNN 進行對比,結果如圖10 所示,實驗表明多任務的處理方法有著更穩(wěn)定的表現(xiàn)和更好的魯棒性。

圖10 MTL-CNN 在面部特征點檢測上與其他單任務方法對比

對于頭部姿態(tài)估計任務,實驗選取CMU Multi-PIE 與BIWI 中的數(shù)據(jù)并進行預處理,使用文獻[7]、文獻[9]、文獻[17]中的單任務方法與MTLCNN 進行對比,結果如圖11 所示。

圖11 MTL-CNN 在頭部姿態(tài)估計上與其他單任務方法對比

從檢測精度來看,基于多任務卷積神經(jīng)網(wǎng)絡的MTL-CNN 有著良好的效果,相比于單任務方法有著更為出色的表現(xiàn)。MTL-CNN 充分利用了面部特征點與頭部姿態(tài)變化的內(nèi)在聯(lián)系,使其在許多環(huán)境因素的影響下,比如光照弱等,表現(xiàn)出了比單任務方法更高的魯棒性。

同時,在相同平臺上,MTL-CNN 的性能與以上單任務方法的對比如表5 所示。由于兩個任務共享核心卷積神經(jīng)網(wǎng)絡以提取特征,在與單任務方法處理時間相當?shù)臈l件下可同時進行面部特征點與頭部姿態(tài)兩個檢測任務。

表5 MTL-CNN 與單任務方法的性能對比 單位:ms

3.4 MTL-CNN 的應用測試

MTL-CNN 的應用測試如圖12 所示,從綜合兩個任務進行的測試以及分任務進行的測試來看,MTL-CNN 的準確性高,在受到不同光照等外界因素影響時也能擁有良好的表現(xiàn),魯棒性較好,在頭部動作大導致的人臉大面積遮擋時也能準確的檢測到可見特征點、估計出頭部姿態(tài),且有著不輸于單任務方法的性能,不失為一種良好的面部特征點檢測以及頭部姿態(tài)估計方法。

圖12 MTL-CNN 的應用測試

為探究模型在難度較高的檢測場景下的表現(xiàn),實驗將原測試集人臉圖像由0.1 至1 區(qū)間內(nèi)放縮以進行測試,測試樣例如圖13(a)所示。對于Task1,以預測的各特征點與原數(shù)據(jù)集中標定各點的偏移為度量,對于Task2,以預測的三個頭部姿態(tài)值與原數(shù)據(jù)集中頭部姿態(tài)的三個值的誤差為度量,模型精度如圖13(b)所示。

圖13 不同比率人臉圖像測試樣例和測試結果

4 結束語

文中設計的相關性實驗證明了頭部姿態(tài)與面部特征點的強相關性,提出的基于多任務學習設計的卷積神經(jīng)網(wǎng)絡(MTL-CNN)通過將面部特征點檢測和頭部姿態(tài)估計這兩個強相關任務聯(lián)合起來的方式,深度挖掘兩者之間的映射關系,使其共享硬參數(shù),并通過精心設計的損失函數(shù)去差異化策略,使得MTL-CNN 可同時以高準確率進行這兩個任務,在智能化系統(tǒng)飛速發(fā)展的時代,為面部特征點檢測與頭部姿態(tài)估計提出了新的方法。下一步的工作則是深度挖掘面部特征點與其他面部、頭部特征的關系,研究加入更多相關任務的方法,并進一步擴大數(shù)據(jù)集并根據(jù)數(shù)據(jù)特點對MTL-CNN 進行調(diào)優(yōu),使其擁有更好的性能。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 色综合五月婷婷| 蜜臀av性久久久久蜜臀aⅴ麻豆| 青青久久91| 亚洲欧美自拍中文| 日韩无码视频专区| 青青草原国产免费av观看| 亚洲无码精彩视频在线观看 | 欧美午夜在线播放| 国产xxxxx免费视频| 91网红精品在线观看| 国产91丝袜在线播放动漫 | 69视频国产| 国产乱人伦精品一区二区| 综合久久五月天| 国产精品女熟高潮视频| 亚洲综合片| 欧美日韩专区| www欧美在线观看| 国产真实乱了在线播放| 日韩欧美国产成人| 正在播放久久| 2020久久国产综合精品swag| 欧美激情,国产精品| 久久狠狠色噜噜狠狠狠狠97视色 | 1024你懂的国产精品| 88av在线播放| 国产嫩草在线观看| 国产精品99在线观看| 亚洲人成色在线观看| 国产久操视频| 色一情一乱一伦一区二区三区小说| 中文字幕久久亚洲一区| 亚洲最大在线观看| 久草国产在线观看| 久久久久久尹人网香蕉| 91人妻在线视频| 亚洲天堂啪啪| 伊人色在线视频| 欧洲欧美人成免费全部视频| 欧美中文字幕在线播放| 中文国产成人久久精品小说| AV老司机AV天堂| 日韩大乳视频中文字幕| 91日本在线观看亚洲精品| 国产麻豆91网在线看| 久久a级片| 欧美在线国产| 亚洲swag精品自拍一区| 55夜色66夜色国产精品视频| 亚洲国产欧美国产综合久久 | 91视频区| 青青草国产一区二区三区| 又爽又大又光又色的午夜视频| 国产精品福利社| 乱人伦视频中文字幕在线| 久久久久久久蜜桃| 国产精品一区在线麻豆| 日韩欧美网址| 日韩毛片在线播放| 99re热精品视频中文字幕不卡| 亚卅精品无码久久毛片乌克兰| 精品国产Ⅴ无码大片在线观看81| 欧美一区二区自偷自拍视频| 91偷拍一区| 欧美一区福利| 久久伊伊香蕉综合精品| 国产理论最新国产精品视频| 午夜精品一区二区蜜桃| 亚洲第一精品福利| 国产亚洲精久久久久久无码AV| 蜜桃臀无码内射一区二区三区| 老司机精品99在线播放| 9丨情侣偷在线精品国产| 国产麻豆福利av在线播放| 亚洲成人手机在线| 国内精品一区二区在线观看| 91精品最新国内在线播放| 天堂岛国av无码免费无禁网站| 在线日韩日本国产亚洲| 亚洲日韩精品综合在线一区二区 | 无码有码中文字幕| 国产在线高清一级毛片|