999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于并行Gan的有遮擋動態表情識別

2021-12-21 13:49:20楊魯月張樹美趙俊莉
計算機工程與應用 2021年24期
關鍵詞:特征實驗模型

楊魯月,張樹美,趙俊莉

青島大學 數據科學與軟件工程學院,山東 青島266071

Mehrabian[1]研究發現情感傳遞的總效果是55%的面部表情,38%的聲調變化加上7%的語言表達,由此可以看出面部表情在日常交流中表達了重要的情感信息。表情識別在智能家居、無人駕駛系統、在線教育、醫療輔助、VR游戲等領域得到廣泛應用,已經成為機器學習與計算機視覺研究的重要組成部分[2]。動態表情識別比靜態表情識別更具真實性,但是動態表情識別在考慮相鄰幀時間關系的同時還要保證識別的實時性,并且存在光照變化、姿態變化和隨機遮擋等干擾因素,其中隨機遮擋是動態表情識別面臨的主要問題[3]。如今表情識別走入深度學習階段[4],AlexNet[5]、GooleNet[6]、ResNet[7]在表情識別上都取得很好的成績,對于表情識別中的遮擋問題,張建明等[8]基于對稱變換對眼部遮擋進行處理,對部分固定遮擋的識別效果較好,Zhang等[9]將Gabor面部模板轉換為模板匹配距離特征,生成的特征向量對于眼睛和嘴角這樣的輕微遮擋是魯棒的。但是這些方法都只對靜態圖片進行了表情識別,并且忽略了遮擋位置和遮擋大小的隨機性,所以對有隨機遮擋的表情進行補全再進行動態表情識別是一個值得深入研究的方向。

局部遮擋圖像的部分特征丟失會降低表情識別的準確率和有效性,解決遮擋問題的有效方法是盡可能將丟失的特征補全。全變分方法[10]和塊匹配方法[11]都是傳統的人臉補全方法,但是這類方法過于依賴未遮擋部分,Zhang等[12]將多個深度回歸網絡和去噪自編碼器級聯得到了一個對部分遮擋具有魯棒性的深度模型,自動恢復遮擋部分的真實外觀。除了這類使用編碼器進行特征編碼補全圖像之外,依靠生成模型和判別模型的“二人博弈”,生成對抗網絡[13]也是修復圖像的有效方法,隨著近年來上下文(Context)應用在了各個領域[14],Pathak等人在2016年開發了Context-Encode Gan[15],該網絡中生成模型的上下文編碼器本質是一個AlexNet[5],Gan網絡將編碼器學習到的特征與原始特征對比,通過生成模型和判別模型的相互促進,使得補全后的圖像更具有真實性。

相比于靜態表情識別,動態表情識別更容易遇到遮擋問題。起初卷積網絡在處理靜態圖片時效果顯著,但隨著GPU處理能力不斷提高以及神經網絡架構越來越精密,循環神經網絡(RNN)更適合于處理任意長度的動態序列數據,在2018年ACII會議上Sun等[16]的循環神經網絡模型識別率比MEC2017基線高了23.81個百分點。CNN、RNN都是在確定的拓撲結構里進行訓練,雖然取得了較好的識別效果,但是訓練的過程很長,而級聯網絡結構不使用單一的神經網絡,在提高識別率基礎上可以自己決定網絡深度,所以選擇特定的級聯網絡進行動態表情識別是有效的方法。

本文針對上述自然環境下有遮擋的動態表情識別問題,首先為局部遮擋訓練了一個基于CC-Gan(Context-Conditional Gan)的優化生成對抗網絡模型,構建了一個并聯網絡結構P-IncepNet(Para Inception Network)來代替傳統的生成模型,采用雙線路模式進行圖像補全,在CelebA和MMI數據集上實驗發現與CC-Gan相比1/4、1/9、1/16的遮擋修復效果更好,并且比CC-Gan網絡模型更加穩定。其次構建一個級聯神經網絡進行動態表情識別,先通過并聯網絡P-IncepNet提取人臉表情圖像的特征表示,然后將這些特征輸入循環網絡LSTM(Long-Short Term Memory)來增強時間信息編碼,在AFEW和MMI數據集上進行無遮擋實驗,識別率分別高出傳統卷積基準11.65和12.13個百分點。最后在MMI數據集進行有遮擋的表情識別實驗,結果顯示本文的方法對有遮擋的表情識別平均貢獻率達到4.45個百分點,最高貢獻率達到7.6個百分點。

1 局部遮擋補全網絡構建

利用生成對抗網絡對圖像補全再進行表情識別是解決遮擋的有效方法。傳統的生成模型一般是卷積層的串聯,但是這樣疊加簡單的網絡層不僅會增加訓練時間,還會在編碼特征時容易丟失空間精度,所以本章在CC-Gan基礎上將生成模型的編碼器構建成并聯網絡P-IncepNet,增加了生成模型的寬度,新的局部遮擋補全網絡可以進行更完善的特征學習。

1.1 生成對抗網絡(CC-Gan)

卷積網絡依靠強大的表征學習能力成為生成圖像的主要手段,但對殘缺部分進行簡單的修復,生成的面部表情特征之間差異不明顯,而生成對抗網絡通過兩種模型之間的激勵作用,特征學習在訓練中的能力會快速提升,修復的圖像更加接近真實圖像。上下文條件生成對抗網絡CC-Gan[17]的判別模型是一個VGG網絡,生成模型是一個編碼-解碼器。該網絡模型與Context-Encode Gan[15]模型大致相同,主要區別為:一是學習到的圖像特征來自判別模型,而不是編碼器。二是CC-Gan的生成模型G對遮擋缺失的部分補全后,把完整的圖像傳遞到判別模型D,而不是將遮擋部分和周圍像素作為兩個獨立的輸入,這樣遮擋邊緣更加具有連續性。訓練開始后編碼器將學習到的特征添加到解碼器中產生缺失部分圖像。在這個過程中會有一個圖像內容損失-L2Loss,如公式(1)所示:

其中,X={x1,x2,…,xn}為n維的圖像數據集,在判別模型D中,圖像x輸入到判別函數D(x),并輸出一個標量表示輸入圖像x是真實樣本的概率。而隨機噪聲z作為生成模型G的輸入,z服從先驗噪聲分布Ppriore(z),通過生成函數G(z,θg)輸出的樣本盡可能服從分布Pz(z),θg代表了生成模型的參數,該參數被生成模型和判別模型共享。

該網絡的生成模型經過編碼器卷積操作成低維的特征圖,之后解碼器反卷積恢復補全圖像,在這個過程中網絡的寬度沒有改變。但是對于面部表情部分遮擋的圖像,在由大到小的卷積過程中會有空間精度損失,想要在有由小變大的反卷積過程中完全恢復圖像特征十分困難,所以要適當增加網絡寬度,學習到足夠的圖像特征同時提高網絡的空間敏感度。

1.2 P-IncepNet編碼器構建

CC-Gan生成模型的串聯模式會損失空間精度,受Inception網絡結構[18]啟發,構建并聯的P-IncepNet作為生成模型的編碼器,不同的卷積核對輸入的圖像進行卷積和池化后得到的輸出結果可以表示不同的圖像信息,級聯所有輸出結果會得到更好的圖像特征。

為了保證填充(Padding)時圖像對稱,卷積核選用了1×1、3×3、5×5的奇數大小對圖像進行特征提取,本文最開始對不同Inception結構進行了對比實驗,實驗發現將Inception內部結構設置為單層的1×1、3×3、5×5的卷積核時沒有得到充分的特征學習,識別率不理想;將Inception內部結構設置為2層的1×1、3×3、5×5的卷積核時,由于3×3、5×5卷積核的增加,識別率大幅提高;隨后繼續增加多層1×1、3×3、5×5卷積核,發現識別率沒有明顯提高,并且訓練時間大幅增加。最后根據識別率和運算成本的合理分配,本文選擇了2層的Inception結構,該結構如圖1中Incep1部分所示,前三條線路用1×1、3×3、5×5的卷積核抽取不同空間尺寸的信息,由于較大的卷積核(特別是5×5卷積核)會帶來巨大的計算量,所以在3×3、5×5的卷積前先做1×1卷積減少特征圖的通道數量實現降維,第四條線路用3×3的池化層和1×1的卷積層進行降維,最后將每條線路的輸出在通道上連結,輸入到下一個網絡層。

如圖1所示,P-IncepNet共有兩部分并行的線路,第一部分(Incep1)是Inception結構內的并聯,第二部分(Incep2和Incep3)是Inception結構外的并聯,將第一部分并聯得到的特征圖分別通過兩個池化層進行下一步的特征學習,Incep2和Incep3的輸出分別進行stride為2卷積核為3×3的下采樣和卷積核為1×1的上采樣的重復融合(repeated fusion),最后兩個不同的特征圖在全連接層進行連接。為了防止過擬合在全連接前加入Dropout層。不同大小卷積核提取不同的圖像特征,使得特征提取能力較強,同時1×1的卷積核使得計算量減少,這樣的組合使得P-IncepNet的特征提取能力和計算性能較好,所以將該結構用于了圖像補全和特征提取。

1.3 局部遮擋補全網絡框架

1.3.1 生成模型

生成模型的輸入是一個將遮擋歸零的圖像,依據上下文生成對抗網絡的條件,將大小為128×128的遮擋圖像輸入到編碼器中,變成(128,128,1)的三維向量,如圖1所示,在并聯網絡P-IncepNet中通過不同大小卷積層的下采樣將不同路徑提取的不同特征圖連接到一起,解碼器得到編譯好的特征后對遮擋部分進行修復,最后輸出的是(1,1,1 024)的三維向量。如圖2所示,解碼器每個卷積核大小是5×5,卷積核的數量分別為512、218、218、64、32和3,由于Tanh激活函數在反向傳播求導誤差梯度時涉及除法,計算量相對較大,因此除最后一層卷積使用Tanh激活函數外,解卷積層的上采樣均使用ReLu激活函數,這樣在線性的卷積層后添加非線性的ReLu激活函數可以使網絡有更多的非線性表達,既防止訓練過擬合,提高網絡的泛化能力。又節省了訓練時間。

圖1 P-IncepNet編碼器結構Fig.1 P-IncepNet encoder architecture

圖2 局部遮擋補全網絡結構Fig.2 Partial occlusion repair network architecture

解碼器通過解卷積層將1 024個特征圖作為輸入,最后輸出(128,128,1)的補全圖像,在這個過程中不同的特征圖進行整合,相似的特征擇優選擇。特征擇優選擇可以去除無關特征和冗余特征,保留與原始圖像相關的特征,使得補全圖更接近于真實圖像[19],具體操作是原始的特征集合通過Fisher評價標準計算出所有特征的得分,然后所有特征降序排列,選擇前7個特征作為特征子集,最后將特征子集送入后續的網絡訓練。

1.3.2 判別模型

生成模型的補全圖像和真實圖像同時作為判別模型的輸入,依據條件生成對抗網絡,將真實圖像當作條件,只有補全圖像與真實圖像越吻合時得到判決值才越高。大小均為(128,128,1)的兩類圖像經過CC-Gan中的VGGNet輸出一維的結果,該判別模型由8個卷積核大小為3×3的卷積層和一個全連接層組成。

2 級聯表情識別網絡

完成局部遮擋補全后,還要進行表情識別來驗證遮擋補全的有效性,本文將并聯卷積神經網絡(P-IncepNet)和循環神經網絡LSTM進行級聯,構建的級聯動態表情識別網絡更擅長時空信息處理,可以優化表情識別結果。

2.1 循環神經網絡

循環神經網絡適合處理任意長度的序列數據,利用連續數據的特征向量在語義上相互連接、相互依賴的特點,用經典的時間反向傳播訓練從序列中提取信息,根據其中的依賴關系,可以按照反方向計算梯度,公式(3)是對目標函數隱藏狀態梯度的計算公式,由公式的指數項可以看到當時間步數T較大或時間t較小時,梯度容易出現衰減和爆炸。

雖然可以裁剪梯度來應對梯度爆炸,但是無法解決梯度衰減問題,所以RNN在實際應用中時間步太長就會“忘記”比較遠的記憶。LSTM的長短時記憶[20]能夠更好地捕捉序列中間隔較遠的信息,相比于RNN的重復模塊只有一個單一的全連接層,LSTM的重復模塊包含四個交互的層,這些層通過門(gate)對信息進行增加或刪除,從而實現了對長期依賴信息的記憶,這三個門控單元分別是:遺忘門Ft、輸入門It、輸出門Ot。LSTM主要用到了兩個激活函數,一是更新細胞單元的激活函數定義為sigmoid函數,二是計算候選記憶細胞的激活函數為tanh函數。其中計算候選記憶細胞中的tanh函數通過元素乘法集合了上一時間步和當前時間步信息,而輸出門中的tanh函數確保隱藏狀態的信息值在-1到1之間,當輸出門近似為1時,記憶細胞將信息傳輸給輸出層,當輸出門近似為0時,信息自己保留。簡單的神經網絡針對特征提取表現優異,但是對于有時空信息的數據無法按照順序準確傳遞特征,與卷積神經網絡不同,循環神經網絡就是專門為動態序列分析而生的神經網絡結構,所以將卷積神經網絡和循環神經網絡進行級聯可以充分發揮兩個網絡的優點。

2.2 級聯神經網絡框架

表情識別可以用來分析顧客表情對其進行購物推薦,對學生進行學習情況檢測,還有對駕駛人員的情緒監測,在這些實際應用中表情識別難度在于表情是變化的,識別結果不僅要準確,速度也有很高要求,特別是在安全駕駛里,表情監測不及時或者不準確都可能威脅生命安全。單一的神經網絡想要取得高識別率就要以訓練時間成本作為代價,并且對于動態的表情識別效果較差,而級聯網絡結構中處理不同任務的各個模塊依次疊加構成一個更深層次的網絡,網絡中后一模塊的輸入就是前一模塊的輸出,這樣的網絡結構自己決定網絡深度,提高識別率基礎上加快學習速度。

構建級聯網絡進行動態表情識別,先通過1.2節構建的P-IncepNet網絡模型提取人臉表情圖像的特征表示,然后將這些特征輸入循環網絡LSTM來增強時間信息編碼。具體的級聯網絡模型如圖3所示,對于一組人臉視頻幀,每幀經過P-IncepNet提取特征序列,然后傳遞到LSTM層來預測視頻情感。在實驗中,將視頻采用16幀的固定長度,以進行計算量和模型精度之間的權衡。輸入人臉圖像的大小為224×224,LSTM的一個隱藏層(hidden-layer)有128個嵌入節點,在LSTM隱藏層的頂部還添加了值為0.9的dropout層。該網絡結構將分類結果視為子任務的級聯,并為每個表情分類任務訓練網絡。

圖3 級聯表情識別網絡結構Fig.3 Cascade FER Network architecture

3 實驗與結果

實驗在64位的Microsoft Windows 10系統上進行,處理器是Intel?CoreTMi7-9750H CPU@2.60 GHz。GPU為NVIDIA GeForce GTX1660Ti with Max-Q Design,顯存為6 GB。使用基于Pytorch的深度學習平臺。

3.1 局部遮擋補全網絡實驗與分析

本文構建的P-IncepNet與CC-Gan進行對比實驗,探討構建的局部遮擋補全網絡對表情修復性能的影響。在局部遮擋補全網絡上分別對CelebA靜態表情和MMI動態表情數據集做了實驗分析,通過對比對抗損失,內容損失,綜合損失驗證補全網絡對表情修復的優化作用。由于有遮擋的面部表情數據集有限且樣本差異不明顯,所以人工為CelebA靜態表情和MMI動態表情數據集添加了不同程度的隨機遮擋。

3.1.1 實驗預處理

CelebA數據集由202 599張人臉圖像組成,樣本數量多并且10 177個人的不同情緒表達足夠多樣性,數據集中圖像原始尺寸均為178×218,首先使用Adaboost級聯分類器對人臉進行檢測,獲取到人臉部分后,使用人臉歸一化方法[21]將表情圖像歸一化到[0,1],尺寸為128×128。實驗選取處理后的150 000張圖片作為訓練集來訓練網絡,測試集52 599張。在CelebA的數據集上迭代訓練200個周期,每一個周期迭代訓練2 523次,每個批次大小設置為8,初始局部二值掩碼Mask設置為48,隱藏變量z的空間維數為100。訓練中梯度衰減采用Adam算法優化損失,初始學習速率lr為1×10-4,其中參數β1設置為0.5,β2設置0.999,ε設置為1×10-8。

MMI(MMI Facial Expression Database)數據集與CelebA數據集相比,數量不同,獲取方式不同,樣本間存在較大差異,以此數據集進行遮擋表情的補全,以驗證網絡在動態數據集和在靜態數據集表現同樣優異。數據集包含32名受試者的2 900段視頻,其中正面視圖有205個,MMI中的表情序列在接近中間的地方達到峰值,原始數據分辨率為720×576像素大小。該實驗與上述實驗使用相同的預處理方法,只是將部分參數進行改動,BatchSize改為16,學習率改為1×10-3,β1改為0.4,將數據歸一化成224×224像素大小進行輸入。

3.1.2 實驗結果分析

(1)遮擋修復可視化分析

首先用局部二值掩碼分別對CelebA和MMI數據集進行遮擋區域為1/2、1/4、1/9、1/16的隨機遮擋,圖4為1/9遮擋時隨機選取的某次特征提取可視化圖像,上方為CelebA的可視化圖像,下方為MMI的可視化圖像,如圖4所示生成模型在經過第一層卷積后,特征模糊,大部分細節丟失,在經過第一個Inception結構后,通過不同卷積層學習到的特征更加具體,之后兩條并行線路分別針對整體特征和局部特征學習后得到兩份有差異的特征圖,最后整合兩個特征圖得到更真實的特征圖。

圖4 面部修復可視化Fig.4 Visual image of facial repair

(2)網絡穩定性對比分析

在判別模型中對抗損失用來判斷真假圖像,通過損失項對模型進行微調,得到逐漸精細的補全圖。將CelebA和MMI數據集以不同比例遮擋分別在CC-Gan和本文構建網絡進行實驗,圖5為1/9遮擋時判別模型對抗損失D-Loss的變化,在CelebA和MMI數據集的訓練中CC-Gan都出現了不穩定現象,損失函數波動的閾值較大,本文的方法與CC-Gan網絡相比,D-Loss的損失率都有所下降,CelebA平均降低了3.12個百分點,MMI平均下降了2.35個百分點,并且波動的閾值明顯比CC-Gan減小。CC-GAN在150步迭代后損失率才趨于穩定,但本文的方法在100~150步迭代時就逐漸穩定,在整個訓練過程中本文的方法與CC-Gan相比,在降低損失率的同時增加了網絡的穩定性,使得實驗結果得到充分收斂。

圖5 對抗損失函數變化Fig.5 Change of adversarial loss

(3)內容損失對比分析

在生成模型中內容損失的作用是將學習到的特征盡可能用于缺失部分,產生更接近真實圖像補全圖,為了驗證本實驗網絡在人臉修復效果的優越性,在CelebA和MMI數據集分別做遮擋對比實驗,G-Loss損失通常先增大后減小,最后趨于穩定,如圖6損失率對比變化過程所示,在CelebA數據集上,本文方法的內容損失只在開始部分略高于CC-Gan,在其他時間都低于CC-Gan,最后損失率穩定在0.982;在MMI數據集上,本文方法的內容損失始終低于CC-Gan,最后損失率穩定在0.873。

圖6 內容損失函數變化Fig.6 Change of L2 loss

圖7 為1/9遮擋修復變化過程,圖中上方為本實驗結果,中間為CC-Gan網絡實驗結果,下方為沒有內容損失的傳統人臉修復方法,從左往右依次是1、50、100、150、200步的修復圖像和真實圖像。從圖7可以看出隨著迭代次數增加,添加內容損失的本文網絡和CC-Gan比沒有內容損失的傳統方法修復效果更好,而同樣添加內容損失的本文方法與CC-Gan相比,本文方法生成的圖像質量更高,破損的邊緣更具有連續性,并且中期補全圖像就達到CC-Gan后期修復的效果。

圖7 修復過程變化對比Fig.7 Comparison of repair process change

(4)不同程度遮擋修復對比分析

在1.2節介紹了P-IncepNet并聯結構對人臉補全的作用,為了驗證本文的局部遮擋補全網絡在面部修復的魯棒性,將遮擋區域的大小設置為1/2、1/4、1/9、1/16分別對Celeb和MMI進行實驗,圖8顯示了采用并聯結構和未采用并聯結構的面部補全網絡實驗對比結果,從左往右分別是遮擋圖像,未采用并聯結構的恢復圖,采用并聯結構的恢復圖和原圖。

圖8 不同程度遮擋修復過程Fig.8 Different occlusion repair process

實驗結果顯示1/16至1/4這樣中小程度的遮擋修復效果比較逼真,CelebA數據集上總體損失穩定在0.07~0.1,在MMI數據集上總體損失穩定在0.07~0.09。但是1/2遮擋時生成圖像的會產生部分扭曲并且修復部分與未遮擋部分的邊界有不連續性,圖9顯示CelebA和MMI數據集上1/2遮擋與其他程度遮擋的綜合損失相比有超過0.2差距,造成過大損失的原因是大半面部特征被遮擋,判別模型對編碼器提取的大量特征取舍不當,使得面部表情恢復的總體損失率過大。

圖9 不同程度遮擋綜合損失變化Fig.9 Different occlusion of loss change

3.2 級聯表情識別網絡實驗與分析

為了驗證本文的P-IncepNet遮擋補全網絡對最終表情識別效果的影響,分別探討本文構建的級聯表情識別網絡對無遮擋表情識別和有遮擋表情識別的性能影響。首先在AFEW和MMI上做無遮擋表情的實驗,分析級聯網絡在不同數據集上的表現。然后在MMI數據集進行有遮擋的實驗,分析遮擋補全對動態表情識別的貢獻率。

3.2.1 無遮擋動態表情識別實驗

(1)實驗預處理

AFEW選自電影和電視劇片段,數據集為憤怒、厭惡、恐懼、高興、中性、悲傷和驚訝7種情緒狀態,采集AFEW數據集1 426段,數據集均為720×576像素大小,數據集中有大量中性表情幀,使用動態時間規整(Dynamic Time Warping)[22]算法選取表情峰值的16幀,采用多掩碼級聯卷積網絡(MTCNN)進行人臉檢測和對齊,同時將其歸一化成224×224像素大小進行輸入。為了使實驗結果更具真實性,實驗中將AFEW數據分為三組:773個用于訓練、373個用于驗證、653個用于測試。在每個卷積層均使用批量歸一化(Batch Normalization),學習率為1×10-4,權值衰減為5×10-4,為全連接層添加了值為0.6的Dropout層來防止實驗出現過擬合,在SoftMax層進行L2正則化。

MMI數據集與3.1.1小節使用相同的預處理方法,將數據歸一化成224×224像素大小進行輸入。本實驗使用10倍交叉驗證,將AFEW和MMI數據集分別平均分為10組,其中的9組作為訓練集,另外1組作為測試集,最后取10次實驗結果的平均得分。這樣保證實驗結果真實有效,不受樣本間誤差干擾。

(2)實驗結果分析

①無遮擋識別率分析

圖10 和圖11為本文構建的級聯表情識別網絡分別在AFEW和MMI數據集隨機挑選的一次訓練的識別率和損失函數,經過100 000次的迭代訓練之后,AFEW最終結果得到52.12%的識別率,MMI得到80.31%的識別率。在GPU加速運算的情況下AFEW迭代100 000次共花費了297 min,MMI花費了256 min,100 000次迭代后損失函數都低于0.01并且變化已經穩定,識別結果也足夠收斂。

圖10 識別率變化Fig.10 Change of accuracy

圖11 損失函數變化Fig.11 Change of loss function

②與其他網絡的對比分析

為了比較本文所提出的級聯網絡的性能,與其他網絡進行訓練時間和識別率的對比實驗。對比實驗均使用了相同的預處理和訓練方法。AFEW數據集的實驗結果如表1所示,雖然C3D這樣的單一網絡迭代一次的訓練時間只有0.146 s,但是由于對時空信息學習不充分,在相同的數據量上識別率只有35.2%,隨著級聯網絡在深度上的不斷增加,C3D-LSTM、VGG-LSTM的識別率分別提高到43.2%、47.4%,但是隨之花費的時間也越長,尤其是VGG-LSTM這樣的網絡深度過大,網絡迭代一次時間達到了0.32 s,因此為了提高識別率只進行深度上的增加會導致識別速度減慢,增加計算機的運算成本。本文的P-IncepNet不再加深網絡深度,而是增加網絡寬度,對于特征學習的能力更加優秀,實驗結果顯示P-IncepNet與LSTM級聯在保證訓練時間穩定的基礎上,將識別率提高到了52.12%,比基線40.47%好11.65個百分點。

表1 AFEW識別率和時間對比Table 1 AFEW accuracy and time comparison

同樣的,MMI數據集的實驗結果如表2所示,在單一網絡LSTM上迭代一次時間為0.15 s,識別率僅為70.67%,CNN-LSTM和PHRNN-MSCNN識別率分別提高了7.33和8.63個百分點,但時間分別增加了0.022 s和0.053 s,本文級聯網絡的最高識別率達到80.31%,但是時間和CNN-LSTM接近,只有0.17 s。提高識別率的方法一般是增加網絡深度,但是網絡運算成本也會增加,本文結構拓寬網絡寬度,不僅提高特征提取的能力,還保證了識別速度不會激增。

表2 MMI識別率和時間對比Table 2 MMI accuracy and time comparison

3.2.2 有遮擋動態表情識別實驗

(1)有遮擋識別率分析

在MMI數據集上進行有遮擋的表情識別實驗,將3.1節局部遮擋網絡輸出的1/2、1/4、1/9、1/16遮擋修復圖像,分別批量輸入3.2.1小節級聯表情識別網絡,最后得到實驗結果對比如表3所示,隨著遮擋面積的減小識別率正逐漸提高,優化率也呈現上升趨勢,并且優化率增加趨勢逐漸平穩。四種遮擋條件下修復圖像的識別率分別達到61.07%、70.69%、80.27%、80.13%,平均識別率為73.04%,分別比未修復的破損圖像識別率高了1.25、7.60、4.71、4.24個百分點,平均識別率提高了4.45個百分點,因此對破損圖像修復后再進行表情識別是必要的步驟。

表3 不同遮擋識別率對比Table 3 Different occlusion accuracy comparison %

(2)遮擋補全有效性分析

由表3可以看出,1/9和1/16遮擋修復識別率比較高,都在80%以上,識別優化率都在4%以上,不同遮擋比例的識別率和損失函數變化過程,如圖12和圖13所示,修復圖的損失函數在30 000次迭代左右時就趨于穩定,而未修復圖的損失函數在50 000次迭代后才趨于穩定,并且識別率始終低于修復圖識別率,所以對于圖像修復后進行表情識別不僅提高識別率,還更好地收斂了實驗結果。

1/4遮擋修復識別率雖然低于1/9和1/16遮擋修復識別率,但是優化率卻是所有遮擋類型中最高的,分別高出了2.99和2.36個百分點,同時在圖12和圖13的變化過程中可以看到,1/4遮擋相比于另外兩種遮擋更早拉開與未修復識別率的差距,損失函數的差異也是所有類型中差距最明顯的,所以在1/4遮擋修復的識別效果表現最為優秀。

1/2遮擋時識別率雖有所提高,但是優化率僅有1.25個百分點,并且由圖12所示其修復圖識別率后期變化不夠收斂,與未修復圖識別率產生了交叉變化,原因在3.1.2小節的實驗結果和圖13的損失函數變化可知,大面積遮擋修復的損失率過高,所以修復后的圖像丟失太多表情有關的特征,對其進行表情識別的貢獻率不高。綜合實驗結果,本文方法對中小程度的遮擋,通過補全后表情識別有效性顯著提高。

圖12 不同遮擋識別率變化Fig.12 Different occlusion accuracy change

圖13 不同遮擋損失函數變化Fig.13 Different occlusion loss change

(3)表情分類對比分析

本文方法對于1/4遮擋補全的貢獻最優秀。為了方便觀察各類表情的識別率,如表4和表5,為1/4遮擋制作了修復圖與未修復圖的混淆矩陣,表中每一行的數據是該類表情的真實分類結果,表中對角線的數據為各個表情的識別正確率,其他交叉數據為表情之間的錯誤分類。從表中可以看出在MMI數據集上本文方法的憤怒、高興、驚訝識別較好,分別達到了79.27%、82.26%、81.47%,未修復圖的識別率僅有70.40%、81.06、72.46%,其中平均有6.36個百分點的識別率提升得益于遮擋圖像的修復。對憤怒、高興、驚訝識別較好的原因是這類表情的嘴巴、眼睛和眉毛具有明顯的特征變化,并且這些特征在3.1.2小節構建的遮擋補全網絡被很好地區分,表情修復效果較好。

表4 1/4遮擋修復圖混淆矩陣Table 4 Confusion matrix of 1/4 occlusion repair %

表5 1/4遮擋未修復圖混淆Table 5 Confusion matrix of 1/4 occlusion unrepair%

在厭惡、恐懼、悲傷和中性表情上識別率不夠理想,修復圖識別率都低于70%,分別為58.64%、67.84%、65.73%、59.62%,但是相比于未修復圖像平均識別率也有5.08個百分點的提升,由此可以看出圖像修復對有局部遮擋的動態表情識別意義重大。

中性、憤怒、悲傷和厭惡容易被錯誤識別,未修復圖的平均錯誤率為9.4%,而修復圖的平均錯誤率降為8.57%,其中厭惡最容易被分類為悲傷,錯誤率最高達到11.26%,由此看出,面部表情是多個面部肌肉活動的結果,所以在情感表達時面部變化非常復雜。中性、憤怒、悲傷和厭惡等表情特征區分不是很明顯,特別是當多種表情的混合出現更容易造成錯誤分類,這進一步說明人臉表情識別研究的任務是復雜而艱巨的。

4 結束語

為了解決了現實生活中動態表情識別的面部遮擋問題,在補全網絡中使用并聯的生成對抗框架,在一定程度減少了遮擋對表情的影響,并且網絡更快速、更加穩定。通過實驗可以得到如下結論:

(1)構建的P-IncepNet是穩定的,具有良好遮擋修復性能。

(2)本文局部遮擋補全網絡的對抗損失和內容損失低于CC-Gan,其中1/16至1/4這樣中小程度的隨機遮擋修復效果優于1/2大面積遮擋,對于大面積遮擋來說,生成模型和判別模型需要平衡的網絡層分配。

(3)構建的級聯表情識別網絡在MMI數據集上進行不同遮擋補全的表情識別,發現遮擋修復對表情識別的平均貢獻率達到4.45個百分點,其中1/9和1/16遮擋修復的優化率分別為4.71和4.24個百分點,在1/4遮擋達到最高貢獻率7.6個百分點,修復效果不理想的1/2遮擋也有1.25個百分點的優化率。

(4)本文構建的級聯表情識別網絡對無遮擋同樣具有較高的識別性能,識別率不僅高于C3D、LSTM這樣的單網絡結構,也比C3D-LSTM、ResNet-LSTM這樣的級聯網絡優秀,在AFEW數據集和MMI數據集上最高識別率分別比基線高11.65和12.13個百分點。

(5)遮擋對憤怒、驚訝、高興表情產生的影響較大,6.36個百分點的平均識別率提升得益于本文遮擋圖像的修復;對厭惡、恐懼、悲傷和中性表情的影響相對較小,與遮擋未修復圖相比,平均識別率提高了5.08個百分點,所有本文網絡結構進行圖像修復對有遮擋的動態表情識別意義重大。

為了進一步提高網絡對任意比例遮擋的魯棒性,還需要更多的遮擋數據對其訓練。在實際應用中遮擋與無遮擋總是混合交叉出現的,為了提高效率和識別的準確率,有必要對是否有遮擋進行預判,光流法是較簡單的遮擋預判方法,但是受太多條件約束,光流法的實現需要滿足三種假設:圖像的光照強度保持不變;空間一致性;時間連續性。Mean-shift跟蹤算法和圖像分割算法也可以進行遮擋預判,但是該方法計算量很大,受圖像變形和縮放等干擾信息影響。Fast-R-CNN是現在比較流行的對有無遮擋進行判斷的深度學習方法,該方法在具有挑戰性的野外環境中能夠保持遮擋檢測的實時性和準確率,但網絡需要大量的遮擋數據集進行訓練,而現有的表情遮擋數據集有限。對遮擋進行預判一般是在人臉檢測和跟蹤部分進行,在該部分選擇一種既能提高判斷準確率,又能節省計算機成本的遮擋預判方法是進一步需要研究的內容。

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 97久久精品人人做人人爽| a天堂视频| 国产资源站| 先锋资源久久| 国产精品私拍99pans大尺度 | 亚洲人成电影在线播放| 无码一区18禁| 天堂中文在线资源| 四虎在线高清无码| 美女无遮挡免费视频网站| 国产在线视频欧美亚综合| 少妇露出福利视频| 国产日韩精品欧美一区喷| 青青网在线国产| 国产精品污污在线观看网站| 日本一本正道综合久久dvd| 欧美不卡视频在线观看| 久久久久人妻一区精品色奶水 | 久夜色精品国产噜噜| 亚洲天堂精品视频| 真人高潮娇喘嗯啊在线观看| 黄色网站不卡无码| av一区二区无码在线| 亚洲熟女中文字幕男人总站| 亚洲精品自在线拍| 国产91精品调教在线播放| 国产成人毛片| 丁香婷婷激情网| 国产精品毛片一区视频播| 国产成人精品无码一区二| 亚洲黄色网站视频| 男女性色大片免费网站| av在线人妻熟妇| 97av视频在线观看| 国产91九色在线播放| 国产精品3p视频| 欧美人与动牲交a欧美精品| 人人爱天天做夜夜爽| 色婷婷亚洲十月十月色天| 国产午夜无码片在线观看网站| 精品久久久久久中文字幕女| 在线国产欧美| 欧美成人第一页| 天天色天天综合| 国产亚洲欧美在线中文bt天堂 | 91久久偷偷做嫩草影院免费看 | 欧美精品亚洲精品日韩专区| 人妻中文久热无码丝袜| 91精品国产综合久久香蕉922| 成人午夜视频免费看欧美| 亚洲欧美自拍中文| 免费又黄又爽又猛大片午夜| 亚洲精品无码人妻无码| 无码AV动漫| 国产嫩草在线观看| 夜夜高潮夜夜爽国产伦精品| 欧美成人亚洲综合精品欧美激情| 欧美日韩午夜| 国产精品永久久久久| 在线观看精品国产入口| 国产无码网站在线观看| 国产美女视频黄a视频全免费网站| 欧美日韩一区二区在线免费观看 | 国产成人免费视频精品一区二区| 白浆视频在线观看| 欧美啪啪网| 国产午夜精品一区二区三区软件| 国产啪在线91| 中国黄色一级视频| 欧美五月婷婷| 色爽网免费视频| 日韩精品一区二区三区免费| 久久国产成人精品国产成人亚洲| 天天综合网在线| 免费网站成人亚洲| 久久77777| 亚洲欧美国产五月天综合| 拍国产真实乱人偷精品| 视频一本大道香蕉久在线播放| 天天色综合4| 性网站在线观看| 99人体免费视频|