基于改進AlexNet模型的面部表情識別算法研究

2023-07-14 18:10:27孫歌王劍雄歐琪等

計算機應用文摘 2023年12期

孫歌王劍雄歐琪等

摘要：面部表情是傳遞人類情感狀態最直觀的方式，通過分析面部表情，可以獲得某人在某時剖的精神和身體狀況。表情識別在人機通信、自動駕駛、醫學等應用領域有著重要的應用價值，并且受到越來越多的關注。隨著深度學習技術的發展，表情識別技術研究也從常規的圖像處理方法轉變為采用深度學習的方法，但是由于樣本數量有限，以及硬件設備的限制，使得提高表情識別準確率的方法受到了一定的限制。文章主要對改進ALEXNET模型的表情識別算法進行研究，由于ALEXNET在人臉面部表情識別中準確率較低，因此在對ALEXNET網絡進行深入研究的基礎上，通過修改卷積核的大小以及卷積層的數量，增加注意力機制和殘差塊．以提高網絡對人臉特征的提取能力，并將改進后的AlcxNct模型應用于CK+及jAFFE數據集，進而在該數據集上取得了較好的識別準確率。

關鍵詞：表情識別；AlcxNct；深度學習；卷積層

中圖法分類號：TP391 文獻標識碼：A

１引言

隨著科學技術的進步，深度神經網絡現已被應用于自動面部表情識別，從實驗室控制到野外環境，其應用越來越廣闊。面部表情是人類最直接、最容易感知的信號之一，可以幫助人們更好地理解、表達情感和意圖。隨著社會自動化機器人、醫學、駕駛員疲勞檢測等人機交互信息系統的發展，面部表情自動分析已成為一種重要的技術手段，并受到廣泛的關注。機器可視化和機器學習方法也在發展，它們可以從面部表征中提取出有用的信息，從而實現對人臉的準確識別。２０世紀初，ＥＫＭＡＮ等［１］進行跨文化分析，提出了６種主要情感，這些情感可以被界定為憤慨、憎恨、驚恐、愉快、悲痛和震驚，表明不論文化背景如何，人們對這些情況的感知方式都是一致的。

在當今深度學習技術發展迅速的背景下，傳統分析方法和深度學習分析方法已經是表情分析技術的２個重要方向。深度學習技術憑借自身強大的特征提取能力和自學習能力已在表情識別領域彰顯出巨大潛力。因此，在表情識別中應用深度學習技術進行特征提取取代手工特征提取已逐漸成為主流，也是當今技術發展的必然要求。特別是在人臉表情識別方向，深度學習技術通過多層神經網絡的組合，已能夠從人臉圖片中識別出當前人類情緒，并對情緒種類加以分類。當前較為流行的深度學習網絡有卷積神經網絡［２］（ＣｏｎＶｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、深度置信網絡［３］（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋｓ，ＤＢＮ）、殘差神經網絡［４］（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋｓ，ＲｅｓＮｅｔ）和生成對抗網絡［５］（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ，ＧＡＮ）等。

２改進的ＡｌｅｘＮｅｔ網絡結構

在ＩＳＶＲＣ２０１２上最為矚目的當屬ＡｌｅｘＮｅｔ神經網絡模型。ＡｌｅｘＮｅｔ的整體結構總共分為８層，卷積層共５層和全連接層共３層，卷積核尺寸分別設定為１１×１１，５×５，３×３，３×３和３×３。ＡｌｅｘＮｅｔ網絡雖然在圖像識別領域中取得了一定成績，但隨著神經網絡的迭代和發展，ＡｌｅｘＮｅｔ在應用于圖像分析時也逐漸出現問題。尤其在表情分析領域中進行表情提取時，它仍存在提取表情不準確、表情種類分析準確率不高的情況，本文在ＡｌｅｘＮｅｔ網絡的基礎上提出了一種改進的ＡｌｅｘＮｅｔ網絡模型。該模型應用ＣＮＮ網絡的深層特征提取能力彌補了ＡｌｅｘＮｅｔ網絡在某些情況下識別能力差、表情區分不清晰的短板，最終實現了更準確、更迅速的表情識別［６～１２］。改進前后的ＡｌｅｘＮｅｔ網絡結構圖如圖１、圖２所示。

圖２改進后的網絡模型中包含６個卷積層、２個全連接層和１個ｓｏｆｔｍａｘ輸出層，并且引入了自注意力機制和避免了梯度消失問題的殘差塊，從圖中可以看出，改進前后的ＡｌｅｘＮｅｔ網絡的組織結構組成是相似的［１３～１４］。

首先，由于純人臉圖像是經過裁剪之后才輸入網絡模型中，圖像尺寸較小且原有網絡卷積核尺寸過大、步長過長，特征提取效果較差，因此將原始ＡｌｅｘＮｅｔ網絡第一層的１ｌ×１１卷積核改變為２個３×３卷積核的堆疊，步長從４減小到２。因為較小的卷積核提取的局部特征更細致，能夠提高網絡模型的分類結果，而采用２個堆疊的較小卷積核還可以有效利用非線性激活函數，并有效提升網絡的非線性表達能力，同時減少了網絡中的參數量。其次，因輸入圖像尺寸小、數據集樣本少且模型網絡層數較多，為更好地提升該模型的識別準確率，故借鑒何凱明，張翔宇等在２０１５年提出的ＲｅｓＮｅｔ殘差網絡，在本模型中構建殘差網絡塊，以盡量避免梯度消失的問題，在減少模型參數訓練時間的同時，也提升了表情識別的準確率。ＳＥ注意力機制（Ｓｑｕｅｅｚｅ?ａｎｄ?ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ）在通道維度增加注意力機制，關鍵操作是ｓｑｕｅｅｚｅ和ｅｘｃｉｔａｔｉｏｎ。原始表情圖像的數據被分割成多個像素塊，每個像素塊的權重相同，即在模型訓練時的重要性是相同的，不僅影響訓練時間，還影響模型參數的準確性。故在模型開始部分引入自注意力機制，通過自動學習的方式，使用另外一個新的神經網絡，獲取當前表情圖像中每個像素塊的重要程度，然后用這個重要程度去給每個像素特征賦予一個權重值，從而讓后續的神經網絡重點關注某些像素特征，提升對當前表情識別有用的特征圖的像素塊，并抑制對當前識別任務用處不大的像素塊。表情類別差異微小的（如害怕、傷心、生氣）表情特征通常聚集于局部區域，不僅需要關注有益于表情分類的特征形態，還需要關注具體的局部特征。引入通道注意力機制實現通道權重判斷，進而實現不同區域的權重分配。權重分配機制有效挖掘對表情分類有意義的局部區域，學習強化實現局部特征的提取，引導網絡利用聚合特征進行表情識別。通道注意力機制在通道上實現權重分配，特征圖上每一個通道表示一個檢測器，通道注意力機制關注最有意義的特征是什么形態。最后，為了將改進的ＡｌｅｘＮｅｔ模型應用于７類表情分類任務中，將全連接層和ｓｏｆｔｍａｘ層神經元的個數分別設置為５１２和７。

將預處理的臉部表情輸入至改進后的模型中，進行模型訓練和超參數調整，進而獲得識別效果最好的模型結果。如圖３所示，通過實現自注意力機制的人臉關鍵點定位技術，將其輸入到訓練好的模型中，輸出該圖像表情類別。

３混淆矩陣

優秀的數據集是進行實驗的必要基礎，算法識別效果直接受數據標注準確度的影響。為更準確地評估本文改進模型識別能力，選取了ＪＡＦＦＥ和ＣＫ＋數據集進行實驗對照，可以更全面地了解改進模型的識別能力和短板。通過在ＪＡＦＦＥ和ＣＫ＋上構建混淆矩陣，觀察二者對角線部分數值的高低，并將其作為模型準確率的評判標準，而矩陣中的其余部分則是模型的錯誤率，即表情被誤分類為其他類別的可能性。ＪＡＦＦＥ上識別的混淆矩陣如表１所列。

ＪＡＦＦＥ數據集中的圖像為日本女性面部表情，共含有２１３張表情圖片，每張圖片共有７０個不同表情，均由１０位女性各自７種不同表情構成。ＣＫ＋數據集包含１２３個不同主題的５９３個序列，這些主題的年齡從１８歲到５０歲不等，具有各種性別和傳統。ＣＫ＋數據庫被認為是最廣泛使用于實驗室控制的面部表情分類數據庫，并用于大多數面部表情分類的方法。

ＣＫ＋上識別的混淆矩陣如表２所列。

在表１、表２的混淆矩陣對角線上可以明顯看到，高興表情的識別正確率均是最高的，因為此種表情的表現方式大多是嘴角上揚，在人類進行日常交流時嘴角變化通常是他人的注意點，所以更容易被察覺到。

同時，在ＣＫ＋數據集中，識別率最高的是驚訝表情，同理，在人類日常交流中，他人睜大眼睛或者嘴巴張大容易被人察覺。

４結束語

本文主要使用深度學習中的卷積神經網絡對面部關鍵點進行定位，同時將面部關鍵點信息和ＡｌｅｘＮｅｔ網絡模型相結合，以達到獲取表情信息目的。

由表１、表２可知，在２個數據集上高興表情的準確率最高，因為高興表情的表現是嘴角上揚，可以看出對于其他幾類動作不明顯的表情還有待研究。本實驗雖然成功獲取關鍵點并同時估計出面部表情，但在具體不可控場景中（如超３０％圖像遮擋、圖像前后幀發生巨大變動或背景干擾因素過多），會發生一定程度的誤判。由于采用ＣＮＮ層次較多，同時涉及２次信息的輸入輸出，因此本實驗實時性表現一般，但估計的精確性較高，如何綜合性平衡系統實時性和精確性是下一個研究的重中之重。

參考文獻：

［１］ＥＫＭＡＮＰ，ＦｒｉｅｓｅｎＷＶ．Ｃｏｎｓｔａｎｔｓａｃｒｏｓｓｃｕｌｔｕｒｅｓｉｎｔｈｅｆａｃｅａｎｄｅｍｏｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｐｅｒｓｏｎａｌｉｔｙａｎｄｓｏｃｉａｌｐｓｙｃｈｏｌｏｇｙ，１９７１，１７（２）：１２４．

［２］張珂，馮曉晗，郭玉榮，等．圖像分類的深度卷積神經網絡模型綜述［Ｊ］．中國圖像圖形學報，２０２１，２６（１０）：２３０５?２３２５．

［３］章新志．基于深度置信網絡的人臉識別算法研究［Ｄ］．南昌：華東交通大學，２０１９．

［４］韓玉．基于殘差模塊神經網絡的人體行為檢測與識別研究［Ｄ］．包頭：內蒙古科技大學，２０２２．

［５］范黎．基于生成對抗網絡的圖像數據增強技術研究及應用［Ｄ］．杭州：浙江大學，２０２２．

［６］ＹＵＪＸ，ＬＩＭＫＭ，ＬＥＥＣＰ．ＭｏＶＥ?ＣＮＮｓ：ＭｏｄｅｌａＶｅｒａｇｉｎｇＥｎｓｅｍｂｌｅｏｆＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＲｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０２１，４８（３）：２２?３３．

［７］ＷＯＯＳ，ＰＡＲＫＪ，ＬＥＥＪＹ，ｅｔａｌ．ＣＢＡＭ：ＣｏｎｖｏｌｕｔｉｏｎａｌＢｌｏｃｋＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ［Ｊ］．ＩＡＥＮＧＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１８：６?１６．

［８］于方軍，焦玉杰，孫麗君．人體關鍵點檢測及教學應用之人臉表情識別［Ｊ］．中國信息技術教育，２０２３（１）：９６?９８．

［９］葉繼華，祝錦泰，江愛文，等．人臉表情識別綜述［Ｊ］．數據采集與處理，２０２０，３５（１）：２１?３４．

［１０］何俊，劉躍，李倡洪，等．基于改進的深度殘差網絡的表情識別研究［Ｊ］．計算機應用研究，２０２０，３７（５）：１５７８?１５８１．

［１１］呂方惠．基于雙流卷積神經網絡的動態表情識別研究［Ｄ］．南京：南京郵電大學，２０２１．

［１２］楊旭，尚振宏．基于改進ＡｌｅｘＮｅｔ的人臉表情識別［Ｊ］．激光與光電子學進展，２０２０，５７（１４）：２４３＋２５０．

［１３］李珊．基于深度學習的真實世界人臉表情識別研究［Ｄ］．北京：北京郵電大學，２０２１．

［１４］呂鵬，單劍鋒．基于多特征融合的人臉表情識別算法［Ｊ］．計算機技術與發展，２０２２，３２（１０）：１５１?１５５＋１８１．

作者簡介：

孫歌（１９９９—），碩士，研究方向：人工智能。

王劍雄（１９７５—），碩士，教授，研究方向：人工智能（通信作者）。