







摘" 要:人臉圖像的多屬性識別和多標簽之間的依賴性建模研究,是計算機視覺和機器學習領域備受關注的研究課題。為借助多標簽間的依賴關系提升識別效率,提出了一種基于圖卷積神經網絡的多標簽人臉屬性識別模型。該模型通過數據驅動的方式構建人臉屬性間的有向圖,并由圖卷積神經網絡將每個屬性映射到對應屬性分類器,以此對類別間的依賴關系進行建模。模型對圖卷積神經網絡中的相關矩陣和特征矩陣等關鍵元素進行了深入分析,使其能夠勝任多標簽人臉屬性識別問題。實驗結果表明,該模型在多標簽人臉屬性識別權威數據集CelebA上表現良好并能保持有意義的語義結構。
關鍵詞:深度學習;人臉屬性識別;圖卷積神經網絡;多標簽分類
中圖分類號:TP391.4;TP183" 文獻標識碼:A" 文章編號:2096-4706(2024)11-0116-05
Face Attribute Recognition Based on Graph Convolutional Neural Networks
LI Minghan, LIU Ke, ANG Yin
(South-Central Minzu University, Wuhan" 430074, China)
Abstract: The research on multi-attribute recognition of facial images and the modeling of dependencies between multiple labels is a highly concerned research topic in the fields of Computer Vision and Machine Learning. A multi-label facial attribute recognition model based on Graph Convolutional Neural Networks is proposed to improve recognition efficiency by leveraging the dependency relationships between multiple labels. This model constructs a directed graph between facial attributes in a data-driven manner, and maps each attribute to the corresponding attribute classifier using a Graph Convolutional Neural Networks to model the dependency relationships between categories. The model has conducted in-depth analysis on key elements such as correlation matrix and feature matrix in Graph Convolutional Neural Networks, enabling it to handle multi-label facial attribute recognition problems. The experimental results show that the model performs well on the authoritative dataset CelebA for multi-label facial attribute recognition and can maintain a meaningful semantic structure.
Keywords: Deep Learning; face attribute recognition; Graph Convolutional Neural Networks; multi-label classification
0" 引" 言
人臉屬性識別亦稱面部屬性估計,是一種識別圖像中是否存在特定面部屬性的技術,這些屬性包括但不限于微笑、眼鏡和胡子等,可用以描述人臉圖像中人類可理解的語義特征。盡管圖像分類技術在學術和工業界已取得顯著進展,但人臉屬性識別的任務較之傳統多標簽分類任務更為復雜。這一復雜性源于人臉屬性中的性別和年齡段等深層語義,此類屬性需要通過推理而非直觀判斷來獲取。通過深入分析這些面部屬性的識別過程,探索將傳統的卷積神經網絡和圖卷積網絡這兩種模型融合,以實現對人臉圖像的多標簽屬性預測的可能性,從而解決圖像分類中的復雜性多標簽問題[1-3]。
本文所做研究不僅僅局限于理論分析,還涉及相應的實驗設計方法。文中詳細介紹了卷積神經網絡和圖卷積網絡的結合方式,以及如何將其應用于人臉識別系統中。此外,還討論了研究結果在現實世界的潛在應用場景。本文主要涉及計算機視覺、深度學習和圖像識別領域,對人臉屬性識別的理論基礎、面臨挑戰以及實驗設計方法進行了較為深入的探討,進而幫助理解如何將這些技術應用于實際的人臉識別系統中。
1" 相關工作
1.1" 圖像的多標簽分類
圖像分類是計算機視覺領域的重要研究方向,它包括單標簽圖像分類和多標簽圖像分類[4]。單標簽分類旨在判斷圖片是否屬于某個類別,主要涵蓋二分類和多分類情況。多標簽分類則判斷圖像中是否存在某些類別[5]。在多標簽分類算法模型領域中,傳統機器學習方法多采用SVM、ML-KNN和多標簽決策樹來進行多標簽圖像分類[6]。而深度學習領域則通過使用CNN-RNN聯合模型來考慮類別間的相關性,以提高分類準確性[7]。
1.2" 圖卷積神經網絡在人臉識別中的應用
圖卷積神經網絡(GCN)是一種處理圖結構數據的神經網絡,近年來在人臉屬性識別領域受到了廣泛關注。GCN在捕捉圖像中不同部分間的關系方面表現出色,特別是在解析人臉圖像中復雜的屬性關系和人臉識別應用過程中,提供了一個新的視角,即通過捕捉面部不同區域間的關系來提高屬性預測的準確性[8]。
1.3" 人臉屬性分析
人臉屬性分析是基于深度學習的面部屬性分析的重要組成部分,主要包括面部屬性估計(FAE)和面部屬性合成(FAM)。如圖1所示,FAE方法可分為基于部件的方法和基于整體的方法。部件方法關注于面部特定部分的屬性,而整體方法則學習屬性關系和統一框架中的面部屬性。整體FAE算法通常利用額外的輔助信息,如屬性分組或標識來定制其網絡架構[9]。人臉屬性分析算法的發展進程如圖2所示,這些方法的發展不僅增強了人臉屬性預測的準確性,而且為未來的研究提供了新的方向和思路。
2" 研究方法
2.1" 研究思路
為了解決多標簽圖像分類的問題,本文提出一種基于全局思路的方法,旨在推理類別間的相關性。例如從人類已有的先驗知識推理出沙漠中不太可能出現鯊魚,而長有胡須的人很可能是男性。這種推理有助于降低多任務圖像分類的難度[10]。
2.2" 圖卷積神經網絡
GCN是一種專為圖數據設計的強大神經網絡,適用于半監督分類任務。其核心在于通過節點間信息的傳播來聚合鄰居信息。與CNN在空域上的操作類似,GCN通過卷積方式聚合中心節點的鄰居信息,但其處理的是非結構化圖數據。GCN借鑒圖信號處理的相關算法,能夠從圖數據中提取特征,并且使這些特征可以用于節點分類、圖分類和鏈路預測等任務。這使得GCN特別適合處理復雜的人臉屬性關系圖數據。
2.2.1" GCN的輸入與傳播公式
GCN的輸入包括一個特征矩陣X(N×D維)和一個鄰接矩陣A(N×N維),其中N為節點數量,D為特征維度。GCN通過重歸一化的拉普拉斯矩陣和非線性激活函數進行信息傳播,神經網絡的傳播公式為:
(1)
(2)
其中" 為重歸一化的拉普拉斯矩陣, 為第l層的圖特征, 為第l層的權重矩陣,σ為非線性激活函數。
2.2.2" GCN的網絡結構
一般而言,GCN的輸入是一個鄰接矩陣A均為共享的圖,即每層GCN的A矩陣都是相同的。此處采用一個三層GCN網絡結構,用于處理人臉屬性關系圖。即使在少量標簽數據的情況下,GCN也能進行有效的特征提取。整體的正向傳播的計算方法為:
(3)
在GCN中,即使只有很少的節點具備標簽也能完成訓練,即能有效實現半監督分類。在使用完全隨機的參數矩陣時,GCN也能獲得較好的效果[11]。
2.3" ResNet圖像特征提取模型
殘差網絡(ResNet)是由微軟研究院的四名學者提出的卷積神經網絡。通過其跳躍連接機制和殘差單元,顯著提高了圖像分類的性能。ResNet網絡的主要特點是其每兩層間增加了短路機制,使網絡能夠學習殘差。本文所涉及的ResNet-50和ResNet-101網絡結構參數的主要不同在于第四層卷積塊的數量不同,因此它們對圖像抽象化程度不同。ResNet-101比ResNet-50的卷積操作更多,可以聚合更多鄰居信息,感受野更寬廣。
2.4" 整體網絡結構設計
本文的GCN模型結合了鄰接矩陣和經過預訓練的節點特征矩陣來構建屬性關系圖,并通過三層圖卷積獲得新的節點特征矩陣,然后將新節點特征矩陣作為多層感知機的隱藏層構建為分類器。最后將這一新的分類器經過多輪訓練,以提高屬性感知能力。
2.4.1" 屬性鄰接矩陣構建
在GCN中,構建有效的鄰接矩陣A是至關重要的,因為它定義了節點間信息傳遞的方式。在研究過程中,通過分析數據集中的標簽共現模式來構建這樣的鄰接矩陣,共現模式指的是訓練集中不同標簽間的條件概率關系。如圖3所示,如果在具有“smile”屬性的樣本中,“young”屬性出現的概率為0.75,那么從“smile”節點到“young”節點的邊的權重就被設為0.75。相應地,如果在具有“young”屬性的樣本中“smile”屬性出現的概率為0.47,則從“young”節點到“smile”節點的邊的權重為0.47。這種方法允許構建一個包含40個面部屬性的復雜鄰接矩陣,從而形成一個詳細的屬性關系圖。在該圖中共有40個節點,每個節點代表一個不同的面部屬性。這種基于共現模式的鄰接矩陣構建方法在GCN的應用中是相對新穎的,它為理解和預測復雜的面部屬性間的相互關系提供了一個強有力的工具。該方法的創新之處在于它使用了條件概率來量化和構建圖結構,利用圖結構來增強多標簽圖像分類的性能,體現出GCN在處理復雜關系數據時的優勢。
2.4.2" 節點特征矩陣構建
在GCN的應用中,節點特征矩陣的構建也是至關重要的一步,它直接影響著網絡的性能和預測準確性。在研究過程中,節點特征矩陣是通過一個經過精心訓練的多層感知器(MLP)分類器獲得的,這一方法有效地編碼了每個屬性的特征。
如圖4所示,節點特征矩陣的獲取過程如下:首先,將圖像輸入到一個編碼器中提取特征;然后,通過全連接層對這些特征進行訓練,確保訓練集中的所有樣本都得到學習。經過四輪訓練后,全連接層學習到了人臉的40個屬性表示;最后,提取全連接層中隱藏層的權重作為節點特征矩陣。
在前面得到的鄰接矩陣和節點特征矩陣的基礎上,即可構建一個包含40個面部屬性的關系圖。通過三層圖卷積獲得了一個新的節點特征矩陣,這個新的矩陣僅為原始矩陣的1/4。然后,將這個節點特征矩陣用作隱藏層權重,并與經過預訓練的偏置結合,形成一個新的分類器。經過多輪訓練,這個GCN分類器能達到較好的屬性感知能力。
3" 實驗與分析
3.1" 數據集
訓練模型所使用的是CelebFaces Attributes Dataset(CelebA)人臉識別數據集,CelebA是由香港中文大學提供的面部特征屬性數據集,它包含1萬多個名人的20余萬張人臉照片,下載的數據集包中含有原始人物圖像和經過標準化裁剪的人臉圖像,每張圖片都有40個屬性標簽[12]。該數據集可用于人臉屬性預測和人臉識別等計算機視覺領域任務。
3.2" 模型訓練指標
為了全面評估所提出方法的性能,選擇了準確率、精準率、召回率和絕對匹配率作為評價指標。這些指標共同提供了對模型性能的綜合評估,其中絕對匹配率被認為是多標簽分類任務中最為嚴格的評價指標。絕對匹配率要求模型對每個實例的所有標簽都進行準確預測,這在多標簽分類中是一個極具挑戰性的目標。準確率、精準率和召回率則分別評估模型預測正確的標簽比例、預測為正的標簽中實際為正的比例和所有正標簽中被預測為正的比例。
在訓練過程中,通過監測這些指標的變化,可以更好地理解模型的學習過程和性能。從圖5所示的損失變化曲線圖中可以看出,與傳統的MLP分類器相比,該方法在訓練過程中表現出了更強的抗過擬合能力。這一點從損失曲線的平穩下降和較低的最終損失值中得到了體現。在以往評估多標簽分類模型時所采用的方法,為我們的方案提供了堅實的理論基礎。通過對這些指標的持續監控,能夠確保模型的有效性和魯棒性,從而在多標簽分類任務中取得更好的效果。
3.3" 實驗結果
3.3.1" 性能比較
通過對表1實驗結果的分析,發現本文的GCN分類器方法在一些關鍵性能指標上略低于基于MLP的分類器方法。然而,當使用ResNet50作為特征提取器時,該方法在性能上幾乎與MLP方法持平。此外,GCN分類器在模型尺寸方面遠小于MLP分類器,只有后者的1/4大小。這表明所提出的方法具有更加輕量級的特點,比較適合應用于資源受限的環境,能夠在需要較小模型和較低計算需求的特定場景下發揮優勢。
3.3.2" 屬性樣本分布和預測準確率關系
在完成多輪實驗后,從圖6(a)的分析中發現屬性樣本的分布存在不平衡現象。然而,結合圖6(b)的觀察得知即便樣本分布不平衡現象,樣本數最少的10個屬性并未出現在預測準確率最低的10個屬性中。這表明樣本分布的不平衡不是影響準確率的主要因素。
3.3.3" 預測準確率較低屬性的特點分析
根據已有實驗數據,進一步分析預測準確率最低的10個屬性,發現這些屬性具有以下特點:
1)直觀特征較少,難以分辨。這些屬性在視覺上不明顯,使得即使是高級的特征提取器也難以準確識別。
2)情感色彩強烈,受主觀影響較大。這類屬性的判斷在很大程度上受主觀感受的影響,因此在不同人群或文化背景中可能存在較大差異。
3)與其他屬性之間的邊界模糊。此類屬性與其他屬性之間的界限不清晰,導致分類時容易出現混淆。
這些觀察對于改進多標簽分類系統具有重要意義。通過識別和優化這些具有挑戰性的屬性,可以進一步提升在處理復雜和細微的屬性時分類器的性能。此外,這些發現也表明在設計和訓練多標簽分類系統時,應考慮到樣本分布的不平衡和屬性間的復雜關系。
4" 結" 論
本文提出了一種基于GCN的多標簽人臉屬性識別模型,該模型構建了一個描述人臉屬性之間關系的有向圖,并利用GCN將每個屬性映射到對應的分類器,從而類別間的依賴性進行有效建模。在權威的CelebA人臉屬性識別數據集上的實驗結果表明,本模型取得了較好的識別性能。
為了進一步提升模型在特定屬性識別方面的性能,未來的研究工作將集中于解決那些具有較少直觀特征和較強情感色彩的屬性所帶來的問題。可繼續深入探討的策略包括:
1)數據增強和遷移學習。通過此類方法增加難以分辨屬性的訓練樣本量,以提高模型在這些屬性上的識別性能。
2)模型結構改進。引入更復雜的特征提取技術,例如注意力機制或對抗性訓練,以更細致地捕捉這些屬性的細微差別。
3)替代數據源選擇。借助用戶生成內容或社交媒體數據等替代數據源,以提供額外的訓練數據,幫助解決此類屬性識別問題。
此外,本文提出的基于GCN的模型也可以被用來壓縮其他多標簽分類器的尺寸,將其作為現有分類器的一個組成部分,以實現更高效、更輕量級的模型。這將開辟模型壓縮和資源優化的新途徑,尤其適用于資源受限的應用場景。
參考文獻:
[1] 蘇賦,呂沁,羅仁澤.基于深度學習的圖像分類研究綜述 [J].電信科學,2019,35(11):58-74.
[2] HUANG G,LIU Z,MAATEN L V D. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4700-4708.
[3] KIPF T N,WELLING M. Semi-Supervised Classification with Graph Convolutional Networks [J/OL].arXiv:1609.02907 [cs.LG].(2016-08-09).https://arxiv.org/abs/1609.02907.
[4] 朱文登.基于計算機視覺的衛星頻譜信號識別研究 [D].南京:南京郵電大學,2020.
[5] 周巍.圖像識別技術在工業設計信息交互中的應用 [J].工業設計,2021(1):28-29.
[6] CHEN S F,CHEN Y C,YEH C K,et al. Order-Free RNN with Visual Attention for Multi-Label Classification [C]//Thirty-Second AAAI Conference on Artificial Intelligence 2018.Palo Alto:AAAI Press,2018:6714-6721.
[7] WANG J,YANG Y,MAO J H,et al. CNN-RNN: A Unified Framework for Multi-Label Image Classification [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition" (CVPR).Las Vegas:IEEE,2016:2285-2294.
[8] LIU Z W,LUO P,WANG X G,et al. Deep Learning Face Attributes in the Wild [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:3730-3738.
[9] 曹猛,田青,馬廷淮,等.人類面部屬性估計研究:綜述 [J].軟件學報,2019,30(7):2188-2207.
[10] 袁夢奇,鮑秉坤.圖像多標簽學習的研究概述 [J].南京信息工程大學學報:自然科學版,2019,11(6):682-689.
[11] 安鵬進.注意力機制與圖卷積方法融合的行程時間預測算法研究 [D].哈爾濱:哈爾濱工業大學,2020.
[12] LIU Z W,LUO P,WANG X G,et al. Large-scale CelebFaces Attributes (CelebA) Dataset [DB/OL].(2021-09-10).https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html.
作者簡介:李名涵(1999—),男,漢族,四川成都人,本科,研究方向:計算機視覺與圖神經網絡;通訊作者:劉科(1979—),男,漢族,湖北荊州人,博士,研究方向:智能機器人;昂寅(1999—),男,漢族,安徽巢湖人,碩士在讀,研究方向:機器視覺與自動駕駛。
收稿日期:2023-12-03
基金項目:中南民族大學教研項目(JYX19062)