











摘" 要: 現有的年齡估計方法僅基于人臉圖像,無法充分利用圖像背后的語言背景信息。此外,這些方法通常專注于單一年齡估計任務的優化,忽略了相近任務帶來的提高模型性能的信息。針對上述問題,提出一種基于視覺?語言多模態的多任務人臉年齡估計方法。該方法利用提示文本信息為年齡估計提供更豐富、更準確的圖像理解和先驗知識。同時,引入多任務學習方法,利用任務間的互補性將年齡分類任務與序數回歸任務相結合,以獲得更好的性能。最后,為了獲得可靠的預測結果,研究了加權平均法和任務回歸法兩種多任務結果融合方法,并對加權平均法的權重系數進行了消融實驗,以期找到一組合適的權重系數。結果表明:與其他先進方法相比,所提方法在UTK?FACE數據集上的平均絕對誤差(MAE)降低了7.32%,在Morph Ⅱ數據集上的MAE降低了1.20%,累積分數(CS)提升了0.11%。
關鍵詞: 年齡估計; 視覺?語言多模態; 多任務學習; 加權平均法; 提示文本; 任務回歸器
中圖分類號: TN711?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)14?0171?06
Multi?task face age estimation in vision?language multimodality
HE Jiang1, CHI Jing1, CHI Jiaji2, GAO Song3
(1. School of Information and Electrical Engineering, Hebei University of Engineering, Handan 056038, China;
2. School of Electrical Engineering, Lappeenranta University of Technology, Lappeenranta 53850, Finland;
3. Handan No. 3 Construction Engineering Co., Ltd., Handan 056001, China)
Abstract: Existing age estimation methods are based only on face images and cannot fully utilize the linguistic contextual information behind the images. In addition, these methods usually focus on the optimization of a single age estimation task, ignoring the information brought by similar tasks to improve the model performance. To address the above problems, a multi?task face age estimation method based on vision?language multimodality is proposed, which utilizes prompt text information to provide richer and more accurate image understanding and a priori knowledge for age estimation. Meanwhile, a multi?task learning method is introduced to combine the age classification task with the ordinal regression task by utilizing the complementarity between tasks to obtain better performance. In order to obtain reliable prediction results, two multi?task result fusion methods are investigated: weighted averaging and task regression, and ablation experiments are conducted on the weighting factor of the weighted averaging method to find a suitable set of weighting factors. In comparison with the state?of?the?art methods, the mean absolute error (MAE) of the proposed method is reduced by 7.32% on the UTK?FACE dataset, its MAE is reduced by 1.20%, and its cumulative score (CS) is improved by 0.11% on the Morph Ⅱ dataset.
Keywords: age estimation; visual?language multimodality; multitask learning; weighted average method; prompt text; task regressor
0" 引" 言
人臉年齡估計旨在探索年齡模式和面部外觀的變化,以實現準確的年齡估計。然而,人類面部受到多種因素的影響,僅憑外表容易產生錯誤的估計結果,這增加了年齡估計的難度。圖1呈現了不同性別、種族間的年齡差異,左邊的女性和中間的男性年齡均為42歲,種族標簽為“White”,而右邊的男性年齡為30歲,種族標簽為“Black”。
人類語言包含豐富的語義信息和先驗知識[1],然而,現有的研究都基于人臉圖像進行年齡估計[2?4]。因此,本文的目標之一是開發一種結合人類語言先驗知識進行年齡估計的模型。該模型從人臉圖像上學習視覺特征,同時也從文本提示中學習語言先驗知識,改善視覺任務的性能。
在人臉年齡估計領域,通常致力于優化單一任務以提高性能[3,5?6],然而,這種方法忽視了相近任務間改善模型性能的信息。而多任務學習能夠通過共享特征表示實現更好的泛化能力[7]。因此,本文的另一個目標是結合年齡分類[8]和序數回歸任務[3,6],提升年齡估計的性能。最后,采用加權平均和任務回歸器兩種處理多任務輸出結果的方法進行了實驗。
本文提出了一種視覺?語言多模態下的多任務人臉年齡估計方法(Multi?task Faceage Estimation in Vision?language Multimodality, VL?MTK)。該方法利用自然語言提供語義補充和上下文理解,共享底層參數以提取適用于所有任務的特征,并選擇加權平均法或任務回歸器來得出最佳的年齡估計結果。
1" 多模態特征提取
VL?MTK的結構如圖2所示。VL?MTK使用ResNet101作為圖像編碼器,并使用6層和12層Transformer分別作為文本編碼器和多模態編碼器,最大文本序列長度為30。輸入圖像為預處理后的人臉圖像,文本標簽為圖像對應的標簽(性別和種族)。
提示文本生成過程如圖3所示。首先,將文本標簽轉換為多個正、負提示文本句子。例如:A photo that depicts a female of Asian descent;然后,隨機選擇部分正、負提示文本作為輸入文本,編碼器獲取語言特征,圖像編碼器從輸入圖像中提取視覺特征。為了在訓練中對齊視覺和語言特征,引入兩個預訓練目標:圖像?文本對比學習(Image?Text Contrastive Learning, ITC)和圖像?文本匹配(Image?Text Matching, ITM)。
ITC旨在多模態融合之前學習到更好的單模態特征表示。通過訓練,ITC將具有相同語義空間的圖像?文本對映射到同一嵌入空間中。給定批次B的輸入圖像文本對(I,T),經過圖像編碼器和文本編碼器后,獲得該批次的圖像?文本的模態特征(V,W)。首先,分別對V和W進行L2正則歸一化;然后,遵循文獻[9]中的實踐,分別計算圖像到文本和文本到圖像的損失,計算公式如下:
[LI2T=expV?WTiτi=1BexpV?WTiτ] (1)
[LT2I=expW?VTiτi=1BexpW?VTiτ] (2)
式中[τ]是溫度系數。
ITC損失函數公式為:
[LITC=-12BlI2TlogLI2T+lT2IlogLT2I] (3)
式中:[lI2T]和[lT2I]分別表示圖像到文本和文本到圖像的標簽,其中負對標簽為0,正對標簽為1。
ITM旨在判斷給定圖像?文本對是否匹配。每張人臉圖像都有一個匹配的文本信息,形成圖像?文本正樣本對。同時,也會擁有多個不匹配的文本信息,形成圖像?文本負樣本對。最后,使用多模態編碼器生成圖像?文本的聯合表示,并添加一個全連接層,通過Softmax函數預測二分類概率。ITM的損失函數如下:
[LITM=lITMlogpITM] (4)
式中:[lITM]表示圖像?文本標簽;1表示正匹配,0表示負匹配;[pITM]為預測概率向量。
2" 多任務學習
2.1" 多任務人臉年齡估計
將多模態特征分別輸入到年齡分類器和序數回歸器中,進行多任務學習。設輸入數據集[D=Ii,Ti,YiNi=1],其中[Ii]、[Ti]和[Yi]分別表示第i個樣本的人臉圖像、文本信息標簽集合和年齡標簽,N為樣本數量;[Xi=Ii,Ti]為模型的輸入。
年齡分類任務通過年齡分類器來估計人的年齡。分類任務將[Xi]對應的年齡[Yi]分類為[aiKi=1](K為年齡類別數量),并通過式(5)進行優化。
[LCLS=-i=1KlCLSilogpCLSi] (5)
式中:[pCLSi]、[lCLSi]分別表示第i個類別的預測概率、真實標簽。
序數回歸任務將年齡估計分解為一系列二分類問題,最后聚合二分類結果用于年齡估計。該任務引入[gi]表示年齡[Yi]的序數等級,[gi]的排名被擴展為K-1個二進制標簽[gki],[1≤k≤K-1],且[gki∈0,1],表示排名是否超過[rk]。例如[gki=1],表示[gigt;rk]。其中,[gi∈R=r1,r2,…,rK],[rk]為有序序列,且[r1lt;r2lt;…lt;rK]。序數回歸任務通過式(6)進行優化。
[LOR=-i=1Nlogsoigi+log1-soi1-gi] (6)
式中:[oi∈O]表示所有二分類器的輸出;s(·)為Softmax函數。
本文完整的優化目標計算公式如下:
[L=w1LITM+w2LITC+w3LCLS+w4LOR] (7)
式中[wj(j=1,2,3,4)]為不同任務損失函數的權重。在多任務學習中,由于任務重要性和挑戰性不同,合理的[wj]可提高模型性能。本文對Equal、GradNorm和DWA[7]三種求[wj]的策略進行了實驗。Equal策略令[wj]=1,將不同任務平等對待;GradNorm根據任務的梯度動態調節各任務的訓練權重[wj],使各個任務的學習速度保持均衡;DWA利用任務損失的變化情況來衡量任務的學習速度。
2.2" 多任務結果融合
通過年齡分類器和序數回歸器獲得兩個年齡估計值[aCLS]和[aOR]。為了獲得可靠的年齡預測結果[a],選擇加權平均法和任務回歸器處理多任務結果。加權平均法計算公式如下所示:
[a=αaCLS+1-αaOR] (8)
式中α為權重,且0 lt; α lt; 1。
任務回歸器R以[aCLS]和[aOR]為輸入,并通過學習來融合多任務輸出,以靈活捕捉任務間的關系,公式如下:
[a=RaCLS,aOR] (9)
任務回歸器R由兩個全連接層、一個BatchNorm 1D和一個ReLU激活函數組成。這種自適應學習方法提供了更大的靈活性,使模型根據輸入數據的特點自動學習權重。R單獨進行反向傳播和更新,并通過式(10)中的Smooth L1 Loss進行優化。
[Smoothc=0.5c2," " " "clt;0c-0.5,其他" "] (10)
式中c為預測年齡與真實年齡的差。
3" 實" 驗
3.1" 數據集
IMDB?WIKI包含超過50萬張圖像,年齡標簽范圍為0~100歲。其中,IMDB包含460 723張圖像,WIKI包含62 328張圖像。本文去除了標注日期錯誤和低質量的圖像,最終得到224 840張圖像,其中IMDB占182 246張,WIKI占38 602張。
UTK?FACE有20 000多張人臉圖像,包含年齡、性別和種族信息。年齡范圍為0~116歲,圖像多樣性高,包括姿勢、表情、光照、遮擋、分辨率等變化。
Morph Ⅱ有55 000多張人臉圖像,來自約13 000個人,包含年齡、性別和種族信息,年齡范圍為16~77歲。實驗采用了兩種流行的評估協議[3?4],即Setting 1和Setting 2。Setting 1將數據集劃分為三個不重疊的子集 S1、S2、S3,進行兩次重復訓練和測試:在S1上訓練,在S2+S3上測試;在S2上訓練,在S1+S3上測試。最后取這兩個實驗的平均值。
Setting 2以8∶2比例隨機劃分為訓練集和測試集。
3.2" 評價指標
人臉年齡估計通常使用平均絕對誤差(Mean Absolute Error, MAE)和累積分數(Cumulative Score, CS)作為評價指標,計算公式如下:
[MAE=1Ni=1Nyi-yi] (11)
[CS=NθN′] (12)
式中:[yi]和[yi]分別為第i張人臉圖像的真實年齡與估計年齡;N為人臉圖像總數;[Nθ]表示測試集中預測年齡和真實年齡的絕對誤差不超過[θ]年的圖像數量,本文[θ]設置[3?4]為5;[N′]為測試集圖像總數。
3.3" 實驗環境及參數設置
本文實驗環境基于Ubuntu 20.04、PyTorch 1.11.0和NVIDIA GeForce RTX 3090(24 GB)。使用Retinaface[10]進行人臉對齊,并將圖像大小調整為224[×]224。使用 IMDB?WIKI 數據集進行預訓練,使用AdamW優化模型,批處理大小為64,動量為0.9。在視覺?語言多模態部分,初始學習率為0.000 1,權重衰減為0.001。任務回歸器的初始學習率和權重衰減分別設為0.001和0.000 05。
3.4" 實驗結果及分析
1) 多任務損失平衡策略的比較
使用VL?MTK(R)在UTK?FACE和Morph Ⅱ(Setting 2)上評估了Equal、GradNorm和DWA三種多任務損失平衡策略的MAE,結果見表1。其中,VL?MTK(R)表示VL?MTK使用任務回歸器R融合多任務結果。
由表1可知,DWA策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,取得了最佳結果。相較于Equal策略,MAE分別降低了2.41%和1.35%,與GradNorm策略相比,MAE分別降低了7.95%和12.75%。DWA策略根據任務的學習進展動態調整權重,有助于平衡不同任務之間的學習,與本文的任務最為契合。
GradNorm策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.40和2.51。該策略通過調整任務損失的變化速率來平衡權重,在相近任務學習中表現良好。然而,ITM和ITC任務與兩個年齡估計子任務差異較大,因此性能表現不佳。
Equal策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.15和2.22,性能略低于DWA策略。Equal策略對每個任務同等對待,可能導致ITC和ITM在訓練過程中占主導地位,從而抑制了兩個年齡估計子任務的學習。
綜上,在后續的多任務學習實驗中,本文采用DWA策略來平衡多任務損失。
2) 語言先驗知識對年齡估計的影響
本文在UTK?FACE和MorphⅡ(Setting 2)上評估了不同提示文本情況下的MAE,結果如表2所示。其中,ResNet101?MTK為基于ResNet101的多任務人臉年齡估計,不含文本提示信息;VL?MTK(R)amp;gender和VL?MTK(R)amp;race分別表示VL?MTK(R)的輸入提示文本僅包含性別或種族信息;VL?MTK(R)表示輸入提示文本包含了性別和種族信息。
由表2可知,VL?MTK(R)在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,獲得了最優的結果。相較于ResNet101?MTK,分別降低了37.79%和28.43%。同時,與VL?MTK(R)amp;gender相比,分別降低了3.80%和2.23%;與VL?MTK(R)amp;race相比,分別降低了2.88%和2.67%。
VL?MTK(R)amp;gender MAE達到了4.21和2.24,相較于ResNet101?MTK,分別降低了35.33%和26.80%。VL?MTK(R)amp;race取得了4.17和2.25的MAE,與ResNet101?MTK相比,分別降低了35.94%和26.47%。說明即便只使用少量的語言先驗知識,也能取得比單模態更好的效果。當不使用任何提示文本信息,ResNet101?MTK在UTK?FACE和Morph Ⅱ上分別取得了6.51和3.06的MAE,效果最差。
在UTK?FACE上,與VL?MTK(R)amp;gender 相比,VL?MTK(R)amp;race的MAE降低了0.95%;而在Morph Ⅱ上,與VL?MTK(R)amp;race相比,VL?MTK(R)amp;gender的MAE降低了0.44%。造成這種差異的原因是Morph Ⅱ主要由非洲裔美國人組成,而UTK?FACE的種族分布相對均衡??傮w而言,通過提供更多的語言先驗知識,能夠獲得更好的結果。
3) 單任務與多任務對比
本文在UTK?FACE和Morph Ⅱ(Setting 2)上評估了VL?CLS、VL?OR和VL?MTK(R)的MAE,結果如表3所示。其中,VL?CLS表示年齡分類任務,VL?OR表示序數回歸任務,VL表示視覺?語言多模態模型。
由表3可知:VL?MTK(R)在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,相較于VL?CLS分別降低了15.80%和17.98%;與VL?OR相比,降低了9.40%和7.59%。這表明多任務學習綜合利用年齡分類和順序信息,提升了年齡估計性能,充分證明了多任務學習在年齡估計領域的有效性。
4) 多任務結果融合實驗
本文使用加權平均法和任務回歸器整合多任務輸出,并在UTK?FACE和MorphⅡ(Setting 1和2)上評估了兩種方案的MAE,結果如圖4所示,橫坐標表示多任務結果融合方法,其中0.1~0.9表示加權平均值法的加權系數α,間隔為0.1;R表示任務回歸器;縱坐標為MAE。
由圖4可知,UTK?FACE和Morph Ⅱ上的曲線都相對平緩,表明模型預測結果穩定,不同融合方式都能取得不錯的結果。在UTK?FACE上,VL?MTK(R)取得了4.05的MAE,優于VL?MTK(α=0.1)的4.09。在Morph Ⅱ(Setting 1)上,VL?MTK(α=0.8)取得了2.48的MAE,優于VL?MTK(R)的2.5。在Morph Ⅱ(Setting 2)上,VL?MTK(α=0.1)取得了2.18的MAE,優于VL?MTK(R)的2.19。這意味著對于加權平均法來說,不同數據集甚至同一數據集的不同劃分方式,最佳結果對應的α取值都不確定,需要多次嘗試。隨著任務數量的增加,確定合適的α變得困難。
盡管VL?MTK(R)在Morph Ⅱ上未達到最優結果,但取得了次優結果。因此,如果不追求最優結果,使用任務回歸器方法會更簡單方便。
5) 與其他先進方法對比
本文比較了所提方法與其他先進方法在UTK?FACE上的MAE,以及在Morph Ⅱ(Setting 1和2)上的MAE、CS,結果如表4~表6所示。
根據表4,VL?MTK(R)取得了4.05的MAE,比表中最先進方法降低了7.32%,取得了最佳結果。其中,Coral、Randomized Bins和MWR采用序數回歸方法,EB?DPR使用回歸方法。雖然這些方法在不同程度上都提高了年齡估計性能,但都基于單模態和單任務,未利用語言先驗知識和多任務學習的優勢。
根據表5,VL?MTK(α=0.8)取得了2.48的MAE和90.5%的CS值。與最先進的DRC?ORID方法相比,MAE降低了1.20%;與最先進的MWR相比,CS提升了0.11%,同樣獲得了最佳結果。
根據表6,VL?MTK(α=0.1)的MAE為2.18,CS為93.16%,雖未達到最佳效果,但也取得了顯著成果。隨機劃分方式會導致個體信息泄漏,即同一人的圖像同時存在于訓練集和測試集,而其他先進方法專注于圖像本身,能更好地捕捉相關性特征。相比之下,本文方法結合了種族和性別信息,隨機劃分方式加劇了性別和種族分布不平衡,從而限制了對更深入特征的學習。然而,這也說明了該模型對不同數據集劃分方式具有魯棒性。
4" 結" 論
本文利用自然語言為年齡估計提供語義補充和上下文理解,與視覺單模態相比,在UTK?FACE和Morph Ⅱ(Setting 2)上MAE分別降低了37.79%和28.43%。采用多任務學習方法將年齡分類任務和序數回歸任務相結合,相比僅使用年齡分類和序數回歸任務相比,MAE分別降低了15.80%、17.98%和9.40%、7.59%。最后,研究了兩種多任務結果融合方法:加權平均法和任務回歸器。加權平均法隨著任務數量增多,很難確定合適的系數,任務回歸器不一定能獲得最佳結果,但其適用于各種多任務結果融合場景,且無需額外處理。
本文方法具有進一步提升性能的潛力:提供更多圖像信息,例如表情、化妝等;采用更先進的多任務損失平衡策略;利用多模態領域的大型數據集進行預訓練;開發適用于年齡估計任務的多模態數據集。
注:本文通訊作者為池靜。
參考文獻
[1] RADFORD A, KIM J W, ALLACY C, et al. Learning transferable visual models from natural language supervision [C]// International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748?8763.
[2] 杜希婷,張德,甄慶凱.基于改進殘差網絡的人臉表觀年齡估計[J].傳感器與微系統,2023,42(5):135?138.
[3] SHIN N H, LEE S H, KIM C S. Moving window regression: a novel approach to ordinal regression [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 18760?18769.
[4] LEE S H, KIM C S. Deep repulsive clustering of ordered data based on order?identity decomposition [EB/OL]. [2023?08?04]. https://www.xueshufan.com/publication/3123977792.
[5] LI W, LU J, FENG J, et al. Bridgenet: a continuity?aware probabilistic network for age estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE, 2019: 1145?1154.
[6] CAO W, MIRJALILI V, RASCHKA S. Rank consistent ordinal regression for neural networks with application to age estimation [J]. Pattern recognition letters, 2020, 140: 325?331.
[7] LIU S, JOHNS E, DAVISON A J. End?to?end multi?task learning with attention [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE, 2019: 1871?1880.
[8] KARKKAINEN K, JOO J. Fairface: face attribute dataset for balanced race, gender, and age for bias measurementand mitigation [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision [S.l.]: IEEE," 2021: 1548?1558.
[9] LI J, SELVARAJU R, GOTMARE A, et al. Align before fuse: Vision and language representation learning with momentum distillation [J]. Advances in neural information processing systems, 2021, 34: 9694?9705.
[10] DENG J, GUO J, VERVERAS E, et al. Retinaface: Single?shot multi?level face localisation in the wild [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 5203?5212.
[11] GUSTAFSSON F K, DANELLJAN M, BHAT G, et al. Energy?based models for deep probabilistic regression [C]// Computer Vision?ECCV 2020: 16th European Conference. Glasgow, UK: ECCV, 2020: 325?343.
[12] BERG A, OSKARSSON M, O'CONNOR M. Deep ordinal regression with label diversity [C]// 2020 25th International Conference on Pattern Recognition (ICPR). [S.l.]: IEEE, 2021: 2740?2747.
[13] WEN X, LI B, GUO H, et al. Adaptive variance based label distribution learning for facial age estimation [C]// Computer Vision?ECCV 2020: 16th European Conference. Glasgow, UK: ECCV, 2020: 379?395.
[14] LIM K, SHIN N H, LEE Y Y, et al. Order learning and its application to age estimation [C]// 2020 International Conference on Learning Representations. Addis Ababa: ICL, 2020: 1210?1220.
[15] ZHANG C, LIU S, XU X, et al. C3AE: exploring the limits of compact model for age estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 12587?12596.