張建軍 趙小明 何亞東 文虹茜 卿粼波



摘 要 ???:視覺情感分析旨在分析人們對視覺刺激的情感反映,近年來受到了共享平臺和網絡社交等多媒體視覺數據相關領域的關注.傳統的圖片情感分析側重于單標簽的情感分類,忽略了圖片表達的情感的復雜性和圖像潛在的情緒分布信息,不能體現出圖片所表達的不同情緒之間的相關性.針對以上問題,首先采用ViT和ResNet網絡進行全局和局部融合的多尺度情感特征提取,通過主導情緒分類和標簽分布學習進行圖片情感識別,充分表征圖片的復雜情感.在公開的Flickr_LDL數據集和Twitter_LDL數據集上取得了顯著的效果,證明了提出方法的有效性.
關鍵詞 :視覺情感分析; 深度學習; 標簽分布學習; 圖片情感
中圖分類號 :TP391.4 文獻標識碼 :A DOI : ?10.19907/j.0490-6756.2023.043002
Image emotion distribution learning based on multi-scale feature fusion
ZHANG Jian-Jun ?1, ZHAO Xiao-Ming ?1, HE Ya-Dong ?1, WEN Hong-Qian ?2, QING Lin-Bo ?2
(1. CHN ENERGY Dadu River Dagangshan Power Generation Co., Ltd, Yaan 625409, China;
2.College of Electronics and Information Engineering, Sichuan University, Chengdu 610065, China)
Visual emotion analysis aims to analyze the emotional response of human beings to visual stimuli, which has attracted multimedia visual data related fields such as sharing platforms and social networking in recent years. Traditional image emotion analysis focuses on the classification of single label emotions, ignoring the complexity of emotions expressed in pictures and the potential emotional distribution information of images, and failing to reflect the correlation between different emotions expressed in pictures. To solve the above problems, ViT and Resnet networks are used to extract multi-scale emotional features with global and local fusion, and the label distribution learning method is used for image emotion prediction. Significant results are achieved on the public available Flickr_LDL dataset and Twitter_LDL dataset, which demostrate the effectiveness of the proposed method.
Visual emotion analysis; Deep learning; Label distribution learning; Image emotion
1 引 言
理解圖像輪廓和色彩中隱含的情感表達一直以來受到藝術與心理學領域的關注,隨著互聯網的發展,視覺情感分析成為計算機視覺領域的一個重要課題 ?[1,2],應用在美學分析、智能廣告和社交媒體輿情檢測等 ?[3-6]眾多領域.為了分析圖片表達的情感,需要對圖片進行情緒標注,通過手工設計或深度學習的方法提取圖片的特征,完成情緒的識別與歸類,并在此基礎上做進一步的分析.目前大部分的方法忽略了圖片隱含的情緒分布信息,如何有效提取圖片的情感特征也是一個亟待解決的問題.
視覺特征的提取是圖片情緒識別的重要內容 ?[1].傳統的視覺情緒識別使用底層特征和中高層特征 ?[7-8].底層視覺特征包括顏色、構圖、形狀和紋理等多維度的信息,需要針對不同類型的圖片設計不同的特征.Machajdik等 ?[9]通過手工提取關于藝術和心理學相關理論的視覺特征組合.Lu等 ?[10]研究了圖像的紋理特征對情緒的影響.Zhao等 ?[11]根據藝術原則設計了更健壯的視覺特征組.這些手工制作的視覺特征在一些小的數據集上被證明是有效的 ?[1].底層視覺特征與人類感知的高層情感語義之間存在一定差異,因此一些研究者開始嘗試構建中層語義特征或更高維的特征.Borth等 ?[12]利用中層語義信息作為情感的中間表征,統計詞袋的方法 ?[13]也被應用于圖像語義分類.隨著深度學習的發展 ?[14-18]和多媒體數據的日漸豐富,使用數據驅動學習的深度表征在圖片情感分析中取得了顯著的效果 ?[19,20].You等 ?[21]設計了一種魯棒的漸進CNN架構模型——PCNN,用于視覺情感分析.Rao等 ?[22]提出一種多層次的深度網絡(MldeNet),用于統一圖像的低級和高級信息.Tripathi等 ?[23]提出FTEC-net,用于解決三個高度相關的情緒分析任務:情緒識別、情緒回歸和情緒導向.
雖然已經有很多方法在學習挖掘圖片的情感特征,但是大部分方法忽略了情感的復雜性,只預測主導情緒.然而實際的網絡圖片種類多樣,圖片中包含的元素豐富,僅使用單一情緒解釋圖片的情感表達比較困難.目前常用的標簽分配方式有單標簽學習和多標簽學習 ?[1].多標簽學習雖然在一定程度上解決了標簽模糊的問題,但也存在局限性,無法體現不同標簽的相對重要性.而標簽分布學習(Label Distribution Learning, ?LDL)是一種更細致的標簽分配方式,更適合具有模糊性的圖片情感分析 ?[24-26].標簽分布學習描述了不同標簽對同一實例的重要程度,是單標簽學習和多標簽學習的通用模式.標簽分布學習具有更靈活的輸出空間,也更具挑戰,過于最小化預測和真實值間的散度可能會混淆主導標簽.
傳統的標簽分布學習方法包括問題轉換、算法自適應和專用算法三種策略 ?[27,28].近年來,基于CNN的標簽分布學習方法也不斷被提出 ?[1,2,29-32]并應用于圖片情感分析領域.Gao等 ?[33]使用深度標簽分布學習(DLDL),在特征提取和分類中利用標簽歧義防止網絡過擬合,在小數據集上取得了良好的性能.Peng等 ?[30]提出卷積神經網絡回歸(CNNR)處理圖片情感標簽分布問題,該方法對每個情感類別都有歐氏損失,將回歸結果歸一化為所有情緒的概率,但是該方法對每一類情緒構建損失,網絡參數復雜.CSR ?[2]、SSDL ?[31]和E-GCN ?[29]利用情感理論先驗知識,使用情感極性、情感強度和情感間的相關性等信息進行情緒分布學習,但是沒有充分考慮圖片本身不同尺度特征的關聯.
本文針對單一情緒無法充分表征圖片情感的問題,采用標簽分布學習進行圖片情感分析,更好地實現了圖片實例到情感空間的映射;針對圖片中情感特征的提取,使用ViT和ResNet網絡進行多尺度特征提取并進行特征層融合;最終實現標簽分布預測和主導情緒分類兩個任務.與之前的研究相比,本文的方法在大型公開數據集Flickr_LDL和Twitter_LDL上取得了很好的效果.
2 圖片情感分布學習
目前圖片情感分析研究一般是基于圖片整體的視覺特征 ?[34],并且忽略了情感分析問題的主觀性.針對這些問題,本文提出如圖1所示的基于ViT的多尺度融合圖片情感分析模型.對于全局尺度,使用基于視覺的Transformer通道提取圖片中的情感特征和關系特征,學習由于卷積操作的限制而遺漏的部分全局性特征向量.同時,表征的深度對于視覺識別任務至關重要 ?[35],因此,對于局部尺度,使用基于殘差結構的ResNet卷積架構進行深層信息的提取.最后使用Transformer編碼器網絡融合推理不同尺度特征間的相互聯系并同時進行主導標簽分類任務和標簽分布預測任務,得到最終的結果.
2.1 特征提取
2.1.1 全局特征 ?圖片的全局特征能表征圖像的整體屬性,包含了完整的情感特征,但是各部分之間全局性的聯系容易被人們忽略,卷積操作中感受野的局部相關性也使部分大尺度特征被遺漏.為了提取有效的全局情感特征,本方法引入在ImageNet ?[36]上預訓練ViT網絡 ?[37]作為特征提取的骨干網絡.基于Transformer架構的ViT 是基于多頭自注意力機制的一種神經網絡,利用自注意力機制可以有效提取全局性特征,ViT網絡結構如圖2所示.
具體來說,使用四通道ViT對圖片進行特征提取再整合,獲得全局特征信息.ViT首先進行分塊和平展,并使用可訓練的線性投影將其映射輸出,成為固定大小的補丁嵌入.為了補充分割圖塊時丟失的位置信息,在每一個圖塊補丁前加上位置嵌入,如圖2所示.其中,位置中的0是額外增加的可學習嵌入[*].最終的嵌入向量序列作為Transformer編碼器的輸入,基于自注意力機制提取相關特征.輸出的向量序列與輸入序列長度相同,其中位置0得到了所有圖塊之間的相關性.最終整合的大尺度情感特征有效表征了圖片各部分之間的關聯信息和全局信息.
2.1.2 局部特征 ?多數圖片中局部的重要性不同 ?[38],因此在提取圖片情感特征時有必要考慮到局部信息.圖片情感分析研究中提取的特征一般包含低層視覺內容、中層語義和深度特征.傳統手工特征包括顏色、紋理和形狀輪廓等,但是隨著數據量增大和數據內容豐富度增加,深度特征更能表征抽象的局部情感特征,也更加具有魯棒性.因此本文采用基于殘差結構的ResNet卷積架構進行深層情感特征的提取,圖3所示是ResNet中基本殘差單元的結構示意圖.表征的深度對于視覺識別任務是至關重要的 ?[35],而ResNet網絡結構可以通過堆疊基本殘差單元來加深網絡的深度,在增加表征深度時避免因網絡過深產生梯度爆炸等問題.
2.1.3 特征融合 ?為了融合提取的不同尺度的特征,使用具有推理多個輸入內在關系能力的Transformer編碼器網絡,綜合挖掘圖片的情感信息.Transformer編碼器的輸入為特征提取模塊中提取的五個特征向量以及一個額外添加的可學習嵌入塊,學習最終的主導情緒分類和標簽分布預測信息.
2.2 分布學習
現有的大多數圖片情感分析工作往往使用單標簽預測主導情緒的類別,簡化了情緒的復雜度.多標簽中一個實例具有多個標簽,但是標簽沒有權重,標簽之間的相對重要性無法體現.而標簽分布學習對實例的描述包括各個標簽的程度,表示該標簽相對于示例的重要程度.
圖4為三種標簽分配方式示例,圖片及標注來自Flickr_LDL ?[32]數據集.由于情感的主觀性和復雜性,不同的人對同一張圖片的情感有不同的判斷,同一個人對同一張圖片也可能有多種情感產生,包括主導情緒和其他情緒.例如對圖4左邊的風景,多數人會感到敬畏,也有人會產生愉快、激動等情緒.而單標簽和多標簽都不能充分表現圖片情感的特征與聯系.因此,使用標簽分布學習更能描述情感的模糊性與情感間的聯系.Kullback-Leibler (KL) ?[39]loss是用于分布學習的損失函數,能衡量由于預測分布與標記分布不一致而導致的信息損失,見式(1).
L=- 1 N ∑ ?N ?i=1 ∑ ?C ?j=1 ?y ??ij ln ??y ︿ ???ij ?(1)
其中, y 表示從數據集標記的情緒分布; ?y ︿ ?表示預測的情緒分布; N 表示特定數據集中圖片的數量; C 表示所涉及的情感類別.
3 實驗結果與分析
3.1 數據集
本文在兩個大型公共圖片情感分布數據集上評估了提出的方法:Flickr_LDL和Twitter_LDL ?[32].FlickrLDL和TwitterLDL是兩個主要用于情緒分布學習的數據集,它們的標簽屬于典型的八種情緒分類:anger、 amusement、awe、contentment、disgust、excitement、fear和sadness.Flickr_LDL包含11 150張圖片,Twitter_LDL包含 10 045張圖片,多名參與者根據8種情緒對這些圖像進行了標記,標記通常將歸一化為概率值作為情感分布的真實值標簽.
3.2 實施細節
在實驗中,深度骨干網絡使用Resnet-101 ?[35]架構,在大規模視覺識別數據集ImageNet ?[36]上進行預訓練,取消最后一層輸出分類的全連接層.局部特征骨干網絡使用ViT ?[37]預訓練的網絡架構,更改輸出特征為1024維,與深度特征融合后輸入全連接層.Flickr_LDL和Twitter_LDL被隨機分割為訓練集(80%)和測試集(20%).對于訓練/測試集,將圖像統一調整為500×500后隨機裁剪到224×224,并以0.5的概率進行水平翻轉.網絡以端到端方式訓練,使用KL loss和交叉熵進行學習.初始學習率為0.001,每10個回合除以10,總回合數為50,網絡整體參數量約為500 M.網絡框架使用PyTorch實現,實驗環境為Ubuntu 18.04,NVIDIA GTX 3090Ti GPU.
3.3 與其他方法對比
為了驗證所提出模型的有效性,將其與之前的研究方法進行了比較,主要分為以下四種類型.
(1) 問題轉換(Problem Transformation, PT).PT-Bayes和PT-SVM基于傳統的分類方法SVM和Naive Bayes,將標簽分布學習問題轉化為加權的單標簽學習問題 ?[27].
(2) 算法自適應(Algorithm Adaptation, AA).將傳統的機器學習算法kNN和BP神經網絡擴展到處理標簽分布學習,分別用AA-knn和AA-BP表示 ?[27].
(3) 專用算法(Specialized Algorithm, SA).根據標簽分布學習的特性設計的算法,包括SA-IIS ?[28]、SA-BFGS ?[27]和SA-CPNN ?[28].SA-IIS采用了一種類似于改進迭代縮放的策略,假設每種情緒的概率為最大熵模型.基于IIS的SA-BFGS采用了一種有效的擬牛頓方法改進優化.SA-CPNN是條件概率神經網絡.
(4) 基于CNN的方法(CNN-based).CNNR ?[30]使用歐幾里德損失進行學習.DLDL ?[33]使用KL散度作為損失函數.ACPNN ?[32]基于條件概率神經網絡進行改進,將圖像標簽編碼成二進制表示來代替CPNN中使用的無符號整數,并加入噪聲和增強情感分布進行訓練.JCDL ?[1]通過優化KL loss和softmax loss聯合學習視覺情感的分布和分類.SSDL ?[31]采用結構化稀疏標注框架,考慮了情感的極性和強度特征.E-GCN ?[29]用圖卷積網絡捕獲情緒之間的相關性進行情緒分布學習.CSR ?[2]使用先驗知識,構建環形情感向量表征并用于損失學習.
根據文獻[27]的建議,實驗中使用了6種分布學習測量方法對結果進行評價.其中,距離度量包括Chebyshev距離(↓)、Clark距離(↓)、Canberra度量(↓)和KL散度(↓).相似性度量包括Cosine系數(↑)和Intersection相似性(↑).向下的箭頭表示越低越好,向上的箭頭表示越高越好.此外,Clark距離和Canberra度量的最大值由情緒類別數決定,為進行標準化比較,與之前的工作采用一樣的操作:將Clark距離除以情緒類別數的平方根,將Canberra度量除以情緒類別數.此外,進一步引入top-1準確度作為評價指標,對主導情緒的預測情況進行比較.
實驗結果如表1和表2所示,表中括號內為指標排名,最好結果加下劃線.從表中可以看出,在兩個公開的圖片情感分布數據集上,不同類型的方法有明顯不同的實現效果.基于問題轉換的方法(PT)將復雜的標簽分布任務轉化為簡單的單標簽任務,然而對于分布間相關性的學習可能不敏感,因此六個指標的平均排名(Average Rank)和主導標簽分類準確度排名都基本處于最后.基于算法自適應的方法(AA)在已有的機器學習算法上進行拓展,其中kNN算法特別適合多分類問題,特別是對類域的交叉或重疊較多的待分樣本集,因此在Clark距離和Canberra度量兩個指標上取得了極好的結果.專用算法(SA)是為特定的標簽分布問題設計,充分考慮了標簽分布問題的特性,取得了不錯的結果.與傳統方法相比,基于CNN的方法(CNN-based)獲得了顯著的性能提升,證明了其在特征提取方面的優勢.而本文提出的方法綜合考慮了局部深層特征和全局特征與其之間的相關性,在兩個廣泛使用的數據集上都獲得了更好的分類和分布結果,證明了所提方法的優越性.
數據集預測實例如圖5所示,分別展示了實驗結果中預測效果的正反例.可以看出,圖5a中對于主導情緒Contentment和整體情緒分布的預測都比較準確;而圖5b中對于主導情緒Fear和情緒分布的預測都有所偏差,情緒分布中近似出現了兩個峰值.說明圖片中多種元素的風格一致性會對分布結果產生一定影響,圖5b中的黑貓和花朵兩類元素對比較為強烈,影響了識別結果.同時也說明了對于同一張圖片,其表現的情緒較為復雜,如何準確檢測圖片情緒需要進一步研究.
3.4 消融實驗
為了驗證所提出 模型中各個模塊的有效性,本文設計了消融實驗.實驗包括三個部分,第一部分使用在ImageNet上預訓練Resnet-101網絡和單標簽分類常用的交叉熵進行學習;第二部分增加ViT通道提取特征;第三部分增加KL損失學習分布特征.
實驗結果如表3所示,消融實驗在Flickr_LDL和Twitter_LDL兩個數據集上都表現出了相似的效果.具體而言,僅使用ResNet網絡進行特征提取和學習時結果很差,標簽分布預測的六個指標和主導情緒分類的準確率指標都沒有達到很好的結果.在融入ViT模塊進行特征提取后,主導情緒分類的準確率有了明顯的提升,但是分布學習指標結果變差.表明ViT能提取更多的抽象情感特征,彌補局部特征的不足,實現更高的主導情緒分類準確率,但是沒有考慮其他非主導情緒之間的相關性,對于標簽分布學習還存在局限性.在加入KL損失函數模塊后,主導情緒分類準確率和分布學習指標都有提升,所有指標達到了最佳結果.表明了KL損失模塊對于標簽分布預測的有效性,并且提高分布學習的預測效果的同時也提高了主導情緒分類的準確率.最終提出的模型取得了最好的分布預測結果和分類結果,證明了模型的有效性和模型各部分的必要性.
4 結 論
針對圖片情感分析研究中單一情緒無法表征具有模糊性的圖片情緒的分布問題和對圖片的視覺情感特征提取不夠充分的問題,本文使用ViT和Resnet網絡進行多尺度情感特征提取并進行特征層融合推理,實現標簽分布預測和主導情緒分類兩個任務.消融實驗和對比實驗的結果表明,ViT能提取更多的全局抽象情感特征,彌補局部深層特征的不足;KL損失模塊在優化標簽分布預測結果的同時沒有抑制主導情緒分類的識別效果,進一步提升了主導情緒分類的準確率;最終模型在廣泛使用的Flickr_LDL和Twitter_LDL數據集上對于標簽分布預測和主導情緒分類兩個任務都取得了良好結果,證明了所提出模型的有效性.我們會繼續研究情緒特征的更多表示方法,進一步優化圖片情感特征提取方法.
參考文獻:
[1] ??Yang J, She D, Sun M. Joint image emotion classification and distribution learning via deep convolutional neural network [C]// Proceedings ?of the 26th International Joint Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 3266.
[2] ?Yang J Y, Li J, Li L D, ?et al. ?A circular-structured representation for visual emotion distribution learning [C]// Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 4235.
[3] ?Chen Q, Zhang W, Zhou N, ?et al . Adaptive fractional dilated convolution network for image aesthetics assessment [C]//Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 14114.
[4] ?Hosu V, Goldlucke B, Saupe D. Effective aesthetics prediction with multi-level spatially pooled features [C]// Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 9375.
[5] ?Sidorov O. Changing the image memorability: from basic photo editing to GANs [C] // Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2019.
[6] ?Li Z, Fan Y, Jiang B, ?et al . A survey on sentiment analysis and opinion mining for social multimedia[J]. Multimed Tools Appl, 2019, 78: 6939.
[7] ?王仁武, 孟現茹. 圖片情感分析研究綜述[J]. 圖書情報知識, 2020, 195: 121.
[8] ?杜茂康, 李曉光, 劉崠. ?融合遺傳算法的特定領域情感詞庫構建 [J].重慶郵電大學學報: 自然科學版, 2022, 34: 576.
[9] ?Machajdik J, Hanbuby A. Affective image classification using features inspired by psychology and art theory [C]// Proceedings ?of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 83.
[10] ?Lu X, Suryanarayan P, Adams Jr R B, ?et al . On shape and the computability of emotions [C]// Proc of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 229.
[11] Zhao S, Gao Y, Jiang X, ?et al . Exploring principles-of-art features for image emotion recognition [C]// Proceedings ?of the 22 th ACM International Conference on Multimedia. New York: ACM Press, 2014: 47.
[12] Borth D, Ji R, Chen T, et al . Large-scale visual sentiment ontology and detectors using adjective noun pairs [C]// Proceedings ?of the 21 th ACM International Conference on Multimedia. New York: ACM Press, 2013: 223.
[13] Lu Z, Wang L, Wen J R. Image classification by visual bag-of-words refinement and reduction[J].Neurocomputing, 2016, 173: 373.
[14] 文虹茜, 卿粼波, 晉儒龍, 等. 基于表情及姿態融合的情緒識別[J]. 四川大學學報:自然科學版, 2021, 58: 043002.
[15] 王化明, ?劉茂興, ?熊峻峰, ?等. 基于深度學習的牙刷姿態識別方法[J]. 江蘇大學學報: 自然科學版, 2021, 42: 298.
[16] 李婷婷, 胡玉龍, 魏楓林. ?基于GAN改進的人臉表情識別算法及應用[J]. 吉林大學學報: 理學版, 2020, 58: 605.
[17] 楊宇, 崔陶. 基于深度學習和水平集的彩色圖像分割方法[J]. 四川大學學報:自然科學版, 2021, 58: 041004.
[15] 晉儒龍, 卿粼波, 文虹茜. 基于注意力機制多尺度網絡的自然場景情緒識別[J]. 四川大學學報:自然科學版, 2022, 59: 012003.
[19] Chen M, Zhang L, Allebach J P. Learning deep features for image emotion classification [C]// Proceedings of IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2015: ?4491.
[20] Zhao S, Zhao X, Ding G, ?et al . Emotiongan: unsupervised domain adaptation for learning discrete probability distributions of image emotions [C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1319.
[21] You Q, Luo J, Jin H, ?et al . Robust image sentiment analysis using progressively trained and domain transferred deep networks [C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 381.
[22] Rao T, Li X, Xu M. Learning multi-level deep representations for image emotion classification[J].Neural Process Lett, 2020, 51: 2043.
[23] Tripathi S, Acharya S, Sharma R D, ?et al . Using deep and convolutional neural networks for accurate emotion classification on DEAP dataset [C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 4746.
[24] Chen S, Wang J, Chen Y, ?et al . Label distribution learning on auxiliary label space graphs for facial expression recognition [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: ?13984.
[25] Zhang Z, Lai C, Liu H, ?et al . Infrared facial expression recognition via Gaussian-based label distribution learning in the dark illumination environment for human emotion detection [J]. Neurocomputing, 2020, 409: 341.
[26] Zhao Z, Liu Q, Zhou F. Robust lightweight facial expression recognition network with label distribution training [C]//Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 3510.
[27] Geng X. Label distribution learning[J]. IEEE T Knowl Data En, 2016, 28: 1734.
[28] Geng X, Yin C, Zhou Z H. Facial age estimation by learning from label distributions[J]. IEEE T Pattern Anal, 2013, 35: 2401.
[29] He T, Jin X. Image emotion distribution learning with graph convolutional networks [C]//Proceedings of the 2019 on International Conference on Multimedia Retrieval. New York: ACM Press, 2019: 382.
[30] Peng K C, Chen T, Sadovnik A, ?et al . A mixed bag of emotions: model, predict, and transfer emotion distributions [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 860.
[31] Xiong H, Liu H, Zhong B, ?et al . Structured and sparse annotations for image emotion distribution learning [C]// Proceedings of the 33th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 363.
[32] Yang J, Sun M, Sun X. Learning visual sentiment distributions via augmented conditional probability neural network [C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 224.
[33] Gao B B, Xing C, XIE C W, ?et al . Deep label distribution learning with label ambiguity [J]. IEEE T Image Process, 2017, 26: 2825.
[34] 孟祥瑞, 楊文忠, 王婷. 基于圖文融合的情感分析研究綜述[J]. 計算機應用, 2021, 41: 307.
[35] He K, Zhang X, Ren S, ?et al . Deep residual learning for image recognition [C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770.
[36] Deng J, Dong W, Socher R, ?et al . Imagenet: A large-scale hierarchical image database [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 248.
[37] Dosovitskiy A, Beyer L, Kolesnikov A, ?et al . An image is worth 16x16 words: ?transformers for image recognition at scale[EB/OL].[2022-07-01].https:∥ arxiv.org/pdf/2010.11929v1.pdf.
[38] Sun M, Yang J, Wang K, ?et al . Discovering affective regions in deep convolutional neural networks for visual sentiment prediction [C]// Proceedings of IEEE International Conference on Multimedia and Expo. Piscataway: IEEE Press, 2016: 1.
[39] Kullback S, Leibler R A. On information and sufficiency [J]. Ann Math Stat, 1951, 22: 79.