盧克斌,殷守林










摘要:情感識別是計算機視覺研究中的一個熱點,研究中國畫表現的情感對于作品鑒賞工作具有重要意義。為了提高識別性能,針對傳統卷積神經網絡用于提取中國畫的局部區域信息會導致有效信息丟失的問題,文章提出一種基于端到端弱監督學習網絡方法對中國畫情感進行識別。提出的學習網絡由2個分類模塊和1個情感強度預測模塊組成。首先,在改進特征金字塔網絡的基礎上構建強度預測通道,提取多層次特征。使用基于梯度的類激活映射技術從第一個分類通道生成偽強度映射圖,以指導提出的網絡進行情感強度學習。將預測的強度圖輸入到第二分類通道中進行最終的中國畫情感識別。最后,在公開數據集上對提出的方法進行了驗證,實驗結果表明,所提出的網絡就混淆矩陣、平均分類準確率、平均情感識別率分別提高了10%,15%和13%。
關鍵詞:中國畫情感識別;端到端弱監督學習網絡;情感強度圖;基于梯度的類激活映射
DOI:10.15938/j.jhust.2022.01.010
中圖分類號: TP399? ? ? ? ?文獻標志碼: A? ? ? ? ? 文章編號: 1007-2683(2022)01-0069-10
Chinese Paintings Emotion Recognition Based on Endtoend
Weakly Supervised Learning Network Model
LU Kebin1,2,YIN Shoulin3,4
(1College of Applied Engineering, Henan University of Science and Technology, Sanmenxia 472000, China;
2Sanmenxia Polytechnic, Sanmenxia 472000, China;
3School of Electronics and Information Engineering, Harbin Institute of Technology, Harbin 150001, China;
4Institute of Imaging and Information Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract:Emotion recognition research is a hot spot in computer vision, and the study of Chinese painting emotion is of great significance to the appreciation of works In order to improve the recognition performance, the traditional convolutional neural network used to extract local information of Chinese painting will lead to the loss of effective information. Therefore, the endtoend weakly supervised learning network is proposed to recognize the Chinese painting emotion The proposed learning network consists of two classification modules and one affective intensity prediction module First, the intensity prediction flow is constructed on the basis of improved feature pyramid network to extract multilevel features The gradientbased class activation map technique is used to generate pseudointensity maps from the first classification stream to guide the emotional intensity learning of the proposed network The predicted intensity map is input into the second classification stream for the final Chinese painting emotion recognition Finally, the proposed method is verified on the open data set The experiment results show that the proposed network has improved the confounding matrix, average classification accuracy and average emotion recognition rate by 10%, 15% and 13% respectively
Keywords:emotion recognition in Chinese painting; endtoend weakly supervised learning network; emotion intensitymap; gradientbased class activation map
0引言
情感在人們的生活中起著很大的作用。研究表明,人類的情感可以通過視覺刺激喚起[1]。通過訓練機器來使其理解視覺情感的應用有許多,如情感圖像檢索等[2]。視覺情感識別已經引起了行業和社會的大量關注。
視覺情感考慮的是人們對看到的內容的一種感受,比如圖像和視頻。這與目標檢測、場景分類和人體動作識別等認知內容分析任務不同,后者旨在語義層面分析視覺內容。盡管視覺語義的識別已經投入了大量的研究工作,但是關于視覺情感識別的研究進展還很少。視覺情感識別的主要挑戰是,情感是比視覺語義高的一種抽象層次,傳達某種情感的圖像可以從不同的場景中對不同的對象和人進行拍攝,在大的類別內變換使得視覺情感推理變得極其困難[3]。
早期的研究通過設計有區別的低級和高級的手工圖像特征或通過組合多類型特征或多模態特征,如視覺和文本特征來解決這一挑戰[4]。在過去的幾年里,深度神經網絡已經成為各種計算機視覺任務中應用的主要方法。深度神經網絡可以從圖像中自動學習具有魯棒性的特征,深度學習方法依賴于大量帶標簽的訓練數據。最近,隨著大規模圖像情感數據集的出現,研究人員開始將深度學習方法應用于圖像情感識別。文[5]的工作表明,與手工特征相比,深度學習方法在圖像情感識別方面表現出更好的性能。最先進的深度神經網絡,如ResNet 和ResNeXt,最初是為圖像分類而開發的。雖然它們在圖像情感識別方面表現出了優異的性能,但進一步提高設計特定任務的模型性能是至關重要的。
大多數現有的用于圖像情感識別的數據集僅在圖像級被注釋。圖像級標簽表示圖像中某個地方存在主要情感,而其他部分可能表達中性情感甚至是其他情感。圖像級注釋是很不可靠的。與整體圖像相比,局部圖像區域可能包含用于情感推斷的區別性信息。有了區域信息,深層網絡可以學習更具有魯棒性的特征。文[6]表明,使用區域信息有助于提高情感識別性能。但缺點是它們需要邊界框注釋,這需要大規模的工作來獲得,或者需要大量的計算量過程來發現情感區域。
文[7]使用情感強度來改善視覺顯著性計算。與基于區域的圖像情感識別方法不同,本文利用情感強度來進一步分析。現有的方法都沒有考慮過將情感強度用于視覺情感識別。手動標記情感強度圖需要大量的工作,尤其是在考慮情感的主觀性時。在本文中,通過弱監督情感強度學習來解決這個問題。
現有的研究一般從使用圖像標簽訓練的分類卷積網絡中提取圖像的顯著圖。文[8]提出了一種使用帶有預訓練分類卷積網絡的單次反向傳播來計算圖像特定類別顯著圖的方法。這是第一個僅使用圖像級注釋來獲得用于定位感興趣對象的注意力圖的工作。文[9]的工作表明,類激活映射(CAM)技術可以定位深層網絡中用于標識其類別的區分性圖像區域。CAM技術已用于為弱監督目標檢測和弱監督語義分割提供幫助[10],并且已經獲得了具有廣闊前景的結果。但是,CAM將卷積神經網絡(CNN)的分類器替換為GAP+類別數目大小的全連接層后重新訓練模型,大大增加了時間消耗。而基于梯度的類激活映射(GradCAM)解決了這個問題,不需要替換最后的分類器后再重新訓練模型。
在現有的視覺情感分析研究中,通過2種方法來標注情感:基于分類的方法和基于維度的方法。在維度方法中,情感在一個連續的空間中被標記。與維度方法相反,在分類方法中,情感被標記為許多離散的基本人類情感類別。基本的情感類別通常是根據心理學研究來選擇的,例如,正如關于人類對靜止圖像判斷的研究報告所述,有6種基本情感,即憤怒、厭惡、恐懼、快樂、悲傷和驚訝,還有相關的情感層次模型。與維度方法相比,分類方法很容易理解,因此在許多研究中已被采用[11]。
早期對圖像情感識別的研究主要是在小數據集上進行的,例如IAPS數據集和藝術照片。為了模擬圖像的情感內容,基于心理學和藝術理論提取低級和中級圖像特征,如文[12-14]。除了低級和中級特征之外,還引入了高級特征用于情感分析。例如,Yuan等[15]提出了用于圖像情感分析的Sentribute方法。在Sentribute方法中,圖像被表示為102個預定義屬性特征的響應圖。Borth等[16]提出了由1200個語義概念分類器組成的感知庫,用于檢測視覺內容中的情感和情緒。
與手工特征相比,深度神經網絡學習的特征具有很高的區分度。近年來,深度神經網絡在各種計算機視覺任務中取得了成功。王偉凝等[17]提出了一種基于深度卷積神經網絡的視覺情感分類方法。實驗表明,基于CNN的方法在圖像情感標注和檢索方面明顯優于基于支持向量機(SVM)的方法。在文[18]中,提出了用于聯合情感分類和情感分布回歸的多任務框架。該框架有助于解決難標注情感標簽圖像的問題。在文[19]中,作者提出了一個統一的CNNRNN模型,其中從CNN中提取多級特征,然后通過雙向遞歸神經網絡(RNN)進行集成。考慮到多級特征,CNNRNN模型有效地提高了識別精度。在該方法中,對于一個輸入圖像,需要處理數千個候選區域,這是比較耗時的。盡管該網絡僅使用幀級標簽進行訓練,但它需要在標注有區域信息的數據集上進行預處理。
與卷積網絡衍生的方法相反,假設強度圖可以直接從輸入圖像中推斷出來。旨在利用情感強度學習來提高圖像情感識別性能。基于這種假設,本文提出了一個端到端的深度神經網絡,其包括3個模塊,即第一分類模塊、情感強度預測模塊和輸出最終情感識別結果的第二分類模塊,同時輸出情感強度圖和情感識別結果。
1提出的情感識別方法
本文的目的是利用情感強度學習提高圖像情感識別性能。與基于CNN的方法不同,提出的方法直接從輸入圖像預測情感強度。該新型網絡流程如圖2所示。該網絡包括3個模塊:第一分類模塊、情感強度預測模塊和第二分類模塊。將預測的情感強度圖集成到第二分類模塊中進行最終的情感識別。該網絡可以以端到端方式進行訓練。
本文的主要貢獻如下:
1)采用GradCAM技術從第一分類模塊生成偽強度圖,以指導所提出的用于情感強度學習的網絡。
2)采用改進特征金字塔網絡(FPN)從輸入圖像中提取多級特征。
3)預測的情感強度圖被第二分類模塊用于最終的情感識別。該網絡采用多任務損失函數進行訓練。協同訓練這3個模塊以提高整體性能。
提出的網絡總體流程圖如圖1所示。
由于大多數數據集只有圖像級的標注,本文使用偽情感強度映射的弱監督學習對情感強度學習網絡進行訓練。在下面的小節中,首先介紹生成偽強度圖的方法。然后,詳細介紹新型端到端網絡結構的細節及訓練網絡的損失函數。
1.1偽強度圖的生成
由于顯著性圖可以從預先訓練好的CNN中提取出來。在本研究中,使用第一分類子網絡的顯著性圖作為偽情感強度圖來指導所提出的網絡進行情感強度學習。
采用GradCAM技術[20]生成強度圖。采用深殘差網絡(ResNet)[21]作為骨干網絡。ResNet由1個卷積層和4個卷積塊組成,每個卷積塊包含若干瓶頸層,接下來是一個全局平均池化層和一個softmax完全連接層。在實驗中,使用了2種ResNet結構:ResNet50和ResNet101。全局平均池化層輸出最后一個由卷積層生成的空間平均特征圖。GradCAM技術通過將最后一個完全連通層的權值投影到卷積特征圖來識別情感區域。類激活映射被計算為在不同空間位置的視覺模式存在的加權線性總和。感興趣類別的類激活映射描述了網絡來識別該類別的顯著性區域。設類u的GradCAM記為Cu;那么,它可以定義為:
Cu(x,y)=∑kwukfk(x,y)(1)
其中:fk(x,y)為最后一個卷積層在空間位置(x,y)生成的第k個特征圖的激活;w為最后一個全連通層單元k的類u所對應的權重。
得到的Cu值被重新縮放到0~255作為強度圖。GradCAM方法可以為網絡的每個可能輸出類別生成顯著性圖。GradCAM方法產生的圖對應于輸入圖像的真實標簽,作為偽情感強度特征圖。同時,沒有使用與其他類別相對應的強度圖來進行訓練,因為它們會誤導情感強度學習網絡。偽情感強度圖的值表示區域代表情緒的程度。情感強度圖提供了判別局部信息,可用于提高情感識別性能。生成的強度圖大小與最后一個卷積層生成的特征圖大小相同。在上采樣得到偽強度映射后,可以使用它們來指導所提出的網絡進行情感強度映射學習。在實驗中,偽強度圖的值被重新調整為0~1,以用于訓練。
1.2情感強度預測模塊
強度預測網絡建立在FPN的基礎上,如圖2所示,利用FPN網絡可以學習多尺度語義較強特征。FPN體系結構由自下而上、自上而下和橫向連接3部分組成。自底向上路徑是通過前饋計算多尺度特征圖的骨干網絡。上層生成的特征圖空間尺寸較小。在此對傳統FPN做了一些改進,主要簡化網絡層,節省特征提取時間。選擇3個卷積塊的最后一個瓶頸層產生的特征映射作為特征金字塔。它們通過橫向連接與自頂向下的通道相連。將選取的特征圖分別用c2,c3,c4表示,則特征金字塔可表示為{c2,c3,c4}。文[18]指出,第一卷積層生成的特征圖由于內存消耗較大,沒有被包含在特征金字塔中。
在自頂向下路徑中,對低分辨率特征圖進行上采樣得到高空間尺寸。由下至上路徑和橫向連接將空間尺度相同的特征圖合并在一起。將因子為2的上采樣操作(本文中使用雙線性插值)應用于低分辨率特征圖。然后將上采樣的特征圖與特征金字塔{c2,c3,c4}中相應的特征圖進行元素相加合并。然后,對金字塔中的特征映射進行1×1卷積,輸出通道數為256,在添加之前降低信道維數。令添加后得到的特征圖用Pi表示,那么,它可以表示為
Pi=conv1×1(Ci)+Up2×(Pi+1),i=2,3,4(2)
其中Up2×為上采樣特征圖的2倍。P4是由側向卷積直接產生的。經過自頂向下的路徑,得到了一組特征圖{P2,P3,P4}(如圖2中所示),每個特征圖有256個通道,分別對應于{C2,C3,C4}。然后,將{P2,P3,P4}中的特征映射連接到2個3×3卷積層的堆疊上,輸出通道數為128。強度預測子網絡以一個sigmoid激活層結束,用來預測情感強度圖。由于沒有在自上而下的路徑中使用非線性轉換,輸出的大小是原始輸入大小的1/4。
為了提高強度圖預測性能,在實驗中使用了2個損失函數,即對數空間均方根誤差(RMSEL)和梯度損失。圖3為這兩個損失函數曲線圖。
1)RMSEL損失。這個損失函數最初被引入深度預測。結果表明,RMSEL損失比均方根誤差(RMSE)、L1范數損失和L2范數損失對情感強度預測有更好的效果。RMSEL損失函數定義如下:
LRMSEL=1N2∑Ni=1∑Nj=1(lg(pij)-lg(gij))2(3)
其中:pij和gij分別表示在空間位置(i,j)上,
GradCAM技術生成的預測強度圖和偽強度圖的值;N表示預測強度圖的高度和寬度。
2)梯度損失。強度圖f的梯度如下:
f=fx,fy(4)
其中fx和fy分別表示強度圖對x和y方向的偏導數。梯度的強度特征圖是通過應用2個預定義的Sobel濾波器獲得的。梯度損失定義為預測強度圖與偽強度圖梯度之差的L1范數,公式如下:
Lgradient=1N2∑Ni=1∑Nj=1||dij-pij||1(5)
其中||·||表示L1norm,而dij和pij分別表示由GradCAM方法生成的在空間位置(i,j)的預測強度特征圖的梯度和偽強度特征圖的梯度。梯度損失懲罰了邊緣附近的誤差。
整體情感強度損失函數定義如下:
Lintensity=λ1LRMSEL+λ2Lgradient(6)
這兩個損失函數對識別性能的影響將在實驗部分中討論。
1.3基于預測強度圖的情感分類
將預測的強度圖集成到第二分類模塊中,進行最終的情感分類。將C4特征圖與強度特征圖相乘,對預測的強度圖和C4特征的每個通道進行元素相乘。結果發現,采用C4比采用C5的效果略好。因此,本文采用C4特性。在進行元素乘法之前,先將預測的強度圖調整到與C4相同的大小。獲得特征映射然后與原始C4特征進行元素級融合:
C-4=IΘC4+C4(7)
其中Θ為元素乘法;I為插值后預測的強度圖。這一過程可以使網絡更加注意有區別的區域。C4作為輸入進入到由卷積塊、全局平均池化層和全連接層組成的子網中。最終分類網絡中卷積層的參數與生成偽強度圖的網絡共享。
最后,對整個網絡進行多任務損失訓練:
LC=Lintensity+λ3L1cls+λ4L2cls=
λ1LRMSEL+λ2Lnormal+λ3L1cls+λ4L2cls(8)
交叉熵損失用于L1cls和L2cls2種分類損失。整個網絡可以端到端進行訓練。強度預測網絡與分類網絡協同工作。情感強度預測有助于提高分類性能。預測強度圖的質量隨著分類精度的提高而提高,進而有助于提高情感強度預測性能。
預測強度圖的初始值如果設定為05,不利于最終的情感識別。隨著分類精度的提高,預測強度圖的質量逐漸提高。因此,從一開始訓練強度預測網絡就可以獲得較好的性能。
與Faster RCNN框架類似,本文提出的圖像情感識別框架包括兩個階段。在第一階段,強度預測網絡輸出一個情感強度圖,突出可能存在情感的區域。在第二階段,第二分類模塊從預測的強度圖和CNN特征預測輸入圖像的情感。在沒有強度預測網絡的情況下,GradCAM強度圖可以直接用于第二種分類網絡。這種情況下,在測試時,測試圖像的真實標簽是未知的。因此,無法直接獲得與真實標簽對應的強度圖。如果使用第一個分類網絡生成的預測標簽來生成最終分類網絡的強度圖,那么最終的分類性能主要取決于第一個預測結果。與此相反,本文使用強度預測網絡來預測強度圖。強度預測網絡的性能對最終的情感分類起著重要的作用。
2實驗
本節進行了大量的實驗,以證明所提出的網絡對圖像情感識別是有效的。
2.1數據集
本文實驗在3個數據集上進行。
Emotion6這個數據集包含8350張圖片,這些圖片是從谷歌和Flickr上下載的150000張圖片中選取的。根據Ekman對人類基本情感的研究,這個數據集中的圖像被標記為6種情感類別,即憤怒、恐懼、高興、愛、悲傷和驚訝。隨機選取80%的圖像進行訓練,剩余的圖像用于測試。
FI8這個數據集是從Flickr和Instagram收集的。共有23308幅圖片被標記為8種情感類別。由于一些圖片在互聯網上已經不存在了,實驗只選取了23164張圖片。80%、5%和15%的該數據集分別被用于訓練、驗證和測試。
WEBEmo該數據集由大約268000張從網上下載的圖像組成。這是目前最大的圖像情感識別公開數據集。根據Parrotts情感層次模型,本數據集的圖像分別被標注為24個情感類別和6個情感類別,分別表示為WEBEmo24和WEBEmo6。數據集被分成80%訓練和20%測試。
IAPSsubset,Abstract,ArtPhoto和EmotionROI。這4個數據集分別為395、228、806和1980幅圖像的小數據集。使用這4個數據集來評估所提出的圖
像情感分類網絡。實驗設置使用5倍交叉驗證,并計算5種驗證精度的平均值作為最終結果。
2.2具體實施
在Pytorch框架中實現了提出的網絡。利用ImageNet[23]預訓練的權值對本文網絡進行初始化。ResNet50的λ1和λ2的值分別設置為1和10。ResNet101的λ1和λ2的值分別為05和5。λ3和λ4的值被設置為1。重量衰減值和動量值分別設定為0001和09。使用隨機梯度下降(SGD)在具有4個GPU的計算機上訓練了90 epoches。在Emotion6,FI8和WEBEmo的實驗中,批處理大小設置為128。初始化的學習率為0001,在第30和60時刻降低了10倍。對于其余4個小尺度數據集的實驗,首先在FI8數據集上預訓練模型。批處理大小設置為32,初始化學習率為00001。從原始圖像或原始圖像的水平翻轉中隨機裁剪224×224的圖像作為網絡輸入數據。對輸入數據的每個通道進行歸一化,使其具有零均值和單位方差。
在測試時,網絡通過從測試圖像裁剪出10個224×224大小的區域(4個角和1個中心,以及它們的水平翻轉),并由網絡的softmax層在10個patch上平均預測結果來進行預測。每個模型運行3次,平均結果作為情感識別性能的評價。
2.2.1在Emotion6上的實驗結果
對Emotion6的整體識別準確率如表1所示。基于ResNet101[24]方法的網絡準確率達到6053%,比ResNet101方法高出373%。與ResNet50方法相比,基于ResNet50方法的網絡性能提高了477%。與AlexNet[25]、DenseNet169[26]和ResNet152[27]相比,基于ResNet101方法的網絡性能分別提高了907%、325%和097%。實驗結果表明,本文提出的網絡能有效提高識別精度。
基于ResNet101方法的網絡得到的Emotion6上的混淆矩陣如圖4所示。其他類別最常與喜悅和悲傷混淆,可能是因為這兩個類別比其他類別有更多的訓練樣本,這導致分類器預測有利于這兩個類別。我們的神經網絡在恐懼方面表現不佳。雖然該方法可以提高恐懼的識別性能,但整體的識別精度有所下降。
2.2.2在FI8上的實驗結果
FI8的實驗結果如表2所示。利用ResNet50和ResNet101作為骨干網絡,分別獲得了7495%和7602%的總識別準確率。圖5展示了使用基于ResNet101的網絡得到的FI8上的混淆矩陣。該網絡在憤怒和恐懼情感時表現不佳,提出的網絡對其余情感類別的識別準確率至少達到了700%。
表2還比較了提出網絡的性能和最新的識別方法。基于ResNet101的網絡表現比Sentibank高出300%以上。識別性能也優于其他基于深度學習的方法,如AlexNet和ResNet152。Rao等在文[27]的工作中,采用了基于多級區域的網絡進行圖像情感分類。本文提出的基于Lcls的ResNet101的網絡通過1crop測試獲得了7516%的識別精度,而Rao等基于Lcls的ResNet101的網絡獲得了7317%的識別精度。與Rao等相比,本文的網絡在僅使用Lcls訓練子網絡進行最終情感識別時,性能提高了199%。Rao等人的模型必須首先在包含區域注釋的數據集上進行訓練,以檢測情感區域。然而,現有的情感識別數據集大多沒有塊的注釋。Rao等人的工作中,首先在含有區域標注的EmotionROI上對模型進行預訓練,然后應用到其他數據集進行情感區域檢測。然而,由于數據集的差異,在EmotionROI上預訓練的模型可能不能很好地轉移到其他數據集。與以上工作的不同之處是,提出的強度預測網絡是直接在感興趣的數據集上訓練的。此外,情感強度特征圖提供的信息比局部區域更詳細。因此,提出的網絡可以學習到更具魯棒性的特征。
2.2.3在WEBEmo上的實驗結果
分別在WEBEmo6和WEBEmo25上進行了實驗,結果見表3。與基于WEBEmo6和WEBEmo25的vanilla ResNet50相比,基于ResNet50的網絡性能分別提高了109%和074%。基于ResNet101的網絡相比vanilla ResNet101在2個數據集上分別提高了152%和087%。基于ResNet101的網絡也比傳統的ResNet152獲得了更高的識別精度。
圖6顯示了使用基于ResNet101的網絡在WEBEmo25上的混淆矩陣。這些類別最常與易怒類別混淆。該網絡對高興情感的識別準確率最高,達到7624%。忽視、驕傲、憤怒、解脫、羞恥和痛苦6種類別的識別準確率均為0。識別準確率小于50%的類別有19個,表明這些細粒度情感類別難以識別。
2.2.4圖像情感分類
在這一小節進一步評估了所提出的網絡用于圖像情感分類。圖像情感分類的目標是將圖像劃分為具有積極情感或消極情感兩部分,即圖像所表達的一般態度或觀點。實驗在Emotion6、FI8和WEBEmo上進行。將原始標簽轉換為正或負,轉換后的數據集分別記為Emotion2、FI2和WEBEmo2。在Abstract、ArtPhoto和EmotionROI小尺度數據集上也進行了實驗。
實驗結果見表4。在Emotion2和FI2上,識別準確率分別比Rao等的網絡提高了198%和367%。提出的模型也比課程學習策略[28]有更好的表現。在3個小尺度數據集上,也取得了比其他方法更好的性能。實驗結果表明了該網絡在情感分類中的優越性。
2.2.5消融實驗
在本小節中進行消融實驗,以證明情感強度損失函數對情感識別性能的影響。實驗在Emotion6、FI8和WEBEmo6上進行,主干網絡使用ResNet101。同時給出了在Emotion6上使用ResNet50作為骨干網時的性能。結果如表5所示。在使用ResNet101作為骨干網絡的實驗中,RMSEL損耗在3個數據集上的表現分別比ResNet101高出261%、765%和055%。將2種損失結合使用可以進一步提高識別精度,這表明梯度損失和表面正態損失與RMSEL損失互補,可以提高識別性能。
還比較了RMSEL損失與RMSE損失,L1范數損失在Emotion6、FI8和WEBEmo6上的結果,如表6所示。L1范數損失在Emotion6上的表現優于RMSE。在其他2個數據集上,RMSE的識別精度略高于L1范數損失。與RMSEL損失相比,它們都表現出較低的性能。
2.2.6可視化證明
為了展示強度預測子網絡的預測性能,將預測的強度圖可視化,并與GradCAM產生的特征圖進行比較。圖7顯示了由提出的網絡和GradCAM生成的強度圖預測的強度圖樣本。所預測的強度圖很好地近似于相應的GradCAM生成的強度圖。
圖7顯示了中間注意力結果與GradCAM生成的強度圖。如圖8和9所示,中國畫的注意力都集中在了人們感興趣區域,覆蓋了樣本的情感區域。所提出的網絡在GradCAM基礎上可以有效地提高整體識別精度。
3結論
在本文中,提出了一種端到端弱監督學習網絡來識別畫情感。該網絡包括3個模塊:第一分類模塊、情感強度預測模塊和第二分類模塊。強度預測模塊是建立在FPN之上的,直接從輸入圖像預測情感強度映射。將預測的強度圖集成到第二分類模塊中進行最終的情感識別。在一些基準數據集上實驗驗證了所提出的網絡對圖像情感識別和情感分類的有效性。實驗結果表明,該網絡比基于局部區域的方法具有更好的性能。
參 考 文 獻:
[1]劉明珠,李曉琴,陳洪恒.基于支持向量機的語音情感識別算法研究[J].哈爾濱理工大學學報, 2019, 24(4): 118.
LIU Mingzhu, LI Xiaoqin, CHEN Hongheng. Research on Speech and Emotional Recognition Algorithm Based on Support Vector Machine[J]. Journal of Harbin University of Science and Technology, 2019, 24(4): 118.
[2]逯波,段曉東,王存睿,等.基于多圖學習的情感圖像檢索研究[J].大連民族大學學報,2016, 18(05): 509.
LU Bo, DUAN Xiaodong, WANG Cunrui,et al. Affective Image Retrieval Based on Multigraph Learning[J]. Journal of Dalian Nationalities University, 2016, 18(5): 509.
[3]YANG J, SHE D, SUN M, et al. Visual Sentiment Prediction Based on Automatic Discovery of Affective Regions[J]. IEEE Transactions on Multimedia, 2018, 20(9): 2513.
[4]何樂樂. 醫學圖像分類中的特征融合與特征學習研究[D]. 成都: 電子科技大學, 2016.
[5]孫博文,于峰.基于深度學習的單目攝像頭動態手勢識別與交互[J].哈爾濱理工大學學報, 2021, 26(1):30.
SUN Bowen, YU Feng. Dynamic Gesture Recognition and Interaction of Monocular Camera Based on Deep Learning[J]. Journal of Harbin University of Science and Technology, 2021, 26(1):30.
[6]ZHANG S, ZHANG S, HUANG T, GAO W. Speech Emotion Recognition Using Deep Convolutional Neural Network and Discriminant Temporal Pyramid Matching[J]. IEEE Transactions on Multimedia, 2018, 20(6): 1576.
[7]馬媛美. 基于圖像情感的視覺注視點檢測算法研究[D]. 大連: 大連理工大學, 2020.
[8]MORADI R, BERANGI R, MINAEI B. SparseMaps: Convolutional Networks with Sparse Feature Maps for Tiny Image Classification[J]. Expert Systems with Applications, 2019, 119:142.
[9]王衛兵,張立超,徐 倩. 一種基于受限波爾茲曼機的推薦算法[J].哈爾濱理工大學學報,2020,25(5):62.
WANG Weibing, ZHANG Lichao, XU Qian. A Recommendation Algorithm Based on Restricted Boltzmann Machine[J]. Journal of Harbin University of Science and Technology, 2020, 25(5):62.
[10]LI Y, PEI X, HUANG Q, JIAO L, SHANG R and MARTURI N. AnchorFree Single Stage Detector in Remote Sensing Images Based on Multiscale Dense Path Aggregation Feature Pyramid Network[J]. IEEE Access, 2020, 8:63121.
[11]LEE J, KIM S, PARK J, and SOHN K. Contextaware Emotion Recognition Networks[C]// Proceedings of the IEEE International Conference on Computer Vision, 2019:1014310152.
[12]REDIES C, GREBENKINA M, MOHSENI M, et al. Global Image Properties Predict Ratings of Affective Pictures[J]. Frontiers in Psychology, 2020, 11:953.
[13]DONG Y, FAN D, MA Q, et al. SuperpixelBased Local Features for Image Matching[J]. IEEE Access, 2021, 9: 15467.
[14]劉凱, 汪興海, 張杰. 基于深度玻爾茲曼機的圖像多特征融合[J]. 艦船電子工程, 2020(1):32.
LIU Kai, WANG Xinghai, ZHANG Jie. Research of Image Features Fusion Based on DBM[J]. Ship Electronic Engineering, 2020(1):32.
[15]YUAN J, MCDONOUGH S, YOU Q, LUO J. Sentribute: Image Sentiment Analysis From a Midlevel Perspective[C]// Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. ACM, 2013: 10.
[16]KUCHER K, MARTINS M, PARADIS C. et al. StanceVis Prime: Visual Analysis of Sentiment and Stance in Social Media Texts [J]. Journal of Visualization,2020, 23:1015.
[17]王偉凝,王勵,趙明權,等.基于并行深度卷積神經網絡的圖像美感分類[J].自動化學報,2016,42(6):904.
WANG Weining, WANG Li, ZHAO Mingquan, et al. Image Aesthetic Classification Using Parallel Deep Convolutional Neural Networks[J]. ACTA AUTOMATICA SINICA, 2016, 42(6): 904.
[18]YANG J, SHE D, SUN M. Joint Image Emotion Classification and Distribution Learning via Deep Convolutional Neural Network[C]// Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence, 2017: 3266.
[19]ZHU X, LI L, ZHANG W, et al. Dependency Exploitation: A Unified Cnnrnn Approach for Visual Emotion Recognition[C]// Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence, 2017: 3595.
[20]SELVARAJU R R, COGSWELL M, DAS A, et al. GradCAM: Visual Explanations from Deep Networks via Gradientbased Localization. International Journal of Computer Vision[J]. 2020, 128(2):336.
[21]ZHANG H, XU M. Weakly Supervised Emotion Intensity Prediction for Recognition of Emotions in Images [J]. IEEE Transactions on Multimedia. 2020, 23: 2033.
[22]HU J, OZAY M, ZHANG Y, OKATANI T. Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps With Accurate Object Boundaries[C]// 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019: 1043.
[23]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet Large Scale Visual Recognition Challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211.
[24]FENG T, LIU J, FANG X, et al. A DoubleBranch Surface Detection System for Armatures in Vibration Motors with Miniature Volume Based on ResNet101 and FPN[J]. Sensors, 2020, 20(8):2360.
[25]CONG B, LING H, XIANG P, et al. Optimization of Deep Convolutional Neural Network for Large Scale Image Retrieval[J]. Neurocomputing, 2018, 303:60.
[26]TEIXEIRA V, BRAZ L, PEDRINI H, DIAS Z. DuaLAnet: Dual Lesion Attention Network for Thoracic Disease Classification in Chest XRays[C]// 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), 2020: 69.
[27]RAO T, LI X, ZHANG H, et al. Multilevel Regionbased Convolutional Neural Network for Image Emotion Classification[J]. Neurocomputing, 2019, 333:429.
[28]PANDA R, ZHANG J, LI H, et al. Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias[C]// The European Conference on Computer Vision (ECCV), 2018:594.
(編輯:溫澤宇)