徐海燕 郝萍萍


摘? 要:針對以往的圖像分類方法利用手工提取的特征(或通過神經網絡提取的特征)、空間信息關注不足等問題,文章提出一種基于空間注意力的圖像分類網絡。該網絡利用空間注意力模塊,對深度網絡提取的視覺特征進行空間約束。利用特征的空間信息,使得網絡能夠對特征在空間上的重要性加以區分,從而使其更具判別性。采用CIFAR-10和CIFAR-100測試集分別進行測試,測試結果表明,該文提出的圖像分類網絡的圖像分類效果明顯優于其他深度學習方法。
關鍵詞:空間注意力;深度學習;計算機視覺;圖像分類
中圖分類號:TP391.4? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0098-03
Research on Image Classification Network Based on Spatial Attention
XU Haiyan, HAO Pingping
(Shandong Huayu University of Technology, Dezhou? 253034, China)
Abstract: Aiming at the problems of traditional image classification methods, such as using manually extracted features (or features extracted through neural networks), insufficient attention to spatial information, this paper proposes an image classification network based on spatial attention. The network uses the spatial attention module to spatial constrain on the visual features extracted by the depth network. Using the spatial information of features, the network can distinguish the importance of features in space, thus making them more discriminative. Test with CIFAR-10 and CIFAR-100 test sets respectively, test results show that the proposed image classification network is superior to other depth learning methods in image classification.
Keywords: spatial attention; deep learning; computer vision; image classification
0? 引? 言
圖像分類任務研究圖像類別預測,是計算機視覺中的一項基礎任務,同時也是機器理解世界的重要途徑。傳統的圖像分類方法主要利用手工設計的特征(例如:尺度不變特征轉換(Scale Invariant Feature Transform, SIFT)[1]、方向梯度直方圖(Histogram of Oriented Gradient, HOG)[2]等)以及傳統的分類器(例如:支持向量機[3]、K-近鄰[4])等方法實現圖像分類。這些方法在面對簡單的圖像分類問題時是行之有效的,但是在面對海量圖像數據時,實際的實驗效果不能令人滿意。
近年來,通過深度神經網絡(例如視覺幾何群網絡(Visual Geometry Group, VGG)[5]、ResNet[6])自動學習圖像中的特征能夠取得優異的分類效果。VGG和ResNet可以作為自動提取視覺特征的網絡,在多種視覺任務(例如目標檢測、實例分割、語義分割、圖像分類)中已經證明其效果明顯優于傳統手工提取特征。VGG網絡通常有16層,而ResNet由于其殘差模塊的設計,能夠解決網絡過深時對訓練梯度的影響,達到更深的網絡層數,例如,ResNet能夠達到101層、152層,這使得ResNet對于大型的視覺任務仍具有良好的性能。常見的卷積神經網絡[7]有LeNet[8]、VGG、GoogLeNet[9]和ResNet。注意力機制由Google團隊于2017年提出,并將其應用于自然語言處理(Natural Language Processing, NLP)[10]領域。基于這種為特征分配權重的思想,一些基于注意力的模型相繼提出,如融合了通道注意力的SE-Net、圖注意力神經網絡(Graph Attention Neural Network, GANN)[11]等。深度神經網絡能夠在視覺任務中取得優秀成果的主要原因是其提取的特征更具有判別性,這種極具判別性的信息和圖像內容的空間位置具有緊密的聯系,例如圖像分類任務中,“貓”和“狗”的圖像是能夠區分開來的。區分的主要依據是圖像中“貓”和“狗”所處的區域,而不是圖像中的背景或其他區域。然而,普通的深度神經網絡對所提取圖像的空間信息關注不足,不能很好地描述不同空間位置信息的重要性。因此,本文提出一種基于空間注意力的圖像分類網絡,該網絡通過空間注意力機制對特征圖計算空間注意力系數,并將該系數重新作用于視覺特征上,得到具有空間重要性區別的特征,更有助于圖像分類。通過實驗可知,基于空間注意力的圖像分類網絡能夠獲得更優的圖像分類效果。
1? 基于空間注意力的圖像分類網絡
基于空間注意力的圖像分類網絡在傳統深度網絡的基礎上增加了空間約束,通過在空間層面上學習圖像中各個區域位置的權重信息,能夠獲得更具有判別性的圖像特征。
如圖1所示,基于空間注意力的圖像分類網絡主要包括三部分:(1)圖像特征提取部分;(2)空間注意力特征融合部分;(3)特征分類部分。接下來依次介紹各個模塊。
圖像特征提取部分的輸入為RGB圖像,通過ResNet提取RGB圖像的視覺特征,表示為X,其維度為C×H×W,其中H和W分別表示特征圖的高和寬,C表示通道數,即特征圖的深度。對于特征圖X,輸入空間注意力模塊(Spatial attention)。空間注意力模塊首先對輸入的特征圖X沿著通道進行最大池化[12](Maxpool)和平均池化(Avgpool)。圖2為最大池化示意圖,最大池化是對固定區域求最大值。圖3為平均池化示意圖,平均池化是對固定區域求平均值。
將池化后的特征圖串聯起來,通過卷積操作,合并為一個注意力系數矩陣M,將M輸入激活函數,得到最終的注意力系數矩陣MS,將MS與特征圖X相乘:
(1)
得到經過空間注意力約束后的特征圖XS。最后將特征圖XS經過池化,得到向量LS,輸入全連接網絡,得到對圖像類別的預測:
(2)
其中,g(g)表示Softmax激活函數,Wg表示全連接層g的參數,y表示類別預測的概率。最后,利用交叉熵損失對模型分類進行約束:
(3)
其中, 表示圖像在數據集中的類別標簽。模型通過反向傳播更新參數。
2? 實驗分析
通過基于空間注意力的圖像分類網絡在CIFAR-10和CIFAR-100公開數據集上的實驗數據呈現,給出了數據集的基本信息以及基于空間注意力的圖像分類網絡和其他圖像分類方法對比的實驗結果。
2.1? 數據集介紹
CIFAR-10數據集[13]總共包含10個類別(飛機、貓、狗、青蛙、鳥類等),每個類別包含6 000張圖像,其中CIFAR-10數據集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。
CIFAR-100數據集[13]總共包含100個類別,CIFAR1-100數據集對每張圖像標注了細粒度的類別標簽和粗粒度的類別標簽,共包含20個粗粒度類別。該數據集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz。
2.2? 基于空間注意力的圖像分類網絡的分類表現
本文采用的主干網絡為ResNet網絡,將ResNet網絡與空間注意力機制相結合,得到基于空間注意力的圖像分類網絡。在CIFAR-10和CIFAR-100數據集上進行訓練和測試,并且與傳統方法和基于深度學習的方法(VGG)進行對比。表1為CIFAR-10數據集分類結果,表2為CIFAR-100數據集分類結果。
表1展示基于空間注意力的圖像分類網絡在CIFAR-10數據集上與其他方法平均準確率的對比,其中,Practical Bayesian為傳統的貝葉斯方法,沒有利用卷積神經網絡,平均準確率為90.5%。VGG-16是卷積神經網絡的早期模塊,網絡層數為16,實現92.22%的準確率。ResNet-18相對于VGG-16加入了殘差塊的設計,平均準確率為93.02%,ResNet-50相對于ResNet-18網絡更深,取得了93.62%的優良效果。Ours(backbone-ResNet-18)表示基于空間注意力的分類網絡采用的主干(backbone)網絡為ResNet-18,Ours(backbone-ResNet-50)同理。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準確率為94.34%,相對于ResNet-18提升了1.32%,而Ours(backbone-ResNet-50)的平均準確率為95.01%,相對于ResNet-50提升了1.39%。
表2展示基于空間注意力的圖像分類網絡在CIFAR-100數據集上與其他方法平均準確率的對比,其中,VGG-16獲得65.45%的平均準確率,ResNet-18的平均準確率為68.25%。ResNet-50相對于ResNet-18網絡更深,取得了70.01%的優良效果。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準確率為70.45%,相對于ResNet-18提升了2.20%。而Ours(backbone-ResNet-50)的平均準確率為72.63%,相對于ResNet-50提升了2.62%。
3? 結? 論
本文提出基于空間注意力的圖像分類網絡,利用空間注意力模塊,對深度網絡提取的視覺特征進行空間約束。由于考慮了特征的空間信息,使得網絡能夠對特征在空間上的重要性加以區分,得到更具判別性的特征,更有利于圖像分類。實驗結果表明,基于空間注意力的圖像分類網絡解決了以往方法對特征的空間信息關注不足的問題,所取得的圖像分類效果明顯優于其他深度學習方法。
參考文獻:
[1] 林陶,黃國榮,郝順義,等.尺度不變特征轉換算法在圖像特征提取中的應用 [J].計算機應用,2016,36(6):1688-1691+1698.
[2] D?NIZ O,BUENO G,SALIDO J,et al. Face recognition using histograms of oriented gradients [J].Pattern recognition letters,2011,32(12):1598-1603.
[3] 王周春,崔文楠,張濤.基于支持向量機的長波紅外目標分類識別算法 [J].紅外技術,2021,43(2):153-161.
[4] CUNNINGHAM P,DELANY S J. K-nearest neighbour classifiers-a tutorial [J].ACM Computing Surveys (CSUR),2021,54(6):1-25.
[5] MEI Y J,JIN H R,YU B,et al. Visual geometry group-UNet: deep learning ultrasonic image reconstruction for curved parts [J].The Journal of the Acoustical Society of America,2021,149(5):2997-3009.
[6] WU Z,SHEN C,VAN DEN HENGEL A. Wider or deeper: Revisiting the resnet model for visual recognition [J].Pattern Recognition,2019,90:119-133.
[7] 陳鑫華,錢雪忠,宋威.基于輕量級特征融合卷積網絡的圖像分類算法 [J].計算機工程,2021,47(11):268-275.
[8] EL-SAWY A,EL-BAKRY H,LOEY M. CNN for handwritten arabic digits recognition based on LeNet-5 [C]//International conference on advanced intelligent systems and informatics.[S.I.]:Cham,2016:566-575.
[9] ANAND R,SHANTHI T,NITHISH M S,et al. Face recognition and classification using GoogleNET architecture [C]//Soft computing for problem solving. Singapore:Springer,2020:261-269.
[10] ZHANG Y,TENG Z Y.Natural language processing [M].Cambridge:Cambridge University Press,2021.
[11] 鮑鵬,徐昊.基于圖注意力時空神經網絡的在線內容流行度預測 [J].模式識別與人工智能,2019,32(11):1014-1021.
[12] 王宇航,周永霞,吳良武.基于高斯函數的池化算法 [J].計算機應用,2022,42(9):2800-2806.
[13] 徐海燕.基于通道相似度注意力的圖像分類研究 [J].信息技術與信息化,2021(11):78-80.
作者簡介:徐海燕(1993.08—),女,漢族,山東德州人,助教,碩士研究生,研究方向:計算機視覺、圖像分類、推薦系統研究;郝萍萍(1977.12—),女,漢族,山東德州人,副教授,碩士研究生,研究方向:計算機網絡技術、物聯網技術。
收稿日期:2022-10-10
基金項目:2021年山東華宇工學院校級科研項目(2021KJ17)