◆任楚嵐 孫佳楠 張陽
基于AlexNet的注意力機制網絡研究
◆任楚嵐1孫佳楠1張陽2
(1.沈陽化工大學計算機科學與技術學院 遼寧 110142;2.遼寧中醫藥大學附屬醫院 遼寧 110032)
本文采用引入人類視覺系統的注意力機制對AlexNet網絡模型進行改進,通過融入注意力機制對AlexNet注意力機制網絡進行研究,并通過CIFAR-10數據集進行實驗對比驗證。實驗對比結果表明,AlexNet注意力機制網絡模型比傳統AlexNet網絡模型具有更好的分類效果,其分類準確率提升了2%。
深度學習;注意力機制;卷積神經網絡
自2006年起,深度學習因其強大的自動提取特征能力、復雜模型構建能力和圖像處理能力出現在了人們的視野之中。它是一種使用多層復雜結構或由多重非線性變換構成的多個處理層進行數據處理的方法[1]。近年來,深度學習方法由于其在數據分析處理上的特點已經被廣泛應用于各種領域,尤其是在語音識別[2-3]、圖像識別[4-5]等領域已經取得了突破性進展。
深度學習作為機器學習中一種較好的方法,是機器學習的重要組成部分。它主要在于建立一個模擬人類腦部進行分析學習的神經網絡,用以模仿人腦的機制來解釋和分析數據,例如圖像,文本和聲音等。本文將選用AlexNet網絡模型對已有數據進行基礎訓練,并融入了注意力學習機制,通過對原有模型的改進,提高其準確率。
隨著深度學習技術的快速發展,特別是卷積神經網絡(convolutional neural network,CNN)技術在圖像處理和自然語言處理等領域取得了顯著成效,越來越多的領域都開始嘗試使用卷積神經網絡技術來解決問題。卷積神經網絡是一種多層次的網絡模型,是神經認知機的推廣形式。
卷積神經網絡的歷史可以追溯到20世紀60年代,由于Hubel和Wiesel[6]通過對貓腦視覺皮層的研究,發現了一系列復雜的“感受野”,其只受某些特定區域刺激的響應,接受局部信息,繼而提出了卷積神經網絡的概念。CNN是對BP神經網絡的一種改進,雖然它們都是采用前向傳播輸出計算值,利用反向傳播調整權重和偏置。但CNN在層與層之間采用局部連接,而BP神經網絡采用的是全連接。卷積神經網絡有一個輸入層,每一層都接收上一層的輸入,直到輸出,其基本結構主要是由輸入層、卷積層、池化層(也稱為降采樣層)、全連接層以及輸出層構成[7]。
卷積層作為輸入層后的第一層,旨在提取輸入的特征表示。卷積層是由多個特征圖組成,每個特征圖由多個神經元組成,每個神經元通過卷積核與上一層特征圖的局部區域相連。卷積核是一個帶權值的矩陣,用于提取和計算不同的特征映射。卷積所得的輸出可由如下公式表示:
yj=∑iwij*xi+bj(1)
式中:Xi為輸入特征圖,Yi為輸出特征圖,權值記為Wij,bi是其偏置參數。
池化層(降采樣層)是在卷積層之后,旨在通過降低特征映射的分辨率(降維和抽象)來實現移位不變性。池化層同樣由多個特征圖組成,它的每個特征圖唯一對應于其前一個卷積層相應的特征圖,且不會改變特征圖的個數。常用的池化方法有最大池化和平均池化。最大池化是把區塊中元素的最大值作為函數的輸出,提取特征平面的局部最大響應。平均池化是將計算得到的區塊中所有元素的算術平均值作為函數的輸出,提取特征平面局部響應的均值。
在經過多次卷積層和池化層后,卷積神經網絡通常會連接一個或者多個全連接層[8]。全連接層將當前層的每個神經元與其前一層中的所有神經元相連接,以產生全局語義信息。全連接層可以整合卷積層或池化層中具有類別區分性的局部信息。為了提升整個網絡的性能,每個神經元的激勵函數一般采用ReLU函數。卷積神經網絡的最后一層是輸出層。對于分類問題而言,經常會使用softmax函數進行邏輯回歸分類,返回輸入圖片所屬某一類別的概率;對于回歸問題,會返回具體的數值。
注意力機制的概念主要源于模仿人視覺的注意力形式。人腦在接收外界信息時,并不會處理所有信息,而是只關注重要的信息,這有助于過濾干擾信息,提高信息處理效率[9]。在人視覺感知中,由于處理整個視野的能力有限,人們通常將注意力集中在特定區域,以關注需要的信息。然后,將此信息用于指導下一個聚焦點[10-11]。受人視覺系統始終專注于視覺數據某一部分的啟發,人們進行了許多嘗試,包括圖像分類和生成、唇讀和語義分割等[12]。
本文數據集采用的是國際認可的標準數據集CIFAR-10。該數據集包括飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船和卡車這十大類現實世界中的真實物體。該數據集共有60000張彩色圖像,這些圖像是32*32的,共分為10個類,每類6000張圖。這里面有50000張用于訓練,構成了5個訓練批,每一批10000張圖;另外10000張用于測試,單獨構成一批。測試批的數據里,取自10類中的每一類,每一類隨機取1000張。抽剩下的就隨機排列組成了訓練批。
AlexNet是由Alex Krizhevsky等人[13]在2012年的ImageNet比賽中使用并命名的,由于其優秀的圖像識別能力,將正確識別率提高了一倍有余,成功奪得了那年的冠軍并再次引起了人工智能和深度學習的熱潮。本次實驗以AlexNet作為原始的網絡模型進行訓練測試。AlexNet擁有8層結構,在圖片識別上具有出色的效果,其具體的網絡結構如圖1所示。

圖1 AlexNet網絡結構圖
AlexNet網絡模型的第一層到第五層結構是卷積神經網絡,第六層到第八層為傳統神經網絡。第一、二層的結構相似,都使用了卷積、ReLU、池化、歸一化操作。第三層和第四層的結構類似,使用了卷積和ReLU操作。第五層與三、四層相比,多了池化操作,分別為卷積、ReLU和池化。再將前五層操作后的結果傳遞到傳統神經網絡中,在最后的三層均使用全連接網絡結構。
使用AlexNet網絡模型對已有數據進行的分類結果如下表1所示。

表1 AlexNet網絡模型的分類結果
對于數據圖像的分類識別問題,圖片中往往存在著無效信息,如何摒棄這些無效信息,關注特定的信息,是提高網絡模型分類效率和分類準確率的關鍵。因此,為了對AlexNet網絡模型進一步探討,本文引入了注意力機制的概念,在傳統AlexNet網絡模型的基礎上,增加了注意力層,將其融入AlexNet網絡模型結構中,成為AlexNet注意力機制網絡模型。其具體的網絡結構如圖2所示。

圖2 AlexNet注意力機制網絡結構圖
與傳統的AlexNet網絡模型相比較,AlexNet注意力機制網絡模型在輸入層和第一層之間加入了一層注意力層。使用AlexNet注意力機制網絡模型對已有數據進行的分類結果如下表2所示。

表2 AlexNet注意力機制網絡模型的分類結果
兩種網絡模型的實驗分類結果對比如下表3所示。

表3 兩種網絡模型的實驗分類結果對比
兩種網絡模型的準確率對比圖如圖3所示。

圖3 兩種網絡模型的準確率對比圖
通過實驗結果對比可以看出,融入注意力機制的AlexNet網絡模型比傳統的AlexNet網絡模型的準確率有了明顯的提高。
本文通過引入注意力機制,對基于AlexNet的注意力機制網絡進行了研究。通過融入注意力機制的AlexNet網絡模型與傳統的AlexNet網絡模型的實驗對比表明,改進后的網絡模型具有更高的分類準確率,為卷積神經網絡進一步的研究提供了可能。
[1]Schmidhuber,Jürgen. Deep Learning in Neural Networks:An Overview[J]. Neural Netw,2015,61:85-117.
[2]Hinton G,Deng L,Yu D,et al. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine,2012, 29(6):82-97
[3]Mikolov T,Deoras A,Povey D,et al. Strategies for training large scale neural network language models. 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),2011:196-201
[4]Farabet C,Couprie C,Najman L,et al. Learning hierarchical features for scene labeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929
[5]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems,2012:1097-1105
[6]Hubel D H,Wiesel T N . Receptive fields,binocular interaction and functional architecture in the cat"s visual cortex[J]. The Journal of Physiology,1962,160(1):106-154.
[7]陳超,齊峰.卷積神經網絡的發展及其在計算機視覺領域中的應用綜述[J].計算機科學,2019,46(03):63-73.
[8]劉方園,王水花,張煜東.深度置信網絡模型及應用研究綜述[J].計算機工程與應用,2018,54(01):11-18+47.
[9]Leng J,Liu Y,Chen S . Context-Aware Attention Network for Image Recognition[J]. Neural Computing and Applications,2019(4).
[10]Xiong,C.,Shi,X., Gao,Z.et al.Attention augmented multi-scale network for single image super-resolution. Appl Intell (2020).
[11]Zhu Y,Liu G . Fine-grained action recognition using multi-view attentions[J]. The Visual Computer,2019(12).
[12]Emami H,Aliabadi M M,Dong M,et al. SPA-GAN:Spatial Attention GAN for Image-to-Image Translation[J]. 2019.
[13]Krizhevsky A,Sutskever I,Hinton G .ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems,2012,25(2).