常東良,尹軍輝,謝吉洋,孫維亞,馬占宇
面向圖像分類的基于注意力引導的Dropout
常東良1,尹軍輝1,謝吉洋1,孫維亞2,馬占宇1
(1. 北京郵電大學人工智能學院,北京 100876; 2. 南水北調中線信息科技有限公司,北京 100176)
當一個較大的神經網絡在較少的訓練數據上訓練時,不可避免的會遭遇過擬合問題,進而在測試數據集上泛化性能較差。因此,提出了多種基于Dropout的正則化方法來緩解這個問題。雖然,這些方法不能直接促使模型關注有較低判別力的特征,但對減少過擬合同樣非常重要。為解決該問題,提出了一種基于注意力引導的Dropout (AD),利用自監督機制更高效地緩解特征描述算子之間的協同自適應問題。AD包含2個獨特的組件:①特征的重要性度量機制,通過SE-Block度量得到每個特征的重要程度;②基于可學習丟棄概率的Dropout,通過丟棄“較好”的特征檢測算子,強迫“較差”的特征檢測算子學習到一個較好的特征表示,從而緩解特征檢測算子之間的協同自適應并促使模型學習擁有較低判別力的特征。實驗結果表明該方法可以容易地被應用到各種卷積神經網絡(CNN)結構里,并獲得較好的性能。
深度神經網絡;過擬合;Dropout;自注意力機制;圖像分類
深度神經網絡已經極大地推動了計算機視覺領域的發展,在諸多極具挑戰的視覺任務中獲得了極大地成功,如:目標檢測[1]、圖像分類[2]、語義分割[3]等。然而,海量的參數使得神經網絡極易過擬合,因而在實際應用中需要多種多樣的正則化技術。Dropout[4]在2012年被提出,是公認的抑制過擬合問題的有效方式。其在訓練過程中隨機舍棄一些節點,由此抑制了節點之間的協同自適應,進而使得網絡獲得了較好的泛化性能[4]。近年來,受到Dropout技術的啟發,研究者提出了很多類似的方法,包括:DropConnect[5],Concrete Dropout[6]和Cutout[7]以及其他變種。此外,文獻[8]回顧了Dropout的發展歷程。以上的方法使得模型傾向于關于最有判別力的特征,進而提升模型的分類性能,但忽視了能夠提供互補信息的其他區域的特征學習。例如,文本情緒分類預測通常被一個或幾個詞所主導,且忽略了一些信息特征。
近年來,文獻[9-12]通過在訓練過程中將輸入圖像或特征部分區域的值設置為0的方式,擦除最有判別力的特征。這些方法與Dropout[4]和Dropbolck[13]相似,但與前者不同的是,后者隨機丟棄的是特征上的一塊區域而不是一個節點。盡管隨機選擇是快速且易于實現的,但不能高效地擦除最有判別力的區域。此外,文獻[9-10]需要多次訓練模型;文獻[11]需要使用額外的Sigmoid函數;文獻[12]為了定位最有判別力的區域,需要在一次迭代中,進行2次前向計算。
為了更高效地捕獲目標的整體特征,本文提出了一種基于注意力引導機制的Dropout (attention- guided Dropout,AD),如圖1所示。AD能夠利用自注意力(self-attention)機制防止模型僅僅依靠最有判別力的特征進行分類,促使模型學習到更多的特征區域,進而提高分類準確率。即通過擠壓和激勵模塊[14](squeeze-and-excitation block,SE-block)獲得全連接層每一個神經元節點的重要程度,并與特征蘊含的判別力呈正相關?;诖耍蓪δP蛯W習特征的過程進行動態調整,進而在獲得最有判別力特征的同時,通過去除學習到最有判別力的特征來獲得其他互補的特征表示,以提高模型的泛化能力。首先通過以神經元節點的歸一化重要程度為分布參數的伯努利(Bernoulli)分布獲得Dropout掩膜(mask),然后通過該掩膜對神經元節點進行隨機丟棄。

圖1 本文所提方法AD的總體結構圖
值得注意的是,AD方法與Dropout類似,不同點在于本文方法更傾向于刪除具備高判別力的節點來提高其他節點的學習能力,而Dropout是每個節點等概率隨機刪除。
首先了解一下標準的Dropout和SE-block方法。
本文使用了較流行的Dropout[4]方法。在數學上,針對全連接層的Dropout方法可寫為

AD不僅告訴神經網絡模型關注什么,還提高了模型的表現能力。SE-block用來建模通道間的關系。該模塊允許網絡進行特征重標定,可以利用全局信息增強有用的信息,壓縮不重要的信息。文獻[14]第1步通過全局平均池化匯聚特征圖的信息,產生關于通道間的統計量:R,并通過平面維度×壓縮特征圖;第2步,旨在完全捕獲通道的依賴關系,從而將該統計量輸入到一個單隱藏層的多層感知器(multilayer perceptron,MLP)。隱藏層的神經元個數設置為×1×1,其中為衰減率。記特征圖為=[1,2,···,u]T,整個過程可以表示為




圖2 Dropout方法((a)正常的全連接網絡;(b)引入概率為0.5的訓練過程中某次前向傳播的全連接網絡)
考慮到Dropout和SE-block,本文提出的AD方法,以鼓勵模型在學習最有判別力特征的同時,也能夠學習到次重要的但對分類仍具有重要意義的特征。其與通常的用在全連接層的Dropout技術有一個顯著的區別,就是可根據神經元的重要性選擇不同的用于刪除神經元的概率,而不是同以往的Dropout那樣利用相同的概率刪除所有神經元。
本文定義神經元的激活值為a+1,作為AD的輸出,同時定義AD的輸入為a。然后將a輸入到帶單隱藏層的MLP中,則獲得重要性圖。神經元a特征重標定為

在標準的Dropout方法中,由概率為的伯努利分布生成,而本文利用重要性圖作為自適應的刪除率,且由輸入的重要性圖的值大小決定。



掩膜通過與重新標定的神經元進行點乘操作,圖1為本方法的總體結構框架,前一層神經元的輸出是AD層的輸入。重要性圖是通過對全連接層的神經元進行擠壓和激勵操作獲得的,掩膜被用來隱藏最具判力的節點,從而捕獲到其他互補的特征表示。該方法也采用了一個松弛因子對刪除概率進行尺度變換,從而調整刪除率。本文方法在提高模型分類準確率的同時,防止了模型只依賴最具判別力的特征,而忽略次重要的信息的問題。
為了驗證所提出的AD方法的性能,在多個圖像識別數據集上進行了測試,包括CIFAR-10[15],CIFAR-100[15],Stanford Cars[16]以及CUB-200-2011[17]數據集。
CIFAR-10和CIFAR-100數據集均包括60 000張32×32的彩色圖像,分為訓練集(50 000張)和測試集(10 000張)。此外,CIFAR-10包含10個類別,CIFAR-100包含100個類別。Stanford Cars數據集包含196類,16 185張圖片,其中訓練集8 144個樣本,測試集8 041個樣本。CUB-200-2011數據集包含200類樣本,包含5 994個訓練樣本和5 794個測試樣本。Stanford Cars和CUB-200-2011數據集的圖像尺寸均為224×224。
本文使用去除全連接層的VGG16[18],B-CNN[19]和ResNet50[20]網絡作為特征提取器。隨后添加了一層全連接層、一層AD層和一層分類層作為分類器。AD層的輸出是分類層的輸入。優化器設置為隨機梯度下降(stochastic gradient descent,SGD)算法,同時使用余弦退火算法[21]調節學習率。初始學習率(learning rate)設置為0.001,權重衰減(weight decay)設置為1×10-4,動量(momentum)設置為0.9。
將本文的AD方法與FC(無Dropout技術),Dropout[4],DropConnect[5],Concrete Dropout[6]和Cutout[7]方法,在4個常用的圖像分類數據集上進行了比較,見表1。AD方法在4個數據集上均獲得了較好的分類性能,說明其泛化性能良好。從實驗結果可以看出,在Stanford Cars和CUB-200-2011數據集上,本文方法獲得了較高的性能提升,是因為其利用了更多的復雜信息。此外,Cutout在某些情況下性能超過AD,但準確率非常接近。這是因為Cutout和本文方法均能使網絡捕捉到更多的特征表示,而不是僅僅關注最有判別力的特征。

表1 各個方法在相關數據集上的分類準確率(%)
注:黑體為提取器下的最好結果;下劃線標記為最好結果
通過消融實驗,分析本文方法的各個組件對分類性能的影響。使用預訓練完成的VGG16網絡作為特征提取器。在訓練階段將所提出的AD方法插入到分類層的2層全連接之間,并在CUB-200-2011數據集上進行實驗。
首先,探索了SE-block對分類性能的影響。從表2可以觀察到,在CUB-200-2011數據集上,SE-block能夠帶來輕微的性能提升;且能夠使網絡對特征重新分配權重,進而提高網絡的特征提取能力。為了進一步研究本文方法是否僅依靠SE-block提升分類性能,還在其后添加了AD層對神經元進行舍棄,但分類性能明顯下降。原因是對節點的舍棄概率過高,導致大量的有判別力的節點被舍棄,進而影響分類性能。當添加一個松弛因子對刪除率進行調節時,模型的分類性能得到了顯著地提高,這表明本文方法顯著增強了模型的特征提取能力。

表2 在CUB-200-2011數據集上不同設置下的準確率對比
注:黑體為提取器下的最好的結果;“P”和“O”分別表示是否使用該維度
為了進一步分析松弛因子對所分類性能的影響,在CIFAR-100數據集上,使用VGG16網絡作為主干網絡,通過變換松弛因子的值,觀察分類性能的變化,如圖3所示。從圖中可以看到,當=1.6時,本文方法獲得最佳分類性能,同時隨著的變化,分類性能大多高于FC (無Dropout技術),證明了其的優越性和魯棒性。

圖3 松弛因子c對所提方法分類性能的影響
眾所周知,過擬合問題在訓練集規模較小時,會愈加嚴重。為了進一步探究本文方法對過擬合問題的抑制能力,可通過逐漸減小訓練數據集規模并保持測試集規模不變的方式進行評估。使用預訓練完成的VGG16網絡作為特征提取器,在CIFAR-10數據集上進行了實驗。表3為不同方法在不同規模訓練數據集上的分類性能對比。每組實驗重復10次。當訓練集規模逐漸減少時,各個方法的性能均有明顯的下降。此外,本文方法幾乎在所有情況下均獲得了最佳的性能,這表明AD相比于其他同類方法,抑制過擬合的能力更加有效。最后,將對比方法與AD的實驗結果進行了配對樣本檢驗,選擇置信水平為0.01。結果表明,本文方法相比于其他方法的性能提升是顯著的。

表3 訓練集規模對所提方法分類性能的影響(%)
注:上表:當CIFAR-10數據集的訓練集規模逐漸減少時,各個方法的分類性能(%)對比(0.200:訓練集規模是原規模的0.2倍,以此類推)。下表:所提方法AD的實驗結果與其他方法結果通過配對樣本T檢驗計算出的值(***:≤0.001;**:0.001<≤0.01)
本文提出了AD方法,以鼓勵模型在學習最有判別力特征的同時,也能夠學習到次重要的但對分類仍有重要意義的特征。由于此原因,AD在Stanford Cars和CUB-200-2011的2個數據集上實現了目前最好的分類準確率,同時在CIFAR-10和CIFAR-100的2個數據集上也有著極具競爭力的分類準確率。通過實驗證明了AD可以應用到不同的CNN結構的分類器中,從而用來提升分類準確率。
[1] KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking vot2017 challenge results[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 1949-1972.
[2] VOULODINMOS A, DOULAMIS N, DOULAMIS A, et al. Deep learning for computer vision: a brief review[EB/OL]. [2020-06-15]. https://www.researchgate.net/publication/322895764_Deep_Learning_for_Computer_Vision_A_Brief_Review.
[3] ZHANG H, DANA K, SHI J, et al. Context encoding for semantic segmentation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7151-7160.
[4] SHEN X, TIAN X, LIU T, et al. Continuous dropout[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(9): 3926-3937.
[5] LI W, ZEILER M, ZHANG S, et al. Regularization of neural network using dropconnect[J]. Journal of Machine Learning Research, 2013, 28: 1058-1066.
[6] GAL Y, HRON J, KENDALL A. Concrete dropout[C]//The31st International conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann, 2017: 3581-3590.
[7] DEVRIES T, TAYLOR G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. [2020-06-21]. https://blog.csdn.net/mingqi1996/article/details/96129374.
[8] LABACH A, SALEHINEJAD H, VALAEE S. Survey of dropout methods for deep neural networks[EB/OL]. [2020-06-25]. https://arxiv.org/abs/1904.13310.
[9] WEI Y C, FENG J S, LIANG X D, et al. Object region mining with adversarial erasing: a simple classification to semantic segmentation approach[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 6488-6496.
[10] KIM D, CHO D, YOO D, et al. Two-phase learning for weakly supervised object localization[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 3554-3563.
[11] CHOE J, SHIM H. Attention-based dropout layer for weakly supervised object localization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2214-2223.
[12] LI K P, WU Z Y, PENG K C, et al. Tell me where to look: guided attention inference network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9215-9223.
[13] GHIASI G, LIN T Y, LE Q V. Dropblock: a regularization method for convolutional networks[C]//The 32nd International conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann, 2018: 10727-10737.
[14] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[15] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R]. Ontario Toronto: University of Tront, 2009.
[16] KRAUSE J, STARK M, DENG J, et al. 3D object representations for fine-grained categorization[C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 554-561.
[17] WAH C, BRANSON S, WELINDER P, et al. The caltech-UCSD birds200-2011 dataset[R]. California: California Institute of Technology, 2011.
[18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-26]. https://arxiv.org/abs/ 1409.1556.
[19] KONG S, FOWLKES C. Low-rank bilinear pooling for fine-grained classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 7025-7034.
[20] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[21] FIEDING B, ZHANG L. Evolving image classification architectures with enhanced particle swarm optimisation[J]. IEEE Access, 2018, 6: 68560-68575.
Attention-guided Dropout for image classification
CHANG Dong-liang1, YIN Jun-hui1, XIE Ji-yang1, SUN Wei-ya2, MA Zhan-yu1
(1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. South-to-North Water Diversion Middle Route Information Technology Co., Ltd., Beijing 100176, China)
When a large-scale neural network is trained on a small training set, it typically yields “overfitting”, i.e., the model performs poorly on held-out test data. Therefore, various Dropout techniques have been proposed to alleviate this problem. However, the aforementioned methods cannot directly encourage the model to learn the less discriminative parts, which is also important to reducing overfitting. To address this problem, we proposed an attention-guided Dropout (AD), which utilized the self-attention mechanism to alleviate the co-adaptation of feature detectors more effectively. The AD comprised two distinctive components, the importance measurement mechanism for feature maps and the Dropout with a learnable probability. The importance measurement mechanism calculated the degree of importance for each feature map in whole by a Squeeze-and-Excitation block. The Dropout with a learnable probability can force the “bad” neurons to learn a better representation by dropping the “good” neurons. Therefore, it will diminish the co-adaptation and encourage models to learn the less discriminative part. The experimental results show that the proposed method can be easily applied to various convolutional neural network (CNN) architectures, thus yielding better performance.
deep neural network; overfitting; Dropout; self-attention mechanism; image classification
TP 181
10.11996/JG.j.2095-302X.2021010032
A
2095-302X(2021)01-0032-05
2020-07-28;
28 July,2020;
2020-08-06
6 August,2020
國家重點研發計劃項目(2019YFF0303300,2019YFF0303302);國家自然科學基金項目(61773071,61922015,U19B2036);北京智源人工智能研究院項目(BAAI2020ZJ0204);北京市科技新星跨學科合作項目(Z191100001119140);中國留學基金管理委員會獎學金(202006470036);北京郵電大學博士生創新基金資助項目(CX2020105,CX2019109)
:National Key Research and Development Program of China (2019YFF0303300, 2019YFF0303302); National Natural Science Foundation of China (61773071, 61922015, U19B2036); Beijing Academy of Artificial Intelligence (BAAI2020ZJ0204); Beijing Nova Program Interdisciplinary Cooperation Project (Z191100001119140); Scholarship from China Scholarship Council (202006470036); BUPT Excellent Ph.D. Students Foundation (CX2020105, CX2019109)
常東良(1992-),男,河南靈寶人,博士研究生。主要研究方向為機器學習與計算機視覺。E-mail:changdongliang@bupt.edu.cn
CHANG Dong-liang (1992-), male, Ph.D. candidate. His main research interests cover machine learning and computer vision. E-mail:changdongliang@bupt.edu.cn
馬占宇(1982–),男,河北邯鄲人,教授,博士。主要研究方向為模式識別與機器學習。E-mail:mazhanyu@bupt.edu.cn
MA Zhan-yu (1982-), male, professor, Ph.D. His main research interests cover patten recognition, machine learning, etc. E-mail:mazhanyu@bupt.edu.cn