基于深度殘差注意力的圖像事件描述

2021-04-13 20:07:30張欣怡李永剛季興隆孫紅蓮

電腦知識與技術 2021年5期

張欣怡李永剛季興隆孫紅蓮

摘要：圖像事件描述是根據圖像特征數據再結合自然語言處理技術，輸出圖像事件的語句描述的技術。圖像事件的描述，對圖片分類、查詢等有著極高效率，為了達到更精確的描述效果，本文提出基于深度殘差注意力的圖像事件描述方法。該方法以ResNet的網絡結構為基礎，聯合分離出的全局注意力與局部注意力，關注圖像事件中心事件，生成圖像事件描述。在COCO數據集上的實驗表明，本文提出的方法能更好關注事件發生區域，對抽象事件描述更為準確。

關鍵詞：圖像事件描述;深度學習;注意力機制

Abstract： Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect， this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet， this method combines the separated global attention and local attention， focuses on the central event of the image event， and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.

Key words： image event description; deep learning; attention mechanism

在過去圖像描述研究中，主要采用傳統產生式模型，把圖像與文本作為輸入輸出數據，通過尋找底層特征與標簽之間的相關性轉換成相關語義信息。本文在前人圖像描述研究的基礎上，將基于產生式模型的深度學習方法應用到圖像邏輯語義描述問題上。

Faster-RCNN模型是在CNN模型[1]的基礎上，能夠更加快速更加高效地獲取圖像對象的候選區域，速度更快，準確率更高，能有效解決因為網絡疊加許多層厚帶來的性能快速下降問題[5]。早期的人工語義分析缺點多，耗時、費力、不能成批分析。雖然現有的圖像描述模型可以使用神經網絡（RNNs）來達到預期的結果，但難以保證我們關心的對象包含在生成的描述中，例如在圖像中模糊不明顯的對象。一旦在我們關注的對象在訓練中被忽略時，問題就會愈發復雜。因此我們采用在較大規模的數據集上訓練聯合的全局注意力和局部注意力[2]，通過注意力機制來關注不同類型的圖像細節，能更好描述抽象事件以及多義性事件，使得圖像描述具有更好的邏輯性，在遇到事件較不明顯的圖像時，能更方便快速地查詢。

1 基于深度學習與聯合注意力的事件描述模型

圖像事件描述模型是一種深度神經網絡模型，主要是由編碼器和解碼器聯合組成，其框架結構圖如圖1所示。在編碼器端采用了Faster R-CNN的RPN網絡和ResNet[4]來提取圖像的視覺特征，解碼器部分利用RNN的LSTM來負責關鍵字提取到句子生成。它們融合了聯合注意力機制來關注局部信息特征，能更好地描述總體圖像信息。

2 圖像事件描述關鍵技術分析

2.1 特征提取模型

在計算機視覺領域，卷積神經網絡被廣泛應用，如圖像分類、目標對象檢測與跟蹤等。CNN由多個卷積層、池化層和全連接層構成，其強大的視覺表達能力可以學習到更高級的視覺特征。視覺特征逐層傳遞在不同的網絡層間，主要學習紋理、顏色和輪廓等低層視覺特征以及由低層視覺特征再組合而成的高層視覺特征。雖然普通的R-CNN在視覺特征表達能力上有了質的飛躍，但對于目前龐大的數據集，其訓練步驟、測試速度依然較慢，且極占空間。在此基礎上，如圖2模型所示，本文采用Faster R-CNN算法[7]，同樣用CNN提取圖像的特征得到特征圖，利用RPN網絡得到候選區域，通過ROI pooling得到同等大小的特征后，再送入多分類器，并采用損失函數對位置進行精修調整，從而提高了模型的檢測的速度與準確度。

2.2 基于深度殘差網絡的注意力機制

當網絡層數較低時，不斷加深網絡，有著更好的非線性表達能力，可以學習更加復雜的變換，能更好地擬合特征，更深的網絡層也能學習到更加復雜的表達。但在人們嘗試了將網絡不斷加深后發現，一味地堆疊網絡也可能會導致模型性能更差，即退化問題。深層網絡帶來的梯度不穩定、網絡退化的問題始終都是存在的且無法完全消除，因此引入殘差網絡ResNet，來加快計算速度，減少計算消耗。深度殘差網絡是由殘差模塊共同串聯而成，以殘差深度網絡ResNet 的網絡結構為基礎，在較大規模的數據集上訓練深度更深的網絡，使得深度模型在處理圖像描述任務中的泛化能力更強、魯棒性更好。

注意力機制通過一個小型網絡學習得到一組權值系數，該權值用來評估各個特征通道的重要程度，然后再賦予合適的權重。

基于深度殘差網絡的注意力機制，是將SENet與殘差模塊集成在一起，因跨層恒等路徑的存在，SENet能更加容易得到訓練，且每個樣本都可以有自己獨特的一組權值系數。圖3為殘差模塊與注意力機制結合得到的模型結構。

LSTM[6]屬于特殊的一種遞歸神經網絡（RNNs），RNNs是當前時刻的輸出，與當前時刻輸入和上一刻輸入都相關。在LSTM模型中，對應于一句話中的每個單詞都是平等的，且其中包含遺忘門，會更加傾向記住后輸入的詞匯。全局注意力的目的是在生成一個句向量時能將所有的隱藏狀態也考慮進來，全局注意力機制通過學習來得到一句話中每個單詞的權重。LSTM聯合注意力機制能使生成的描述性語句更具有邏輯性。

在數據集中，基本上都含有噪聲或者冗余信息。廣而言之，在一個樣本中，任何與當前目標檢測任務無關的信息，都可以看作是噪聲或者冗余信息，他們都會對當前識別任務造成不利的影響。而局部注意力機制能讓特征提取出我們所需要的區域，過濾掉其他冗余信息。全局注意力機制是在提取相應的局部特征后，根據權重對所有的“patch”進行學習映射再整合推斷整個圖片的信息。注意力機制使圖片能夠在低解析度或低辨識度的復雜背景下，關注高解析特征的特定候選區域，再逐漸調整焦點，移動到其他特定區域，最后組合進行推斷整張圖片的信息。

3 實驗結果集分析

如圖4所示，圖片由CNN編碼后，帶入到基于注意力機制的Faster R-CNN網絡中，先關注圖片各個局部特征并輸出每個詞的映射關系，再關注圖片整體特征將其整合成句向量。

圖4的圖像素材得到了如圖5所示的具有邏輯性的描述語句，從中可看出，本文方法生成的圖像時間描述較為合理和完備地顯示了圖片信息的動作事件，相較于普通圖像描述，更具準確性，具有明顯優勢。

4 結束語

本文在深度學習與注意力機制的基礎上，在圖像描述中更多的加入抽象的圖像中各物體之間的關系，來達到將一幅或多幅信息較大的圖像壓縮描述為一句話。在CNN和LSTM神經網絡結合的基礎上，通過注意力模型，對計算機獲取的區域紋理、運動方向、圖像色塊等圖像特征進行自動語義描述。總體來說，它是一個基于卷積神經網絡編碼的語言描述系統，便于對圖像或視頻的分享和查找，能在監控、醫學、體育、新聞以及影片視頻片段的語義分析中發揮重要作用。綜上，圖像事件描述方法的研究成果可批量化生產，且具有較大的市場需求，能實現很高的商業價值與社會價值。

參考文獻：

[1] Anderson P， He X， Buehler C， et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. 2018：6077–6086.

[2] Ranjay K， Kenji H， Frederic R， et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision （ICCV）. 2017：706–715.

[3] Xu K， Ba J， Kiros R， et al. Show， Attend and Tell： Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning（ICML）. 2015：2048–2057.

[4] Kaiming He，Xiangyu Zhang，Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.

[5] BoDai SanjaFidler DahuaLin? A Neural Compositional Paradigm for Image Captioning.

[6] 湯華東. 基于LSTM融合多CNN的事件圖像分類研究[D]. 北京交通大學， 2018.

[7] Wu Xiaofeng，Zhang Jiangxin， and Xu Xinchen，Hand Gesture Recognition Algorithm Based on Faster R-CNN， Journal of Computer-Aided Design & Computer Graphics，Vol.30 No.3，Mar. 2018.

【通聯編輯：唐一東】