999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度殘差注意力的圖像事件描述

2021-04-13 20:07:30張欣怡李永剛季興隆孫紅蓮
電腦知識與技術 2021年5期
關鍵詞:深度學習

張欣怡 李永剛 季興隆 孫紅蓮

摘要:圖像事件描述是根據圖像特征數據再結合自然語言處理技術,輸出圖像事件的語句描述的技術。圖像事件的描述,對圖片分類、查詢等有著極高效率,為了達到更精確的描述效果,本文提出基于深度殘差注意力的圖像事件描述方法。該方法以ResNet的網絡結構為基礎,聯合分離出的全局注意力與局部注意力,關注圖像事件中心事件,生成圖像事件描述。在COCO數據集上的實驗表明,本文提出的方法能更好關注事件發生區域,對抽象事件描述更為準確。

關鍵詞:圖像事件描述;深度學習;注意力機制

Abstract: Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect, this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet, this method combines the separated global attention and local attention, focuses on the central event of the image event, and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.

Key words: image event description; deep learning; attention mechanism

在過去圖像描述研究中,主要采用傳統產生式模型,把圖像與文本作為輸入輸出數據,通過尋找底層特征與標簽之間的相關性轉換成相關語義信息。本文在前人圖像描述研究的基礎上,將基于產生式模型的深度學習方法應用到圖像邏輯語義描述問題上。

Faster-RCNN模型是在CNN模型[1]的基礎上,能夠更加快速更加高效地獲取圖像對象的候選區域,速度更快,準確率更高,能有效解決因為網絡疊加許多層厚帶來的性能快速下降問題[5]。早期的人工語義分析缺點多,耗時、費力、不能成批分析。雖然現有的圖像描述模型可以使用神經網絡(RNNs)來達到預期的結果,但難以保證我們關心的對象包含在生成的描述中,例如在圖像中模糊不明顯的對象。一旦在我們關注的對象在訓練中被忽略時,問題就會愈發復雜。因此我們采用在較大規模的數據集上訓練聯合的全局注意力和局部注意力[2],通過注意力機制來關注不同類型的圖像細節,能更好描述抽象事件以及多義性事件,使得圖像描述具有更好的邏輯性,在遇到事件較不明顯的圖像時,能更方便快速地查詢。

1 基于深度學習與聯合注意力的事件描述模型

圖像事件描述模型是一種深度神經網絡模型,主要是由編碼器和解碼器聯合組成,其框架結構圖如圖1所示。在編碼器端采用了Faster R-CNN的RPN網絡和ResNet[4]來提取圖像的視覺特征,解碼器部分利用RNN的LSTM來負責關鍵字提取到句子生成。它們融合了聯合注意力機制來關注局部信息特征,能更好地描述總體圖像信息。

2 圖像事件描述關鍵技術分析

2.1 特征提取模型

在計算機視覺領域,卷積神經網絡被廣泛應用,如圖像分類、目標對象檢測與跟蹤等。CNN由多個卷積層、池化層和全連接層構成,其強大的視覺表達能力可以學習到更高級的視覺特征。視覺特征逐層傳遞在不同的網絡層間,主要學習紋理、顏色和輪廓等低層視覺特征以及由低層視覺特征再組合而成的高層視覺特征。雖然普通的R-CNN在視覺特征表達能力上有了質的飛躍,但對于目前龐大的數據集,其訓練步驟、測試速度依然較慢,且極占空間。在此基礎上,如圖2模型所示,本文采用Faster R-CNN算法[7],同樣用CNN提取圖像的特征得到特征圖,利用RPN網絡得到候選區域,通過ROI pooling得到同等大小的特征后,再送入多分類器,并采用損失函數對位置進行精修調整,從而提高了模型的檢測的速度與準確度。

2.2 基于深度殘差網絡的注意力機制

當網絡層數較低時,不斷加深網絡,有著更好的非線性表達能力,可以學習更加復雜的變換,能更好地擬合特征,更深的網絡層也能學習到更加復雜的表達。但在人們嘗試了將網絡不斷加深后發現,一味地堆疊網絡也可能會導致模型性能更差,即退化問題。深層網絡帶來的梯度不穩定、網絡退化的問題始終都是存在的且無法完全消除,因此引入殘差網絡ResNet,來加快計算速度,減少計算消耗。深度殘差網絡是由殘差模塊共同串聯而成,以殘差深度網絡ResNet 的網絡結構為基礎,在較大規模的數據集上訓練深度更深的網絡,使得深度模型在處理圖像描述任務中的泛化能力更強、魯棒性更好。

注意力機制通過一個小型網絡學習得到一組權值系數,該權值用來評估各個特征通道的重要程度,然后再賦予合適的權重。

基于深度殘差網絡的注意力機制,是將SENet與殘差模塊集成在一起,因跨層恒等路徑的存在,SENet能更加容易得到訓練,且每個樣本都可以有自己獨特的一組權值系數。圖3為殘差模塊與注意力機制結合得到的模型結構。

LSTM[6]屬于特殊的一種遞歸神經網絡(RNNs),RNNs是當前時刻的輸出,與當前時刻輸入和上一刻輸入都相關。在LSTM模型中,對應于一句話中的每個單詞都是平等的,且其中包含遺忘門,會更加傾向記住后輸入的詞匯。全局注意力的目的是在生成一個句向量時能將所有的隱藏狀態也考慮進來,全局注意力機制通過學習來得到一句話中每個單詞的權重。LSTM聯合注意力機制能使生成的描述性語句更具有邏輯性。

在數據集中,基本上都含有噪聲或者冗余信息。廣而言之,在一個樣本中,任何與當前目標檢測任務無關的信息,都可以看作是噪聲或者冗余信息,他們都會對當前識別任務造成不利的影響。而局部注意力機制能讓特征提取出我們所需要的區域,過濾掉其他冗余信息。全局注意力機制是在提取相應的局部特征后,根據權重對所有的“patch”進行學習映射再整合推斷整個圖片的信息。注意力機制使圖片能夠在低解析度或低辨識度的復雜背景下,關注高解析特征的特定候選區域,再逐漸調整焦點,移動到其他特定區域,最后組合進行推斷整張圖片的信息。

3 實驗結果集分析

如圖4所示,圖片由CNN編碼后,帶入到基于注意力機制的Faster R-CNN網絡中,先關注圖片各個局部特征并輸出每個詞的映射關系,再關注圖片整體特征將其整合成句向量。

圖4的圖像素材得到了如圖5所示的具有邏輯性的描述語句,從中可看出,本文方法生成的圖像時間描述較為合理和完備地顯示了圖片信息的動作事件,相較于普通圖像描述,更具準確性,具有明顯優勢。

4 結束語

本文在深度學習與注意力機制的基礎上,在圖像描述中更多的加入抽象的圖像中各物體之間的關系,來達到將一幅或多幅信息較大的圖像壓縮描述為一句話。在CNN和LSTM神經網絡結合的基礎上,通過注意力模型,對計算機獲取的區域紋理、運動方向、圖像色塊等圖像特征進行自動語義描述。總體來說,它是一個基于卷積神經網絡編碼的語言描述系統,便于對圖像或視頻的分享和查找,能在監控、醫學、體育、新聞以及影片視頻片段的語義分析中發揮重要作用。綜上,圖像事件描述方法的研究成果可批量化生產,且具有較大的市場需求,能實現很高的商業價值與社會價值。

參考文獻:

[1] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018:6077–6086.

[2] Ranjay K, Kenji H, Frederic R, et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision (ICCV). 2017:706–715.

[3] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning(ICML). 2015:2048–2057.

[4] Kaiming He,Xiangyu Zhang,Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.

[5] BoDai SanjaFidler DahuaLin? A Neural Compositional Paradigm for Image Captioning.

[6] 湯華東. 基于LSTM融合多CNN的事件圖像分類研究[D]. 北京交通大學, 2018.

[7] Wu Xiaofeng,Zhang Jiangxin, and Xu Xinchen,Hand Gesture Recognition Algorithm Based on Faster R-CNN, Journal of Computer-Aided Design & Computer Graphics,Vol.30 No.3,Mar. 2018.

【通聯編輯:唐一東】

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 久久免费成人| 少妇精品在线| 国产精品刺激对白在线| 视频二区欧美| 伊人AV天堂| 国产精品jizz在线观看软件| 99激情网| 日韩高清欧美| 国产人成在线观看| 成人精品免费视频| 亚洲av无码片一区二区三区| 麻豆精品在线视频| 中文字幕第4页| h网站在线播放| 久久国产精品77777| 成人午夜视频免费看欧美| 久久一日本道色综合久久| 色九九视频| 国产激情国语对白普通话| 日韩高清在线观看不卡一区二区| 奇米影视狠狠精品7777| 亚洲精品国产成人7777| 久操线在视频在线观看| 婷婷午夜天| 精品国产免费观看| 中日韩一区二区三区中文免费视频 | 亚洲伦理一区二区| 亚洲第七页| 久久情精品国产品免费| 亚洲av无码久久无遮挡| 国产成人精品一区二区不卡| 久久99国产乱子伦精品免| av午夜福利一片免费看| 亚洲精品动漫| 香港一级毛片免费看| 91九色国产在线| 综合色亚洲| 久久视精品| 中文字幕无码制服中字| 少妇被粗大的猛烈进出免费视频| 亚洲欧美精品在线| 日本亚洲欧美在线| 无码免费视频| 免费观看欧美性一级| 在线看片中文字幕| 婷婷开心中文字幕| 亚洲欧美日韩天堂| 国产精品成| 亚洲精品国产首次亮相| 在线另类稀缺国产呦| 成人福利在线免费观看| 久久青草视频| 91激情视频| 伊人色综合久久天天| 一级毛片在线播放| 色老头综合网| 国产精品视频猛进猛出| 亚洲AⅤ永久无码精品毛片| 老司机精品99在线播放| 国产免费久久精品99re丫丫一| 99视频精品全国免费品| 国产中文一区a级毛片视频| 久久综合久久鬼| a毛片在线免费观看| 欧美日韩资源| 好紧太爽了视频免费无码| 日韩无码真实干出血视频| 一本视频精品中文字幕| 国产原创演绎剧情有字幕的| 亚洲精品动漫在线观看| 国产91成人| 国产99视频在线| 91精品亚洲| 在线视频一区二区三区不卡| 亚洲看片网| 成人在线观看不卡| 精品国产乱码久久久久久一区二区| 992Tv视频国产精品| 综合网天天| 高清无码一本到东京热| 干中文字幕| 91精品啪在线观看国产60岁|