999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進注意力機制的圖像描述生成算法

2021-07-02 00:35:24李文惠曾上游王金金
計算機應用 2021年5期
關鍵詞:機制特征模型

李文惠,曾上游,王金金

(廣西師范大學電子工程學院,廣西桂林 541004)

(*通信作者電子郵箱zsy@mailbox.gxnu.edu.cn)

0 引言

圖像描述是將圖像用自然語言句子表達出來,它是計算機視覺的主要研究任務之一。圖像描述對于計算機而言不僅需要識別圖像中的對象,而且還要理解圖像中的內容以及對象之間存在的關系,最后計算機還要用自然語言句子去將圖像內容正確地表達出來,因此圖像描述任務對于計算機視覺領域的研究來說還是存在一定的難度。目前圖像描述存在的問題主要包括圖像分類問題和自然語言處理問題。針對圖像分類問題,卷積神經網絡(Convolutional Neural Network,CNN)通過自動提取圖像特征,使圖像分類的準確率達到甚至超過了人類肉眼對圖像分類識別的標準;針對自然語言處理問題,循環神經網絡(Recurrent Neural Network,RNN)通過記住句子中詞的相對關系,去處理自然語言句子。然而對于上述兩者問題的結合而言,雖然目前存在相關網絡能夠在一定程度上簡單地描述圖像,但沒有在各自領域研究得那么深入。實現圖像描述的方法主要分三種:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法和基于深度學習的圖像描述生成方法。近年來,圖像描述主流方法是深度學習。深度學習模型的訓練方式是端到端,其優點是它可以自己學習特征,避免了人為地去設計參數。對于圖像描述生成模型,整體大致分為兩個部分:編碼(ENCODER)和解碼(DECODER)[1]。在圖像編碼中,通過多層深度卷積神經網絡[2-4]針對圖像中的物體特征建立起模型;在圖像解碼中,通過循環神經網絡針對文本信息建立起模型。運用循環神經網絡[5-6]將文本信息與圖像信息映射在同一個空間中,利用圖像信息引導文本句子生成。隨著深度學習研究的不斷深入,強化學習[7-8]和基于注意力機制[9-10]的研究方法相繼涌現。該方法對模板、規則的約束少,能自動推斷出測試圖像及其相對應的文本,自動地從大量的訓練集中學習圖像和文本信息,生成更靈活、更豐富的圖像描述句子,還能描述從未見過的圖像內容特征。本文引入改進的注意力機制,不僅可以減少模型參數,而且能更準確地生成描述圖像的自然語言句子和提升圖像描述生成模型的評價指標。

1 相關工作及本文方法

首先簡單介紹有關圖像描述生成和注意力機制先前工作的背景。2014 年Vinyals 等[1]提出了一個基本的卷積神經網絡(CNN)聯合循環神經網絡(RNN)的圖像描述框架,在圖像描述的領域中取得了巨大的突破,同時也提出了評價圖像描述生成模型性能的指標,但是依然沒有考慮到詞對應圖像位置這一缺陷。基于此問題,2016 年Xu 等[11]從人的視覺上受到啟發,在文獻[1]框架中引入了注意力機制,使得計算機描述圖像更加符合人類的描述機制,在指標上也得到相應的提升,同時也驗證了注意力機制的可行性。上述所說的基于深度學習的描述算法雖能產生描述圖像的自然語言句子,但總體上有一定的局限性,如參數過多、注意力還有很大的提升空間。

本文提出了一種基于CNN 和長短期記憶元的圖像描述生成,并引入改進的注意力機制的模型。改進的注意力機制是在文獻[11]的基礎模型上改進的,改進的點是將原全連接層替換成了文中注意力機制(ATTENTION),全連接層不僅參數多而且關注很多無用的信息,造成信息冗余,文中引入注意力機制的結構能有效地避開這些問題。本文提取圖像特征采用了兩種卷積神經網絡,分別是VGG(Visual Geometry Group)和ResNet(Residual Network),解碼采用長短期記憶(Long Short-Term Memory,LSTM)網絡[12],同時引入改進的注意力機制,最終生成圖像描述的自然語言句子,能夠有效提升圖像中的內容與句子描述的相關聯度,同時圖像描述的相關評估指標有所提升,生成更接近人類語言的圖像描述自然語言句子。

2 本文模型

本文模型分為兩個模塊:ENCODER 模塊和DECODER 模塊。ENCODER 模塊采用卷積神經網絡,其功能在于提取圖像的特征,對圖像進行編碼,將圖像編碼為特征向量;DECODER 模塊是將編碼后的圖像解碼成自然語句,它主要通過長短期記憶網絡解碼圖像信息,其功能是提取句子單詞之間的句法特征,依據選擇的圖像特征生成圖像描述的自然語言句子。本文使用CNN+LSTM+ATTENTION 的基本框架[13]來完成。將圖像輸入到卷積神經網絡中,得到網絡輸出的特征向量,文本的詞通過嵌入(EMBEDDING)層將詞轉成詞向量,將特征向量和詞向量拼接后輸入到長短期記憶單元,產生新的預測詞,通過集束搜索(Beam Search)的方式產生預測的句子。模型整體結構如圖1所示。

圖1 本文模型整體結構Fig.1 Overall structure of the proposed model

ENCODER 模塊采用的是VGG19 網絡和ResNet101,VGG19網絡是使用3×3卷積核的卷積層堆疊并交替最大池化層,VGG 網絡的一大優點是簡化了神經網絡結構,本文選取VGG19 網絡中最后一個最大池化層的輸出特征圖,再加一個1×1 卷積使得VGG19 和ResNet101 的輸出特征圖維度相同,1×1 卷積輸出的特征圖經自適應池化層后,得到的自適應特征圖作為整個網絡中的ENCODER 模塊輸出特征圖。VGG19只有19 層,ResNet101 有101 層,它們在網絡深度上完全不是一個量級,ResNet101可以使用一個稱為殘差模塊的標準網絡組件來組成更復雜的網絡,網絡加深的同時也保持了網絡的性能,解決了深度網絡的退化問題,本文選取ResNet101 網絡平均池化層的輸入特征圖,將經自適應池化層后的特征圖作為整個網絡中的ENCODER 模塊輸出特征圖。DECODER 模塊采用LSTM 網絡,該網絡可以連接先前的信息到當前的信息,語句的預測是和詞的先前信息有一定的關聯的,而LSTM網絡適合處理這類時間序列問題[14]。

本文引入分組注意力機制,結構如圖2 所示。Encoder_out 是卷積神經網絡輸出的特征圖,大小為2 048×14×14,Decoder_hidden是LSTM的隱藏輸出,大小為512×1×1。

圖2 改進的注意力機制Fig.2 Improved attention mechanism

本文設計的是分組卷積注意力,通過1×1 卷積(Conv_1×1)分別整合圖片特征和詞特征,用激活函數ReLU(Rectified Linear Unit)將整合的特征引入非線性,得到激活特征并將其分成兩組卷積,分別是3×3 卷積(Conv_3×3)和1×1 卷 積(Conv_1×1),且都使用激活函數ReLU 引入非線性,再拼接輸入到線性層(linear)中,通過softmax函數得到圖像和詞的關聯度,進而形成新的注意力分布。通過分組的特征注意力,可以更加合理地分布原圖和詞對應的注意力,新的注意力分布與輸入的圖像相乘,得到詞對應圖像的注意圖(Attention_feature)。

3 實驗設置

實驗環境 本實驗使用pytorch 作為深度學習底層框架,計算機內存為32 GB RAM、英特爾i7-6700K 四核八線程CPU以及NVIDIA-GTX1080Ti GPU,操作系統為Windows 10 64位。

3.1 評價指標

本文使用了多種評價指標:BLEU(Bilingual Evaluation Understudy)[15]、CIDEr(Consensus-based Image Description Evaluation)[16]、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)[17]和METEOR(Metric for Evaluation of Translation with Explicit Ordering)[18]。與此同時,本文列出了上述評價指標的計算公式。

3.1.1 BLEU

BLEU 用于比較候選譯文和參考譯文里的n-gram 的重合程度,重合程度越高就認為譯文質量越高。pn中的n表示ngram,pn表示n-gram的精度。

式(2)中:BP表示長度懲罰因子,lc表示翻譯譯文的長度,ls表示參考答案的有效長度,當存在多個參考譯文時,選取和翻譯譯文最接近的長度。當翻譯譯文長度大于參考譯文的長度時,懲罰系數為1,表示不懲罰,只有機器翻譯譯文長度小于參考答案才會計算懲罰因子。

由于各n-gram 統計量的精度隨著gram 階數的升高而呈指數形式遞減,所以為了平衡各階統計量的作用,式(3)中對其采用幾何平均形式求平均值然后加權,再乘以長度懲罰因子,得到最后的評價公式,n的上限取值為4,即最多只統計4-gram的精度。

3.1.2 ROUGE-L

ROUGE-L 計算的是候選摘要與參考摘要的最長公共子序列長度,長度越長,得分越高。

其中:X表示候選摘要,Y表示參考摘要,LCS(Longest Common Subsequence)表示候選摘要與參考摘要的最長公共子序列的長度,m表示參考摘要的長度,n表示候選摘要的長度,Rlcs和Plcs分別表示召回率和準確率。

3.1.3 CIDEr

式中:c表示候選標題,S表示參考標題集合,n表示評估的是n-gram,M表示參考字幕的數量,gn(·)表示基于n-gram 的TFIDF(Term Frequency-Inverse Document Frequency)向 量。CIDEr 是把每個句子看成文檔,然后計算其TF-IDF 向量的余弦夾角,據此得到候選句子和參考句子的相似度。

3.1.4 METEOR

其中:α為可調控的參數,m為候選翻譯中能夠被匹配的一元組的數量,c為候選翻譯的長度,r為參考摘要的長度。式(8)中,pen為懲罰因子,懲罰的是候選翻譯中的詞序與參考翻譯中的詞序的不同。

3.2 實驗數據集

本次實驗采用了Flickr8K[19]和Flickr30K[20]數據集,兩個數據集都是一張圖片對應5句描述自然語言句子,Flickr8K數據集約8 000 幅圖像,Flickr30K 約30 000 幅圖像,這兩個數據集中的圖像都是針對特定對象和動作的。如圖3所示。

圖3 某張圖像對應的自然語言句子Fig.3 Natural language sentences corresponding to one image

3.3 參數設置

本文設置的詞嵌入維度是512,LSTM 的輸出維度為512,輸入數據的batch size 為32。微調卷積神經網絡,訓練網絡時,卷積神經網絡的學習率設置為1E-4,長短期記憶網絡學習率設置為4E-4。整個網絡采用Adam 優化器訓練,防止反向傳播梯度爆炸,如果連續8 個epoch 評價指標都沒有改善,則學習率降低為原來的0.8,并在20 個epoch 后終止訓練,實驗時在反向傳播中加入了梯度截斷,可以有效地避免梯度爆炸。損失函數使用的是交叉熵損失函數。在測試中使用集束搜索的方式,假設詞匯表關聯詞匯beam size的大小為5。

3.4 實驗結果及分析

在Flickr8K 和Flickr30K 兩個數據集的比對實驗中,數據集使用的是公共劃分標準[21],使用數據集中的1 000張圖像進行驗證,1 000 張圖像進行測試,其余用于訓練。根據文獻[21]可知數據集拆分的差異不會對整體性能產生實質性的影響。用傳統的CNN+LSTM 網絡和本文所使用的CNN+LSTM+ATTENTION 網絡在上述的兩個數據集上做對比實驗,對圖像描述的各項指標如表1所示。

表1 不同模型在Flickr8K數據集上的幾種評價指標對比 單位:%Tab.1 Comparison of several evaluation indicators of different models on Flickr8K dataset unit:%

本文提出的注意力機制是通過對圖像的特征和詞的特征分組卷積,得到不同的注意力,再經過線性層整合這些不同的注意力,生成一個圖像和詞相關聯的新注意力分布,將提出的注意力機制嵌入到傳統的模型中,能更加準確地生成描述圖像的自然語言句子。因此當選取的卷積神經網絡為VGG19時,VGG19+LSTM+ATTENTION 比VGG19+LSTM 網絡在指標上都有所提高,引入分組注意力的模型比傳統模型的BLEU_4提升了1.08 個百分點,ROUGE_L 提升了0.91 個百分點,CIDEr提升了3.06個百分點。

從表1 可知,當卷積神經網絡為更深、更復雜的ResNet101 時,ResNet101+LSTM 網絡在各評價指標已經高于VGG19+LSTM+ATTENTION 和VGG19+LSTM 網絡。在引入改 進 ATTENTION 的 ResNet101+LSTM 網 絡 之 后,比ResNet101+LSTM 網絡的評價指標有更加明顯的提高,特別是,BLEU_4 和CIDEr 分別提升了1.94 個百分點和6.13 個百分點。在Flickr8K 數據集上引入注意力機制的VGG 網絡和ResNet,通過各項指標的比較,驗證了本文提出的注意力機制的可行性和高效性。為了進一步驗證改進的注意力機制的高效性,在數據集Flickr30K 上做了相同的對比實驗,實驗結果如表2所示。

表2 不同模型在Flickr30K數據集上的幾種評價指標對比 單位:%Tab.2 Comparison of several evaluation indicators of different models on Flickr30K dataset unit:%

傳統的模型沒有考慮到詞和圖片位置的關系,而本文所提的改進注意力機制,使模型能夠關注到詞和圖像的對應位置,更加符合人類的肉眼觀察機制,在較大的Flickr30K 數據集中,通過引入改進注意力機制模型和傳統編解碼模型這兩種模型的對比,ResNet101 網絡的各項指標比VGG19 網絡有更為突出的效果,在該數據集上,引入改進的注意力機制ResNet101 和VGG19 網絡在評價指標BLEU_4 上各提升了4.91個百分點和4.71個百分點。

在Flickr8K 數據集和Flickr30K 數據集中各自隨機選取一張圖像,并可視化描述語句對應該圖片的注意力分布圖,如圖4和圖5所示。

圖4 Flickr8K數據集中單詞對應的注意力熱力圖Fig.4 Attention heat map corresponding to words in Flickr8K dataset

圖5 Flickr30K數據集中單詞對應的注意力熱力圖Fig.5 Attention heat map corresponding to words in Flickr30K dataset

改進的注意力模型根據對語句中當前單詞和圖像關注到接下來需要描述的圖像部分,將局部注意力映射到原圖中,模型中分支的3×3 卷積和1×1 卷積可以分別關注詞對應的不同局部特征,再連接分支的不同局部特征輸入到全連接后,得到詞對應多個存在關聯的局部特征區域即注意力分布,不僅有效地減少特征的冗余,而且得到多個局部注意力特征。

表3 中Google NIC 模型是首次提出圖像描述生成的編碼-解碼基本框架,圖像描述生成任務中引入這樣的架構已成為主流。注意力機制的基本思想是利用卷積層獲取圖像特征后,對圖像特征進行注意力加權,之后再送入RNN 中進行解碼,表3 中 的SCA-CNN-VGG(Spatial and Channel-wise Attention in Convolutional Neural Networks)模型是用通道注意力和空間注意力結合的方式來進行圖像描述生成,Hard-Attention 是即將圖像中最大權重置為1,而將其他區域權重置0,以達到僅注意一個區域的目的,雙向單注意力網絡和雙向雙注意力網絡都是近年對注意力較新的改進,ATTENTION 機制已經成為一種主流的模型構件。

表3 所提模型與其他模型幾種評價指標對比 單位:%Tab.3 Comparison of several evaluation indicators of the proposed model and other models unit:%

由表3 可知,有注意力機制的模型比Google NIC 指標都有比較明顯的提升,ENCODER 模塊是使用相同的卷積神經網絡,DECODER 模塊是使用相同的長短記憶元網絡,保證了實驗的合理性和公平性。本文提出的改進注意力機制通過分組卷積注意力,更合理地分布原圖和詞對應的注意力。相對于其他的注意力模型,進一步提升了準確率,說明本文改進的注意力機制能更有效地篩選有用特征作為長短記憶元網絡的輸入,表3中所有的模型都在Flickr30K數據集上驗證,表明本文改進模型有較好的泛化性。隨機選取Flickr8K 數據集和Flickr30K的示例圖分別為圖6和圖7,對比傳統模型和改進模型對圖像描述生成效果。

圖6 Flickr8K示例圖片對應的自然語言句子Fig.6 Natural language sentences corresponding to Flickr8K sample image

圖7 Flickr30K示例圖片對應的自然語言句子Fig.7 Natural language sentences corresponding to Flickr30K sample image

傳統模型(ResNet101+LSTM)生成的自然語言句子:

a man in a blue jacket is sitting on a wooden bench.

改進模型(ResNet101+LSTM+ATTENTION)生成的自然語言句子:

a man in a red jacket is sitting on a bench.

傳統模型將圖片中的紅色夾克信息生成了錯誤的藍色夾克信息,而改進模型準確地生成了紅色夾克信息。

傳統模型(ResNet101+LSTM)生成的自然語言句子:

a little girl in a pink shirt is playing with a hula hoop.

改進模型(ResNet101+LSTM+ATTENTION)生成的自然語言句子:

a little girl in a pink shirt pushing a green stroller.

傳統模型對Flickr30K 示例圖片中生成了錯誤的呼啦圈信息,而改進模型準確地生成綠色的嬰兒推車信息。

在Flickr8K 數據集和Flickr30K 數據集中,ResNet101+LSTM 生成的語句中存在一些錯誤,翻譯得不是很準確,而ResNet101+LSTM+ATTENTION 模型能較為準確地翻譯圖片內容,且基本沒有語法錯誤。

4 結語

本文提出了一種基于CNN 和LSTM 且引入了改進的注意力機制的網絡模型,采用了經典VGG19 網絡以及具有更深層的ResNet101網絡對圖像進行特征編碼,通過用EMBEDDING對自然語言句子的詞進行詞編碼進而得到詞向量,經LSTM將特征向量和詞向量映射到同一空間中,在引入改進的注意力機制作用下,使圖像信息引導生成與圖像更加符合的自然語言句子,同時也提升了本文所提出的模型的魯棒性。實驗結果表明,本文提出的模型泛化能力明顯更好一些,在圖像描述生成的自然語言句子和評價指標上都優于傳統的模型。

猜你喜歡
機制特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 亚洲αv毛片| 亚欧美国产综合| 成人欧美在线观看| 久久久成年黄色视频| 国产免费福利网站| 成人福利在线观看| 欧美一级高清片欧美国产欧美| 奇米精品一区二区三区在线观看| 国产视频自拍一区| 国产精鲁鲁网在线视频| 日本国产精品一区久久久| 丰满的少妇人妻无码区| 欧美午夜视频在线| www.亚洲国产| 亚洲香蕉久久| 国产精品七七在线播放| 国产一级无码不卡视频| 色悠久久综合| 996免费视频国产在线播放| 天天综合亚洲| 国产成人在线无码免费视频| 日韩一级二级三级| 中文天堂在线视频| 色吊丝av中文字幕| 亚洲综合色在线| 国产91透明丝袜美腿在线| 一级黄色片网| aa级毛片毛片免费观看久| 波多野结衣一区二区三区AV| 欧美精品亚洲精品日韩专| Aⅴ无码专区在线观看| 久久77777| 91久久偷偷做嫩草影院电| 成·人免费午夜无码视频在线观看 | 中文字幕无码制服中字| 国产大片喷水在线在线视频| 久久人妻系列无码一区| 中文字幕无码av专区久久| 中国毛片网| 国产男女XX00免费观看| 免费国产高清精品一区在线| 亚洲日韩AV无码精品| 中国国产高清免费AV片| 国产自产视频一区二区三区| 国产91九色在线播放| 伊人福利视频| 欧美午夜视频| 丝袜国产一区| 免费一级毛片在线播放傲雪网 | 国产一区二区三区在线观看视频| 青青网在线国产| 国产制服丝袜91在线| 在线观看无码av五月花| 色悠久久综合| 最新精品久久精品| 国产香蕉在线视频| 人妻一区二区三区无码精品一区| 国产福利微拍精品一区二区| 国产精品99在线观看| 国产情侣一区| 欧美成人一级| 91精品人妻互换| 日本五区在线不卡精品| 免费毛片视频| 九九热在线视频| 九色免费视频| 日韩成人在线视频| 欧美精品亚洲精品日韩专| 97精品国产高清久久久久蜜芽| 亚洲Aⅴ无码专区在线观看q| 激情六月丁香婷婷四房播| 亚洲区欧美区| 亚洲国产av无码综合原创国产| 日韩欧美中文| 特级欧美视频aaaaaa| 四虎成人在线视频| 五月激激激综合网色播免费| 欧美a√在线| 999精品色在线观看| 欧美在线一级片| 亚洲资源站av无码网址| 国产午夜精品一区二区三|