999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識增強與注意力機制的雙通道圖像描述研究

2021-02-25 03:09:48陶云松張麗紅
測試技術學報 2021年1期
關鍵詞:機制特征

陶云松,張麗紅

(山西大學 物理電子工程學院,山西 太原 030006)

0 引 言

圖像描述是將圖像輸入到系統框架中自動生成描述的任務.圖像能夠生動地表示事件和實體,但之前的圖像描述方法僅將圖像作為輸入,通過深度學習框架自動學習.例如,Oriol V等[1]設計出圖像描述的基本框架,利用卷積神經網絡提取圖像特征,使用長短期記憶網絡生成描述.Xu等[2]將注意力機制引入到圖像描述的基本框架中,該機制可以使框架在生成描述時關注圖片中的顯著特征.但是,在深度學習框架學習的過程中,其內部具體參數的變化難以獲取,不能獲知圖片的特征提取過程.此外,圖像描述架構大都采用卷積神經網絡提取特征,采用等分提取方法無法準確提取目標[3].為解決上述問題,提出一個新的雙通道圖像描述結構,該結構輸入采用圖像通道與主題通道雙通道結構生成圖像描述.主題通道采用知識強化方法產生圖像中物體相對應的主題單詞.知識強化方法是在圖像描述中加入一些圖片的內容詞來規范圖像描述.主題通道可以自動產生圖片的內容詞,而不需人為設置每張圖片的內容詞.圖像通道采用極快速區域卷積神經網絡(Faster Regional Convolutional Neural Network,Faster RCNN)提取圖像特征,能自動確定圖像中物體的大小.輸出階段將兩通道預測的隱層信息進行整合并生成圖像描述,進而實現主題通道對圖像通道的知識強化.

1 Faster RCNN

Faster RCNN的結構如圖1 所示.首先,將整張圖片輸入卷積神經網絡中得到圖像特征,其次,將圖像特征輸入到區域建議網絡(Region Proposal Network,RPN)中自動生成候選框.候選框映射到圖像特征得到興趣區域特征,將興趣區域特征通過興趣區域池化層(Region of Interest Pooling Layer,ROI Pooling)得到相同大小的輸出,再通過兩層全連接層得到興趣區域特征向量.最后,使用分類器判決興趣區域特征是否屬于一個特定的類,對于屬于某一特征的候選框,用回歸器進一步調整其位置.RPN與卷積神經網絡之間的特征映射如圖2 所示.

圖1 Faster RCNN結構圖Fig.1 Structure diagram of Faster RCNN

圖2 特征映射圖Fig.2 Feature mapping

RPN的功能是直接生成候選框并與特征融合,這也是Faster-RCNN的顯著優勢,能夠極大提升候選框的生成速度.經典的傳統檢測方法如區域卷積神經網絡、快速卷積神經網絡都要采用選擇搜索性算法生成大量的候選框,這些候選框與圖像融合在一起,每個候選框內的圖像都要輸入到卷積神經網絡中,計算量很大[4].RPN使每張圖片一次性通過卷積神經網絡,候選框在生成圖像特征上進行映射從而得到各候選框內圖像特征.

ROI Polling的功能是將大小不同的候選框內特征調整為相同大小輸出,它可以看作是一個單層的空間金字塔池化層[5].空間金字塔池化層使用空間金字塔采樣將每個窗口劃分為4×4,2×2,1×1的塊,然后每個特征塊使用最大池化下采樣,這樣對于每個窗口經過空間金字塔池化層之后都得到了一個長度為(4×4+2×2+1)×256維度的特征向量,將此特征向量作為全連接層的輸入并進行后續操作[6].

2 含有注意力機制的長短期記憶網絡

長短期記憶網絡(Long Short-Term Memory Network,LSTM)是一類用于處理序列數據的神經網絡,它在幾個時間步內共享相同的權重,不需要分別學習序列中每個位置的規則[7].LSTM的展開圖如圖3 所示,A代表內部單元,x為輸入,y為輸出,ht為LSTM單元在t時刻最后保留的信息.LSTM的重要思想是每個時間步都有輸入,并且隱藏單元之間有循環連接的循環網絡.

圖3 LSTM的展開圖Fig.3 Expansion diagram of LSTM

循環神經網絡前期模型訓練困難,其原因在于不穩定梯度問題,在反向傳播時梯度越變越小,使得前期層學習非常緩慢.在循環神經網絡中此問題更加嚴重,因為梯度不僅僅通過層反向傳播,還會根據時間進行反向傳播.網絡運行很長一段時間后,梯度特別不穩定,使網絡學習能力很差[8].引入LSTM可以解決上述問題,LSTM的內部結構如圖4 所示.

圖4 LSTM內部結構Fig.4 Internal structure of LSTM

在圖像描述生成時,每個輸出的詞語并不是與所有的圖片特征相關,因此引入注意力機制.注意力機制在輸出詞語時能夠關注圖像中不同的特征.注意力機制結構如圖5 所示.

圖5 注意力機制內部結構Fig.5 Internal structure of attention mechanism

圖像特征集合V=[v1,v2,…,vL]通過壓縮原始圖像特征V的寬W和高H得到,其中L=W*H,vi∈RD,vi為D維度的空間圖像特征,代表圖片中的某個區域.

圖像特征和LSTM的隱層狀態被傳入一個單層感知機中,再通過softmax函數產生圖片K個區域的注意力分布.

αt=softmax(zt),(2)

式中:kv,kta,kh為一組需要學習的權重參數;αt為圖像特征的注意權重.基于注意力分布,圖像顯著信息為

將注意力機制與LSTM結合在一起,如圖6 所示,由注意力機制獲得的圖像顯著信息作為LSTM的輸入之一,Ct與隱層狀態ht一起預測出結果.

圖6 與注意力機制組合的LSTMFig.6 LSTM combined with attention mechanisms

3 系統框架

基于Faster RCNN、LSTM及注意力機制對雙通道圖像描述網絡進行了設計,如圖7 所示,該網絡由主題通道與圖像通道組成.

圖7 雙通道圖像描述結構Fig.7 A two-channel image description structure

主題通道引用知識增強方法,在圖像描述結構中加入一些圖片內容的主題單詞進行知識增強,即明確描述的范圍.主題通道采用極快速卷積神經網絡提取文本特征,該通道與圖像通道不同,文本特征來自極快速卷積神經網絡的全連接層.主題信息通過注意力機制篩選之后輸入LSTM進行語義推測.主題通道的優勢在于能夠自動生成主題信息而不是提前為每張圖片準備好主題詞.

V=Faster-RCNN(I),(4)

at=softmax(zt),(6)

CcCvt-1+bc),(11)

yt=softmax(Whht+b),(14)

式中:yt為網絡的輸出單詞,是下一個時間的輸入單詞xt+1.

4 實驗結果

實驗采用MS COCO數據集與Flickr30k數據集.MS COCO數據集是圖像描述中最大的數據集,擁有訓練樣本82 783張,驗證樣本40 504張和測試樣本40 775張,每張圖片對應5個人的描述.在訓練時,驗證和測試圖片都是5 000張.Flickr30k數據集中含有31 783張圖像,模型在該數據集上測試泛化性.表1 和表2 為本文模型在MSCOCO數據集和Flickr30k數據集上與其他模型評估分數對比表,使用的評估指標有基于共識的圖像描述評估(Consensus-based Image Description Evaluation,CIDEr)、雙語評估替換分數(Bilingual Evaluation Understudy,BLEU)、自動文摘評測方法(Recall-Oriented Understudy for Gisting Evaluation,ROUGE)和機器翻譯評價方法(Machine Translation Evaluation System,METEOR)[9].

表1 MSCOCO數據集上各模型參數Tab.1 Model parameters on MSCOCO dataset

表2 Flickr30k數據集上各模型參數Tab.2 Model parameters on Flickr30k dataset

雙通道圖像描述網絡與多種圖像描述網絡進行比較,從表1 與表2 中可以看出,雙通道圖像描述網絡在數據集MS COCO和Flickr30k上的準確率獲得了提高,在數據集Flickr30k上的測試結果也表明本文模型有良好的泛化性.

圖8 為雙通道圖像描述網絡在MS COCO數據集上相關參數的檢驗值,圖9 為雙通道圖像描述網絡在Flickr30k數據集上CIDEr和METEOR參數的檢驗值,縱坐標為參數精度值,精度值越大,代表某次圖像描述效果越好,橫坐標為檢驗次數.對檢驗值取期望得到模型某指標的參數值.

圖8 MSCOCO數據集下各參數檢驗值圖Fig.8 Test values of each parameter under MSCOCO datase

如圖8 所示,CIDEr與BLEU-4檢測值分布較集中,表明在這兩個標準下圖像描述波動較小,ROUGE-L分布較分散,表明在此標準下圖像描述好壞波動較大.去掉METEOR中接近0的錯誤值,其整體參數較好,并且有一定的參數值超過平均期望,即圖像描述效果較好.圖9 與圖8 相比較,參與CIDEr與METEOR分布離散度變大,但整體趨勢一致,表明在驗證集Flickr30k上模型的泛化性較好.損失函數圖如圖10 所示,可以看出該算法是收斂的.圖11 為模型的生成圖.

圖9 Flickr30k數據集下各參數檢驗值圖Fig.9 Test values of each parameter under Flickr30k dataset

圖10 損失函數圖Fig.10 Loss function graph

圖11 圖像樣例圖Fig.11 The sample graph

5 結 論

在圖像描述任務中引入知識增強方法來改善端對端訓練過程中內部參數不可控的影響.提出了一種新的雙通道圖像描述網絡,該網絡包括圖像通道與主題通道兩大部分,主題通道首先提取生成圖像中的主題信息,并通過注意力機制篩選主題信息進行語義推測;圖像通道的主要作用為提取圖像特征,通過注意力機制篩選特征進行語義推測.最后,主題通道的語義信息與圖像通道的語義信息進行增強融合后進行語義推斷,生成圖像描述.與此同時,在結構中使用極快速卷積神經網絡替換卷積神經網絡提取圖像和主題特征以便更準確提取特征.該結構在雙語評估替換分數等評價指標上取得了較好的效果.

猜你喜歡
機制特征
抓住特征巧觀察
構建“不敢腐、不能腐、不想腐”機制的思考
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产精品欧美激情| 国产超碰在线观看| 亚洲码在线中文在线观看| 男人天堂亚洲天堂| 97久久人人超碰国产精品| 波多野结衣一二三| 国产精品专区第1页| 日韩毛片免费观看| 国产91视频免费| 精品视频一区二区三区在线播| 亚洲第一中文字幕| 日本草草视频在线观看| 特级做a爰片毛片免费69| 亚洲日本在线免费观看| 鲁鲁鲁爽爽爽在线视频观看| 在线观看国产网址你懂的| 少妇精品久久久一区二区三区| 欧美日韩成人| 国产精品片在线观看手机版| 成年人国产网站| 国内精品九九久久久精品| 国产精品九九视频| 天堂av高清一区二区三区| 欧美性色综合网| 国产精品爆乳99久久| 亚洲无线国产观看| 亚洲欧美精品一中文字幕| 欲色天天综合网| 日本91在线| 国产成人高清精品免费5388| 激情在线网| 亚洲欧美不卡中文字幕| 91精品国产91久无码网站| 性喷潮久久久久久久久| 中文字幕永久在线观看| 国产精品尤物铁牛tv| 欧美自拍另类欧美综合图区| 青青久久91| 制服丝袜在线视频香蕉| 欧美啪啪精品| 欧美综合在线观看| 欧美国产日韩一区二区三区精品影视| 国产精品天干天干在线观看| 久久综合干| 亚洲色欲色欲www网| 亚洲美女视频一区| 一级成人a做片免费| 免费99精品国产自在现线| 精品亚洲欧美中文字幕在线看| 国产日韩丝袜一二三区| 国产精品女熟高潮视频| 欧美成人二区| 久久国产高清视频| 亚洲天堂.com| 欧美精品在线免费| 欧美区一区二区三| 久久国产香蕉| 国产三级毛片| 91久久精品日日躁夜夜躁欧美| 99青青青精品视频在线| 97国产成人无码精品久久久| 在线中文字幕日韩| 日本一区高清| 久久亚洲国产视频| 日本在线亚洲| 亚洲日本中文字幕乱码中文| 香蕉网久久| 国产精品自在在线午夜 | 99久久无色码中文字幕| 在线观看国产网址你懂的| 欧美成人精品欧美一级乱黄| 久久亚洲精少妇毛片午夜无码| 91精品网站| 国产最爽的乱婬视频国语对白| 亚洲自偷自拍另类小说| 欧美激情福利| 亚洲综合激情另类专区| 九色在线视频导航91| 国产爽爽视频| 无码专区在线观看| 亚洲AV无码不卡无码| 99久久精品免费视频|