999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙路細化注意力機制的圖像描述模型①

2020-05-22 04:47:58叢璐文
計算機系統應用 2020年5期
關鍵詞:單詞機制特征

叢璐文

(中國石油大學(華東)計算機科學與技術學院,青島 266580)

1 引言

圖像描述是計算機視覺領域與自然語言處理領域交叉的一項基本任務,該任務是給定一張圖像,產生一句對應的自然語言描述,并且具有廣泛的應用,例如為視覺有障礙的人提供幫助,人機交互和視覺助手等.然而,用自然流暢的句子描述圖像內容對機器來說是一項具有挑戰性的任務.它要求圖像描述模型不僅識別圖像中的顯著對象,而且識別這些對象之間的關系,并使用自然語言來表達語義信息.隨著深度學習的興起,基于深度學習的圖像描述模型逐漸發展起來.但是目前的大部分圖像描述方法都只采用了單一的注意力機制,并且圖像特征中存在冗余和不相關的信息,這些信息會誤導注意力計算過程,使解碼器生成錯誤的句子.本文針對上述問題,提出了一種新的基于雙路細化注意力機制的圖像描述模型,該模型首先使用Faster RCNN[1]目標檢測算法提取圖像區域特征,然后使用空間注意力機制關注包含顯著對象的區域,同時利用通道注意力機制關注顯著的隱藏單元,該隱藏單元包含與預測單詞更相關的語義信息.在計算注意力權重時,首先對解碼器的隱藏狀態應用卷積運算來過濾掉不相關的信息.其次,將經過注意力機制的特征輸入到特征細化模塊過濾掉其中的冗余信息,并將這些細化的特征合并到模型中.這樣,這些特征在語義上與圖像內容更加相關.

2 相關工作

近年來,深度學習取得了重大進展,研究者們提出了多種基于深度學習的圖像描述模型.Vinyals 等[2]提出了基于編碼器-解碼器的圖像描述模型,該模型借鑒了機器翻譯中常用的編碼器-解碼器架構,與機器翻譯不同的是,該模型使用卷積神經網絡(Inception 網絡模型[3])作為編碼器提取圖像特征,使用長短時記憶網絡(LSTM)[4]作為解碼器生成句子.但是,該模型僅在第一步使用圖像特征,而在隨后的生成步驟中不使用圖像特征.Wu 等[5]首先利用經過微調的多標簽分類器來提取圖像中的屬性信息,作為指導信息來指導模型生成描述,提高了性能.Yao 等[6]首先利用經過多示例學習方法預訓練的卷積神經網絡提取圖像中的屬性信息,同時使用卷積神經網絡提取圖像特征,并且設計了5 種架構來找出利用這兩種表示的最佳方式以及探索這兩種表示之間的內在聯系.

強化學習的相關方法也被引入圖像描述任務中.Ranzato 等[7]提出了一種直接優化模型評價標準的方法,該方法利用了策略梯度方法來解決評價標準不可微且難以應用反向傳播的問題.通過使用蒙特卡羅采樣方法來估計預期的未來回報,該模型使得訓練階段更加高效和穩定.Rennie 等[8]提出了一種SCST 訓練方法,該方法基于策略梯度強化學習算法,并且使用模型自身解碼生成的描述作為基準,提高了訓練過程的穩定性,SCST 訓練方法顯著地提高了圖像描述模型的性能并且在一定程度上解決了圖像描述模型訓練階段與測試階段不匹配的問題.

受人類視覺系統中存在的注意力機制的啟發,Xu 等[9]首次將注意力機制引入到圖像描述模型中.在解碼階段的每個時刻,模型會根據解碼器的隱藏狀態來計算圖像不同位置特征的權重.這些權重衡量了圖像區域和下一個生成的單詞之間的相關性.You 等[10]提出了一種新的語義注意機制,該方法首先會提取出圖像的屬性信息,在模型生成描述的每個時刻,選擇最終要的屬性信息為模型提供輔助信息.Lu 等[11]提出了一種自注意力機制,該機制利用哨兵位置的概念,當模型生成與圖像內容無關的單詞時,會將注意力放在哨兵位置上,以提高模型生成描述的準確性.Chen 等[12]提出了結合空間注意力與通道注意力的圖像描述模型,與之相比,本文使用的是經過細化的空間注意力與通道注意力,同時本文還使用Faster R-CNN提取空間區域特征,特征更加細化.

3 模型

如圖1所示,本文模型包含5 個基本組件:編碼器、空間注意力機制、通道注意力機制、特征細化模塊和解碼器.模型的整個流程如圖2所示.首先,編碼器使用Faster R-CNN 目標檢測算法提取圖像區域特征.然后,在每個時刻,空間注意力機制與通道注意力機制分別計算對應的特征權重,特征細化模塊通過過濾冗余和不相關的圖像特征來細化經過權重修正的空間圖像特征和通道圖像特征.在經過細化的圖像特征的指導下,解碼器在每個時刻生成一個單詞.

3.1 編碼器

本文使用Faster R-CNN 目標檢測算法提取圖像區域特征.Faster R-CNN 引入了區域建議網絡(Region Proposal Network,RPN),提高了目標檢測的準確率.首先將圖像輸入到卷積神經網絡中,將高層卷積特征輸入到RPN 中得到建議區域,然后再對建議區域與高層卷積特征共同使用感興趣區域池化,得到大小相同的特征圖(14×14),然后將這些特征圖輸入到另一個卷積神經網絡中,將得到的特征經過平均區域池化即可得到對應的區域特征,最后利用非極大值抑制過濾掉置信度不高的區域.最終可以得到L個不同區域的特征,將這些特征集合到一起,記作A,如式(1)所示.每個區域的特征包含D個通道.

全局圖像特征可以用局部特征的平均來近似,如式(2)所示.

隨后,將局部圖像特征與全局圖像特征分別輸入到單層感知機內,并且使用ReLU作為激活函數,將這些特征投影到維度d的空間中.

式中,Wa與Wb是待學習參數,L個區域圖像特征組成局部圖像特征Q={qi,···,qL}.

圖1 整體框架

圖2 解碼器結構

3.2 空間注意力模型

空間注意力機制廣泛用于圖像描述任務.遵循編碼器-解碼器結構的傳統模型僅使用全局圖像特征.基于空間注意力機制的模型更加關注圖像中的顯著區域,并且能夠捕捉顯著區域的更多細節.當生成與圖像中物體相關的單詞時,空間注意力模型可以增加其對圖像相應區域的權重.本文模型也采用了空間注意力機制.

如圖2所示,給定局部區域特征Q∈Rd×L與解碼器的當前時刻的隱藏狀態ht∈Rd,模型首先對隱藏狀態進行卷積操作,過濾掉其中的不相關的信息,隨后將這些信息輸入到單層感知機中,然后利用Softmax 函數計算圖像中L個區域的注意力分布.計算過程如下列公式所示:

其中,Conv是包含一個卷積層的塊,卷積層后面跟隨ReLU激活函數.1T是所有元素都為1 的向量.Wqs,Wss∈RL×d、whs∈RL是待學習的權重參數.αt∈RL是圖像中L個區域的注意力分布.所關注的局部圖像特征Vt可以通過以下方式計算:

與文獻[11]相同,本文也使用解碼器的當前時刻隱藏狀態而不是上一時刻的隱藏狀態來計算對局部圖像特征的空間注意力.

3.3 通道注意力模型

Zhou 等[13]發現每個隱藏單元可以與不同的語義概念對齊.然而,在基于空間注意力的模型中,通道特征是相同的,忽略了語義差異.如圖2所示,本文同時也采用了通道注意力機制.將局部區域特征Q∈Rd×L與解碼器的當前時刻的經過卷積的隱藏狀態輸入單層感知機中,隨后用Softmax函數計算局部圖像特征在通道上的注意力分布:

其中,whc∈Rd,Wqc∈Rd×L,Wsc∈Rd×d為待學習的權重參數.1T是所有元素都為1 的向量.βt∈Rd是局部圖像特征中隱藏單元上的注意力分布.基于通道注意力的通道局部圖像特征Ut可以由式(11)計算獲得.

其中,Qi表示每個區域特征中第i個通道組成的向量.

在解碼生成描述的每個時刻,βti確定了第i個通道特征與生成的下一個單詞之間的相關性.

3.4 特征細化模塊

通常提取到的圖像特征中會包含一些冗余或與生成描述不相關的特征.為了減少這些特征的影響,本文設計了一個特征細化模塊來細化圖像特征,過濾掉冗余的和不相關的特征.如圖2所示,該模塊使用單層LSTM 作為細化模塊.LSTM 被命名為特征細化LSTM.在計算關注的局部圖像特征Vt和關注的通道圖像特征Ut之后,首先通過單層感知器將這些圖像特征投影到相同的維度d.然后,將這些圖像特征輸入到細化LSTM,并通過n個時間步長來細化圖像特征.最后,得到細化的關注空間圖像特征和細化的關注通道圖像特征:

其中,Wvd∈Rd×d和Wud∈Rd×L是待學習的權重參數.本文使用共享參數的特征細化LSTM,以降低訓練過程中的存儲成本.

3.5 解碼器

LSTM 通常用于現有的圖像描述模型中,因為LSTM 在對長期依賴關系建模方面具有強大的力量.本文遵循常用的LSTM 結構,基本LSTM 塊中的門控單元和存儲單元定義如下:

其中,xt、ft、it、ot、ct、ht分別是時刻t的輸入向量、遺忘門、輸入門、輸出門、存儲單元和隱藏狀態.yt?1是前一個單詞的單熱向量,具有字典大小的維度.We是單詞嵌入矩陣.[·;·]是 兩個向量的拼接.xt是詞向量和全局圖像特征的組合.σ (·)是Sigmoid 非線性激活函數,t anh(·)是 雙曲正切激活函數.⊙ 表示元素乘法.

通過使用隱藏狀態ht、細化的關注局部圖像特征、細化的通道關注局部圖像特征,當前時刻生成的單詞條件概率分布可由式(19)計算.

本文訓練過程的第一個階段使用交叉熵損失函數作為目標函數進行訓練,如式(20)所示,第二個階段使用SCST 訓練方法,目標函數如式(21)所示.

式中,y?t,y?1,···,y?t?1表 示參考描述中的單詞序列,y1:T表示單詞序列(y1,y2,···,yT)的縮寫

在訓練過程中,將參考描述的單詞序列輸入到模型中,可以得到每個時刻預測的單詞概率分布,隨后計算目標函數,進行優化.

在推理過程中,選擇每個時刻概率最大的單詞作為生成的單詞或者使用集束搜索(beam search),每次選擇概率最大的前k個單詞作為候選,最終輸出聯合概率最大的描述作為最終的描述結果.

4 實驗分析

4.1 實驗數據集與評價標準

本文模型在用于圖像描述的MS COCO 數據集[14]上進行實驗.COCO 數據集包含82 783 張用于訓練的圖像、40 504 張用于驗證的圖像和40 775 張用于測試的圖像.它還為在線測試提供了一個評估服務器.本文使用文獻[15]中的數據劃分,該數據劃分中包含5000 張用于驗證的圖像,5000 張用于測試的圖像,其余圖像用于訓練.

為了驗證本文模型生成描述的質量,并與其他方法進行比較,本文使用了廣泛使用的評價指標,包括BLEU[16]、METEOR[17]、ROUGE-L[18]和CIDEr[19].本文使用文獻[20]提供的評估工具來計算分數.BLEU 分數衡量生成的句子和參考句子之間的n-gram 精度.ROUGE-L 分數測量生成的句子和參考句子之間最長公共子序列(LCS)的F-Score.METEOR 評分通過添加生成的句子和參考句子之間的對應關系,與人類的評價標準更加相關.與上述指標不同,CIDEr 評分是為圖像描述設計的.它通過計算每個n-gram 的TF-IDF 權重來測量生成描述與參考描述之間的一致性.

4.2 實現細節

首先將COCO 數據集中所有的描述轉換成小寫并且將描述的最大長度設置為15.如果描述的長度超過15,則會截斷之后單詞.本文過濾掉訓練集中出現不到5 次的所有單詞,并且增加了四個特殊的單詞.“”表示句子的開頭,“”表示句子的結尾,“”表示未知單詞,而“”是填充單詞.經過這樣的處理以后,得到的字典長度為10 372.

本文將LSTM 的隱藏單元的數量設置為512,隨機初始化詞嵌入向量,而不是使用預訓練的詞嵌入向量.我們使用Adam 優化器[21]來訓練本文的模型.在使用交叉熵訓練的階段,基礎學習率設置為5 ×10?4,并且使用1 ×10?6的重量衰減,批大小設置為256,每三輪學習率衰減0.8 倍.訓練輪次的最大數量被設置為30.在SCST 訓練階段,選擇交叉熵訓練階段CIDEr 得分最高的模型作為初始模型,學習率固定為5 ×10?5,訓練輪次設置成40.整個訓練過程在一個NVIDIA TITAN X 圖形處理器上需要大約50 小時.本文的模型使用Pytorch深度學習框架實現.

4.3 實驗對比方法介紹

Goole NIC[2]使用編碼器-解碼器框架,使用卷積神經網絡作為編碼器,使用LSTM 作為解碼器.

Hard-Attention[9]將空間注意力機制引入圖像描述模型,根據解碼器的狀態動態地為圖像不同區域的特征分配權重.

MSM[6]共同利用了圖像屬性信息與圖像全局特征.

AdaAtt[11]使用了自適應注意力機制,如果要生成的單詞與圖像內容無關,則注意力放在一個虛擬的“哨兵”位置上.

文獻[22]中的模型使用了視覺屬性注意力并且引入了殘差連接.

Att2all[8]首次提出并使用了SCST 訓練方法.

SCA-CNN[12]同時使用了空間與通道注意力.

4.4 實驗分析

如表1所示,與SCA-CNN 模型相比,本文模型使用的雙路細化注意力以及空間區域特征對生成圖像描述有著更強的指導作用.相較于只是用單一空間注意力機制的Hard-Attention 模型、AdaAtt 模型、文獻[21]中的模型、Att2all 模型相比,本文模型使用的雙路細化注意力機制,可以生成更加緊湊,冗余信息更少的特征,并且除了在空間位置上施加注意力,也在通道上施加注意力,使得模型可以更好地利用與生成描述相關地特征.

表1 本文模型與經典算法比較

為研究本文中不同模塊的有效性,設計了不同的模型進行比較,實驗結果見表2.基準模型為只使用Faster R-CNN 目標檢測算法提取圖像區域特征,不使用注意力機制與特征細化模塊,表中的“X”表示該模型在基準模型的基礎上使用該模塊.從表2中可見,空間注意力機制、通道注意力機制、特征細化模塊都可提高模型性能.同時使用兩種注意力機制的模型3 相較于只使用一種注意力機制的模型2 與模型1,性能有進一步的提高,證明本文提出的雙路注意力機制的有效性.模型5、模型6、本文算法在模型1、模型2、模型3 的基礎上增加了特征細化模塊,最終模型性能也有提高,證明了特征細化模塊的有效性.

表2 本文模型不同模塊效果比較

5 結論與展望

本文提出了一種新的基于雙路細化注意力機制的圖像描述模型.本文模型整合了空間注意力機制和通道注意力機制.首先使用卷積運算來過濾隱藏狀態的不相關信息,然后計算注意力.為了對減少關注圖像特征中的冗余和不相關特征的影響,本文設計了一個特征細化模塊來細化關注圖像特征,使關注圖像特征更加緊湊和有區分度.為了驗證本文模型的有效性,我們在MS COCO 數據集上進行了實驗,實驗結果表明,本文提出模型性能優越.

猜你喜歡
單詞機制特征
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
看圖填單詞
抓住特征巧觀察
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久久久免费看成人影片 | 久久久久久国产精品mv| www.99在线观看| 日本亚洲国产一区二区三区| 夜夜拍夜夜爽| 久久综合色视频| 欧美一区二区自偷自拍视频| 无码一区18禁| 欧美全免费aaaaaa特黄在线| 青青草国产精品久久久久| 久久不卡精品| 99热这里只有成人精品国产| 免费人成视网站在线不卡| 成人福利在线看| 亚洲中文字幕国产av| 色135综合网| 性色在线视频精品| 国产精品永久在线| 99伊人精品| 538精品在线观看| 日韩午夜片| 国产香蕉97碰碰视频VA碰碰看| 国产不卡一级毛片视频| 国产91蝌蚪窝| 午夜福利在线观看入口| 亚洲最大综合网| 亚洲色图狠狠干| 国产情侣一区二区三区| 亚洲大尺码专区影院| 国产精品无码制服丝袜| 国产中文一区二区苍井空| 成年人国产视频| 人妻无码一区二区视频| 一区二区三区高清视频国产女人| 免费一看一级毛片| 在线精品视频成人网| 国产一区成人| 人妻丝袜无码视频| 久久一级电影| 99精品视频在线观看免费播放| 欧美成人看片一区二区三区 | 色爽网免费视频| 热99re99首页精品亚洲五月天| 香蕉在线视频网站| 国产导航在线| 国产亚洲一区二区三区在线| 99九九成人免费视频精品| 国产免费怡红院视频| 国产自在线拍| 黄色污网站在线观看| 91精品国产一区| 国产成人成人一区二区| 久久精品人人做人人爽电影蜜月| 婷婷亚洲天堂| 91区国产福利在线观看午夜| 国产一区二区三区免费观看| 91福利在线看| 国产精品毛片一区| 日本高清在线看免费观看| 国产情侣一区二区三区| 女人毛片a级大学毛片免费| 思思热精品在线8| 国产第八页| 在线精品欧美日韩| 四虎精品黑人视频| 99re经典视频在线| 中文字幕永久视频| 色综合久久综合网| 国产福利一区视频| 一本大道香蕉久中文在线播放| 99一级毛片| 亚洲欧美人成人让影院| 一本大道香蕉久中文在线播放| 91热爆在线| 欧美日韩成人| 久久久久久尹人网香蕉| 欧美97色| 青青青国产视频| 国产乱子精品一区二区在线观看| 久久综合色视频| 午夜日韩久久影院| 亚洲丝袜中文字幕|