999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于類時序注意力機制的圖像描述方法①

2021-08-02 11:09:02段海龍吳春雷王雷全
計算機系統應用 2021年7期
關鍵詞:單詞機制方法

段海龍,吳春雷,王雷全

(中國石油大學(華東) 計算機科學與技術學院,青島 266580)

1 引言

圖像描述是計算機視覺的主要任務之一,其主要目的是為計算機提供圖像,計算機可以將圖片與圖片中各對象之間的關系結合起來自動生成相應的自然語言描述.這是一項非常具有挑戰性的任務[1–4].隨著深度學習的發展,注意力機制已經廣泛應用于圖像描述,在該領域常用的編碼器-解碼器框架中起著舉足輕重的作用.然而,當前的解碼框架并未較清楚地分析圖像特征與長短期記憶神經網絡(Long Short-Term Memory,LSTM)隱藏狀態之間的相關性,這也可能導致累積誤差.眾所周知,單詞是由LSTM的隱藏狀態直接指導生成,如果隱藏狀態與特征向量之間的相關性不夠清晰,則很難指導生成正確的單詞.目前的注意力機制,往往忽略了前一時刻和后一時刻注意力結果對當前時刻的影響,導致生成的句子不是很理想,因為對于一個句子,單詞與單詞之間具有一定的相關性,當前時刻生成的單詞會受到前后時刻生成單詞的影響.

為了在一定程度上解決該問題,本文提出了類時序注意力網絡(Similar Temporal Attention Network,STAN),該網絡擴展了傳統的注意力機制,目的是加強注意力結果與隱藏狀態在不同時刻的相關性.首先,STAN 對圖像進行編碼并提取其自下而上的特征,然后將編碼后的圖像特征傳遞給LSTM 進行解碼,同時對LSTM的隱藏狀態和圖像特征施加注意力,最后通過注意力融合槽(AFS)將兩個相鄰LSTM片段的注意力結果引入到下一時刻的網絡循環中,以增強注意力結果與隱藏狀態之間的相關性.

本文中,創新點可以總結歸納為如下3 點:

1)本文設計一種新的類時序注意力網絡來進行圖像描述,該網絡擴展了傳統的注意力機制,以增強注意力在不同時刻與隱藏狀態之間的相關性.

2)本文提出注意力融合槽(Attention Fusion Slot,AFS)的概念,它可以用于實現不同時刻注意力結果之間的跳躍連接.我們設計了隱藏狀態開關(Hidden State Switch,HSS)來指導生成單詞,將其與AFS 相結合,在一定程度上可以解決累積誤差的問題.

3)通過大量的實驗對提出的模型進行了分析與驗證.MSCOCO 數據集上的實驗結果表明了所提出的基于類時序注意力機制的圖像描述方法的有效性.

2 相關工作

2.1 圖像描述

近年來,隨著深度學習技術的發展,有關圖像描述的文獻越來越多.早期的圖像描述方法基于規則-模板[5,6],是一種經典方法.該方法通過目標檢測技術[7–9]將視覺概念,對象和屬性轉換為單詞和短語,然后將它們組合成具有固定語言模型的句子.另一種比較主流的方法是基于神經網絡的編碼器-解碼器框架,受機器翻譯的啟發發展而來[10].如何通過改進網絡架構來提高模型性能已逐漸成為圖像描述領域的主流研究方向.

當前,最流行的圖像特征提取工具是自下而上的注意力模型[11],該模型已在許多文章中被使用,本文也是如此.相信隨著技術的進一步發展,更加有效的圖像特征提取方法會被提出.另外,近年來出現了許多有關場景圖的文章.Yang 等人[12]通過圖卷積將每個對象及其自身屬性與其他對象之間的關系集成在一起,搭建出場景圖并規范化網絡模型的輸入.同時,提出了詞典D的概念,經過文本語料庫訓練之后,再用來初始化描述模型,目的是在語料庫中引入一些先驗知識.場景圖和先驗知識的引入有效地促進了圖像描述的發展.當然,圖像描述領域最常見的文章是關于注意力機制的改進和網絡結構的創新.盡管場景圖是一個非常熱門的話題,但由于發展剛起步不久,相對而言,此類論文較少.此外,強化學習已逐漸發展成為一種有效的模型性能改進方法.Rennie 等人[13]使用強化學習來優化圖像描述模型,并提出了自關鍵序列訓練(SCST)方法,該方法使用測試階段模型的輸出對獎勵進行歸一化處理,而不是評估基準模型的歸一化獎勵.

2.2 注意力機制

注意力模型(Attention Mechanism,AM)[14,15]最初用于機器翻譯,現已成為神經網絡領域的重要概念.如今,注意力機制已成為深度學習神經網絡的重要組成部分,并且在自然語言處理,統計學習,語音翻譯和計算機視覺領域具有大量的應用.注意力機制源自人類的視覺直覺,人類視覺快速掃描圖像全局以獲得需要關注的目標區域,即所謂的關注焦點,也即是目標區域具有更多的關注資源,在抑制其他無用信息的同時,更多地關注目標的詳細信息.注意力機制首先計算每個候選向量的重要性得分,然后通過Softmax 函數將其標準化為權重,最后將這些權重應用于候選向量以生成注意力結果,即加權平均向量[16].注意力機制有許多擴展的變體.Yang 等人[17]提出了堆疊式注意力網絡,該網絡通過多次迭代來實現對圖像的區域關注.Lu 等人[18]提出了一種帶有視覺標記的自適應注意力模型,在每個時間步長,模型都會決定是更依賴圖像還是更依賴視覺標記.此外,視覺哨兵會存儲解碼器已經知道的信息.Chen 等人[19]基于編碼器-解碼器模型層設計了空間和通道注意力卷積神經網絡(CNN),該網絡使得原始的CNN 多層特征圖能夠自適應句子上下文.Vaswani等人[20]放棄了基于卷積神經網絡(CNN)或循環神經網絡(RNN)的傳統編碼器-解碼器模型,通過單獨使用注意力,在不影響最終實驗結果的前提下達到減少計算量、提高并行效率的目的.Huang 等人[21]提出了一個“雙重注意力”(AoA)模塊,該模塊擴展了常規的注意力機制來進一步確定注意力結果和查詢之間的相關性.但是,網絡框架的創新和注意力機制的改進都相對比較簡單,同時,注意力機制和循環神經網絡結合不夠緊密.注意力本身沒有時序性,但是將其嵌入神經網絡后,我們可以認為該注意力具有時序性,那么如何使注意力機制更有效地集成到神經網絡中,是一個值得思考的問題.

3 類時序注意力網絡

3.1 整體框架

本文使用自下而上的注意力模型[11](由目標檢測區域特征提取框架Faster RCNN和ResNet-101 [22] CNN組合而成)來提取圖像特征V,然后將所有視覺特征饋入LSTM 進行字幕生成.其中,解碼框架采用兩個連續的LSTM 作為循環單元,并且對每一時刻的隱藏狀態和圖像特征施加注意力,以增強它們之間的相關性.由于單詞是由隱藏狀態來指導生成,因此單詞與圖像特征之間的相關性也需要增強.整個網絡架構如圖1所示.

圖1 網絡架構

給定一組圖像特征V,本文提出的描述模型仍使用傳統的軟注意力方法,在生成自然語言的過程中給每個圖像特征施加權重.該模型主要由兩個LSTM 層組成.本文將在3.2 節詳細介紹注意力融合槽如何與兩個LSTM 層組合生成單詞.首先,本文通過以下公式表示當前LSTM的隱藏狀態:

其中,xt是LSTM 在時刻t的輸入向量,ht?1是LSTM 在時刻t的輸出向量,v?t?1表示上一時刻的注意力結果,初始化為0.為了方便表示,本文對于LSTM 存儲單元的單元狀態忽略不計,統一使用式(1)表示在時刻t處每一層LSTM的輸入和輸出向量.

3.2 類時序注意力層

對于描述模型,本文將第1個LSTM 層稱為類時序注意力層,將第2個LSTM 層稱為語言注意力層,使用V表示圖像特征.類時序注意力模型的輸入如3.1 節所示,是通過前一時刻語言注意力模型的輸出向量與均值特征級聯運算得到,表示為輸入如下式所示:

當在時刻t獲得類時序注意力層的輸出h1t時,對相應的k個圖像特征vi施加注意力權重.同時,為了加強隱藏狀態與圖像特征之間的相關性,我們通過注意力融合槽(AFS)將前一時刻類時序注意力層和語言注意力層的輸出引入到當前時刻.如圖2所示,其具體公式如下:

圖2 類時序注意力模型

其中,Wv∈?H×V,Wh∈?H×M和Wa∈?H分別是學習參數.對圖像特征和隱藏狀態施加注意力之后,用表示類時序注意力層的輸出結果,用表示語言注意力層的輸出結果.λ1和λ2是超參數,設置為0.5.另外,v?t是由下述公式計算得到:

3.3 語言注意力層

語言注意力層的輸入由施加注意力之后的圖像特征和類時序注意力層的輸出級聯而成,用下式表示:

本文認為前一時刻LSTM 隱藏狀態中包含的信息對當前時刻單詞的生成具有促進作用.為了充分利用LSTM 隱藏狀態之間的關系,本文設計了隱藏狀態開關(HSS),如圖3所示.計算公式如下.

圖3 語言注意力模型

其中,λh是學習參數,Sh表示HSS的狀態,Sh=0 表示HSS的狀態為“OFF”,Sh=1 表示HSS的狀態為“ON”.對于單詞序列(y1,…,yT),本文使用符號y1:T統一進行表示.通過以下公式來表示在時間步長t處單詞分布的概率:

3.4 目標函數

在訓練過程中,對于給定的標簽序列和帶有參數η的字幕模型,本文仍然使用最小化交叉熵損失:

交叉熵訓練結束后,本文將采用目前比較流行的強化學習方法來訓練和優化最終模型.為了盡量減少負面期望得分,對交叉熵訓練得到的最終模型進行重新訓練和初始化.計算公式如下:

其中,Sr是得分函數(例如CIDEr).這種損耗的梯度可以近似為:

4 實驗

4.1 數據集

本文在圖像描述領域官方數據集MSCOCO 上評估和驗證基于類時序注意力機制的圖像描述模型[23].MSCOCO 數據集包含123287 張圖片,其中82783 張圖片作為訓練集,40504 張圖片作為驗證集,每張圖片對應5個標簽.此外,為了方便研究人員評估模型,MSCOCO 官方提供了40775 張圖片作為在線測試集.“Karpathy”數據集[24]用于模型線下評估和測試,其中5000 張圖片作為驗證集,5000 張圖片作為測試集,其余圖片作為訓練集.本文首先將所有標簽語句轉換為小寫,然后過濾掉出現次數少于5 次的單詞,最后得到一個含有9487個單詞的字典.在實驗過程中,使用領域常用評估策略,包括BLEU[25],METEOR[26],ROUGE-L[22],CIDEr[27]和SPICE[28],來評估所提出的方法,并與其他方法進行比較.

其中,BLEU為機器翻譯中常用的雙語精度評估方法,是用于評估模型生成的句子和實際句子的差異的指標,取值范圍在0.0 到1.0 之間,如果兩個句子完美匹配,那么BLEU是1.0,反之,BLEU為0.0.METEOR是精度召回率評估方法,基于單精度的加權調和平均數和單字召回率,解決一些BLEU 標準中固有的缺陷,也是機器翻譯常用的評估方法之一.ROUGE-L是召回率評估方法,采用召回率作為指標,將模型生成的句子與實際句子的n元組貢獻統計量作為評判依據.CIDEr是基于共識的圖像描述評估方法,將句子看作“文檔”,并將其表示成向量,然后計算實際句子與模型生成的句子的余弦相似度,作為打分.SPICE是基于語義的圖像描述評估方法,以名詞為中心,通過度量實際句子與模型生成句子的場景圖相似度來對兩個句子做語義匹配.

4.2 實驗結果

如圖4所示,是本文提出的方法訓練的模型與基線模型在MSCOCO 數據集上的結果比較,可以看出,對于同一張圖片,該模型生成的描述與圖片內容契合度更高,語言的準確性和流利性更好.

圖4 實驗結果對比

如表1所示,對于所提出的方法,本文在MSCOCO數據集上進行了離線測試.實驗結果表明,與基線模型(Top-Down 模型)[11]和其他方法相比,本文訓練的模型具有更優越的性能.從表1的離線測試結果中可以看到,與基線模型相比,本文的方法訓練的模型的評估指標都有所提高,尤其是CIDEr 提高了2.7個百分點.本文訓練的模型通過AFS 使注意力機制具有了時序性,可以與循環神經網絡更加緊密地連接,產生包含更豐富有效信息的隱藏狀態向量,從而生成更高質量的自然語言描述.

表1 MSCOCO 數據集上的實驗結果對比

4.3 實驗分析

本文在Top-Down 模型的基礎上,進一步完善了注意力機制,在MSCOCO 官方數據集上取得了較好的結果.在實驗過程中,我們發現語言注意力層的隱藏狀態和類時間注意力層的隱藏狀態可以按一定比例融合以獲得新的狀態向量.此向量生成單詞的質量比單獨使用語言注意力層的隱藏狀態略好.因此,我們設計了HSS來微調隱藏狀態.表2是HSS 狀態對模型性能的影響.

表2 HSS 對模型的影響

在實驗過程中,如表3所示,本文選擇了4個模型進行集成實驗,分別為Model1,Model2,Model3,Model4,相應的集成權重參數分別為m1,m2,m3,m4.調參過程如表4所示.為方便起見,本文設置HSS的狀態為“ON”.

表3 選取4個模型進行集成實驗

其中,Modela表示用Model1,Model2和Model3做集成實驗,Modelb表示用Model1,Model2和Model4做集成實驗,ma,mb表示模型對應的權重參數.

從表4中不難看出,對于參與集成的模型,性能最佳的模型將被賦予最高的權重,性能稍低的模型將被賦予較低的權重,這樣可以獲得比較理想的集成效果.

表4 調參過程及實驗結果

5 結論與展望

本文提出了一種新型類時序注意力網絡用于圖像描述,該網絡擴展了傳統的注意力機制,以增強注意力結果與隱藏狀態在不同時刻之間的相關性.此外,提出“注意力融合槽”(AFS)的概念,用于實現不同時刻注意力結果之間的跳躍連接.設計隱藏狀態開關,用于指導單詞的產生,結合AFS 在一定程度上解決了累積誤差的問題.同時,進行了廣泛的實驗驗證分析該方法.在未來的工作中,本團隊會繼續研究注意力機制和模型框架的改進方式,并考慮引入場景圖來進一步提升模型性能.

猜你喜歡
單詞機制方法
單詞連一連
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
看圖填單詞
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
最難的單詞
主站蜘蛛池模板: 亚洲精品第一页不卡| 欧美午夜在线观看| 亚洲国产高清精品线久久| 久久 午夜福利 张柏芝| 成人亚洲天堂| 国产成人亚洲欧美激情| 久久久精品国产SM调教网站| 在线精品欧美日韩| 免费人成在线观看成人片| 人妻精品久久无码区| 久久国产精品嫖妓| 久久久久88色偷偷| 九色在线视频导航91| 精品福利视频导航| 日本一区二区三区精品视频| 全免费a级毛片免费看不卡| 国产免费羞羞视频| AV不卡在线永久免费观看| 国产精品女熟高潮视频| 999国产精品| 麻豆国产精品视频| 国内精品九九久久久精品| 99精品免费欧美成人小视频 | 欧美日韩综合网| 激情六月丁香婷婷| 国产凹凸一区在线观看视频| 四虎影视国产精品| 欧美乱妇高清无乱码免费| 区国产精品搜索视频| 小说 亚洲 无码 精品| 色综合婷婷| 国产精品亚欧美一区二区三区| 日韩色图区| 伊人久久大香线蕉成人综合网| 国产精品妖精视频| 亚洲乱码在线播放| 精品午夜国产福利观看| 日韩人妻无码制服丝袜视频| 日日噜噜夜夜狠狠视频| 亚洲欧美在线看片AI| 性欧美精品xxxx| 亚洲综合香蕉| 久久精品无码一区二区国产区| 久久性视频| 国产成人综合亚洲欧洲色就色| JIZZ亚洲国产| 国产性爱网站| 色老二精品视频在线观看| 亚洲国产精品日韩欧美一区| 久久精品无码专区免费| 国产精品久久久免费视频| 国产香蕉在线| 久久综合色88| 日韩精品成人网页视频在线| 精品人妻AV区| 一级毛片不卡片免费观看| 国产麻豆aⅴ精品无码| 爆操波多野结衣| 亚洲综合在线最大成人| 国产精品.com| 国产偷国产偷在线高清| 天堂在线www网亚洲| 亚洲一区二区三区国产精华液| 久久精品国产精品国产一区| 国产成人午夜福利免费无码r| 欧美a网站| 尤物视频一区| 国产黑人在线| 亚洲无线一二三四区男男| 黄色网址免费在线| 欧美性久久久久| 久久综合久久鬼| 日韩国产综合精选| 手机在线免费毛片| 日本人妻丰满熟妇区| 日韩在线中文| 日本免费新一区视频| 久久精品无码一区二区日韩免费| aⅴ免费在线观看| 国产色婷婷| 精品久久久无码专区中文字幕| 中文天堂在线视频|