999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶注意力與視覺注意力的社交圖像描述①

2018-08-17 12:06:44褚曉亮朱連章吳春雷
計算機系統應用 2018年8期
關鍵詞:單詞特征用戶

褚曉亮,朱連章,吳春雷

(中國石油大學(華東)計算機與通信工程學院,青島 266000)

1 引言

隨著深度學習的興起,圖像描述[1]已成為計算機視覺和機器學習領域的熱門研究,它的具體任務是給定一張圖像產生針對該幅圖像的描述.目前主流算法是在生成的每個詞與圖像區域間建立對應關系來生成描述.Facebook,Twitter等社交網站的興起讓社交圖片已成為人們展示自我的一種重要方式,社交圖片與用戶的個人喜好、習慣等緊密相連,與傳統的圖片相比,它更加個性化,用戶可以通過標簽對社交圖片進行標記來表明自己的關注點與個人喜好.然而現有的方法并沒有直接針對于社交圖像來產生描述.因此,本文提出一種基于圖片視覺特征與用戶標簽的社交圖像描述方法,該方法利用圖片的視覺特征與用戶標簽這兩種模態進行分析,然后利用注意力機制將圖像特征和用戶標簽的語義信息相結合來生成更加準確的描述.

2 相關工作

2.1 基于注意力的圖像描述模型

Vinyals等人采用了encoder-decoder 架構進行圖像描述,他們將CNN提取的圖片特征作為encoder傳入LSTM 來解碼生成圖像描述[2].但是對于一幅圖像,人類所關注的并不是全部的內容,即對于圖像的每個像素點的關注度是不一樣的.為了讓機器最大限度地模仿人類的學習機制,Toshev等人提出了在圖像上引入了注意力機制,將上下文信息引入到encoderdecoder框架中.在encoder 階段,作者使用了保留圖像空間信息的較低層的卷積層作為圖像特征,然后結合注意力機制將其用于decoder階段,該方法有效地提取了圖像的視覺信息來生成更加準確的描述[3].Xu等人采用了三種不同的語義信息來指導描述的生成.其中的指導分別為:基于檢索的指導,語義嵌入指導、圖像指導[4].Zhou等人考慮到該方法的指導采用了時間不變性,忽略了不同時刻的指導的信息不同,因此提出了將生成的詞與圖像特征結合的方法,該方法能夠根據當前生成的詞來選取圖像的部分特征來生成描述[5].騰訊人工智能實驗室提出SCA-CNN新方法[6],該方法首先肯定了視覺注意力機制對于圖像描述的發展的重要意義,并指出目前的注意力機制只是針對空間上的,在圖像卷積的過程中并沒有進行注意力的操作.基于這一問題,他們提出一種新的注意力機制,具體來講這是一種將空間和多通道結合的注意力機制.這種機制學習的是多層3D-feature map中的每一個 feature與隱藏層之間的聯系,也就是在CNN 中引入注意力機制,而不是僅僅使用 CNN 部分的輸出.我們的方法同樣基于注意力機制,不同的是用戶的標簽在生成描述時應該被考慮進來.

2.2 基于屬性的圖像描述模型

只將圖片特征作為encoder-decoder 框架的輸入有時候并不能反應圖像的高級語義信息.Wu提出利用多標簽來取代圖像特征作為LSTM的輸入[7].該方法首先利用VggNet 模型進行多標簽的預訓練,然后通過CNN產生多標簽的預測結果,將預測結果經過maxpooling處理后,輸入到LSTM產生描述.Yao 等人探究了圖像的標簽對于描述效果的影響[8],作者利用多實例學習的方法來產生圖像的標簽,并且嘗試了不同的組合形式.Lu等人考慮到某些單詞的生成并不依賴于圖像特征而是依據當前的語言狀態首次提出了‘哨兵’的概念,讓模型自動選擇利用圖像特征或者語言模型[9].You等人考慮到生成的單詞有時往往不準確,提出了在模型的輸入輸出階段加入圖像的標簽作為引導[10].即將模型輸出的單詞與標簽進行注意力機制的融合來產生更加準確的描述.當前圖像描述的模型中使用的語言模型都是逐個單詞生成[11].但是從生物學的角度,特別是人類,在觀察一幅圖片的時候,首先確定圖像中存在哪些物體,他們之間有哪些關系,然后將他們之間的聯系用自然語言清楚地描述出來.因此Wang提出了一種由粗到細的方法[12],將圖片描述的任務分成兩個部分,一個主干句和各種物體的特征即標簽,同樣在生成描述的時候也分為這兩個部分進行.然而這些方法都沒有基于用戶的標簽來對社交圖像進行引導,本文我們提出了基于用戶標簽的注意力社交圖像方法.該方法首先將圖像特征與用戶的標簽經過注意力機制的處理,然后將處理后的特征作為encoder傳入LSTM來生成描述.

3 社交圖像描述模型

3.1 LSTM 網絡

RNN網絡又稱為循環神經網絡,它在原有的神經網絡的基礎上添加了反饋調節的功能,因此可以做用于序列模型的生成,該網絡的更新不再像傳統的神經網絡一樣只依賴于輸入,隱藏層的狀態也是更新的一個重要依據.RNN可以依據輸入(a1,a2,···,an)更新網絡的隱藏狀態(h1,h2,···,hn),其具體公式如下:

其中,W,p,b是需要學習的參數,ψ()是激活函數.但是RNN在訓練較長的時間序列上信息容易丟失,因此長短時記憶網絡LSTM被引入來解決這一問題.LSTM網絡在RNN 基礎上引入了門的機制來改變RNN的細胞狀態(添加或修改信息)[13].

在已知輸入序列(a1,a2...an)的情況下,LSTM單元可以通過如下公式來計算隱藏狀態h和細胞狀態c:

其中,m代表第m時刻,σ()是sigmoid的激活函數,·代表兩個向量的點乘.

3.2 整體框架

給定一張社交圖像s∈S,和一系列的用戶標簽Ti(i=1,2,···,m),社交圖像描述的任務就是產生m個基于用戶標簽的描述ci(i=1,2,···,m).更簡單的理解是我們利用社交圖像和用戶的標簽(s,T)來生成描述.卷積神經網絡C N N 提取圖片全局的視覺特征V={V1,V2,V3,···,VL}即將圖片劃分為L塊區域,每個區域都是一個D維的向量,此外我們還獲取了能夠反映用戶關注度的標簽T∈RN?D,T={T1,T2,···,Tn},其中n代表標簽的長度.視覺特征V經過視覺注意力處理后得到特征Vatt,用戶標簽經過用戶注意力處理后得到Tatt,然后將Vatt和Tatt一 塊傳入LSTM生成t時刻的單詞Wt,其流程圖如圖1所示.不同于以往的圖像描述模型,我們的算法考慮到了用戶的因素,同時用戶的標簽還可以糾正因部分視覺特征導致的描述偏差,其工作流程可以概括為以下公式:

公式(8)、(9)分別用視覺注意力模型和用戶注意力模型來對圖像特征V和用戶標簽T進行注意力的權重分配得到處理后的特征Vatt、Tatt,公式(10)對加權后的用戶標簽進行線性化處理使得與Vatt處于同一維度.公式(11)將Vatt、Tlstm傳入LSTM生成當前時刻的單詞Wt.fvatt()、ftatt()具體細節將在3.3節和3.4節介紹.

圖1 模型框架圖

3.3 視覺注意力模型

使用卷積神經網絡提取的圖像特征V是一個LxD維的向量,即將圖像劃分為L個區域,每個區域用D維的向量表示:

其中,RD表示屬于D維度;Vi表示第i個圖像區域;對于圖像的每個區域,注意力分配函數Gatt[14]根據圖像特征V和語義注意力模型在t?1時刻的生成的單詞Wt?1產生一個權重:

歸一化處理:

經過視覺注意力模型處理以后的圖像特征Vatt:

3.4 用戶注意力模型

在社交圖像中,用戶的標簽可以反映用戶的關注點,對于用戶標簽中的每個單詞,注意力分配函數Gatt根據用戶的標簽產生一個權重:

對β進行歸一化處理:

生成對當前標簽的語義的狀態Tatt:

將用戶的標簽Tatt進行維度轉換為Tlstm,與經過注意力模型處理后的視覺特征Vatt一起傳入LSTM 生成當前時刻的單詞:

用戶注意力模型更加注重于生成的句子的語義結構,因為對于句子的分析單憑視覺概念往往導致語義存在偏差,因此將注意力模型產生的視覺特征Vatt與標簽Tlstm一起傳入LSTM中進行語義的完善.對于標簽T及生成的句子中的單詞W,本文采用維度為D的one-hot 向量來表示,用戶標簽用維度為ZxD的向量T來表示:

其中,D表示詞典的大小,Z表示標簽的長度.圖像生成的句子用維度為CxD的向量W來表示:

其中,D表示詞典的大小,C表示產生的句子的長度.

4 實驗

4.1 數據集和評估方法

算法在MS COCO[15]數據集上驗證了其性能.COCO[12]分為訓練集、驗證集、測試集.其中訓練集包含82 783張圖片,驗證集包含40 504張圖片,測試集包含40 775張圖片.每一張圖片對應于5個人類標注的描述.社交圖像的用戶的標簽是本實驗的關鍵部分,考慮到現在沒有對于社交圖像描述的數據集,我們針對圖像描述中的每個句子隨機提取一到兩個關鍵字(除去介詞和名詞)即一幅圖像對應5個標簽和5個描述.在社交圖像中用戶的標簽有時候往往存在一定的噪聲,為了接近于更加真實的社交圖像場景,我們在標簽的提取過程中隨機添加了7%的噪聲(來自于其他圖片的單詞).

4.2 實驗對比方法介紹

Soft[3]利用空間注意力機制來處理卷積后的圖像特征,圖像的每個區域被分配不同的權重來表示上下文的信息,然后將這些信息輸入到編碼-解碼框架中.

gLSTM[4]采用三種不同的指導信息(基于摘要指導、基于語義指導、基于圖像指導)來生成單詞.

Sem-ATT[10]對屬性進行了注意力機制的處理并且與圖像特征(只在t=0時)傳入LSTM 來生成單詞.

Att+cnn+lstm[7]利用預訓練模型提取屬性作為圖像的高級語義信息,然后將它們傳入CNN-RNN 框架中生成單詞.

BIC+ATT[8]探究了圖像特征與屬性對于圖像描述的影響,作者采用了5種不同的組合形式進了對比.

4.3 實驗分析

我們采用了圖像描述評測指標Bleu[16]、Meteor[17]、Rouge-L[18]、CIDEr[19]來評測我們的模型[20],如表1所示,我們的算法表現出較好的優越性,這表明用戶的標簽能夠糾正視覺偏差并且能夠與視覺特征相互作用來生成更加準確的描述.此外具有先驗知識(屬性或標簽)的方法(Sem-ATT[10]、Att+cnn+lstm[7]、BIC+ATT[8])明顯要優于單純的視覺描述方法(Soft[3]、gLSTM[4]).考慮到社交圖片提取標簽的方法與傳統圖片的不同以及為了證明我們算法的優越性不是依賴于我們提取的標簽,我們采用相同的標簽實現了一些經典的算法(Sem-ATT[10]、Att+cnn+lstm[7]、BIC+ATT[8]),實驗結果如表2所示,考慮到不同的模型對于標簽的抗噪性的影響不同,實驗結果會存在差異.在表2中,我們的算法依然保持著優越性,該結果同時也表明我們算法的抗噪性要優于其他算法(Sem-ATT[10]、Att+cnn+lstm[7]、BIC+ATT[8]).綜合表1 與表2,我們可以得出如下結論:在社交圖像描述中用戶的關注度(標簽)可以糾正視覺特征的偏差,于此同時視覺特征與用戶的標簽又能夠相互影響并且可以有選擇地參與LSTM中生成更加真實的描述.

表1 模型與經典算法的比較

表2 模型與帶有標簽的方法(用戶標簽取代原有標簽)比較

5 結論與展望

本文提出了基于視覺注意力與用戶注意力的社交圖像描述方法,并且在MS COCO數據集上表現優異.該算法的核心思想是利用用戶的關注度能夠自適應地融合全局與局部的信息來生成更加準確而真實的描述.相比于前人的工作,我們在圖像描述算法中考慮到了圖像的視覺特征與用戶的關注度(用戶標簽)之間的內在聯系.針對下一步的工作,我們將利用多種不同的模型架構來探索用戶的注意力機制對于社交圖像描述任務的影響.

猜你喜歡
單詞特征用戶
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产一区二区精品高清在线观看| a毛片免费看| 国产日本视频91| 一本大道东京热无码av| 日韩 欧美 小说 综合网 另类| 国产成人麻豆精品| 国产呦视频免费视频在线观看| 人人91人人澡人人妻人人爽| 欧美在线一二区| 免费在线国产一区二区三区精品| 国产精品午夜福利麻豆| 国产91色在线| 国产成人1024精品下载| 高清无码手机在线观看 | 亚洲第一网站男人都懂| 亚洲精品成人片在线观看| 日韩性网站| 国产麻豆永久视频| 国产成人无码播放| 国产区网址| 国产区人妖精品人妖精品视频| 亚洲欧美自拍视频| 中文无码毛片又爽又刺激| 狠狠色丁香婷婷综合| 久久亚洲综合伊人| 日韩免费中文字幕| 一本久道久综合久久鬼色| 中文国产成人久久精品小说| 亚洲欧美不卡| 114级毛片免费观看| 久久久久亚洲av成人网人人软件 | 日本三级欧美三级| 国产精品妖精视频| 尤物在线观看乱码| 久久午夜夜伦鲁鲁片不卡| 亚洲天堂伊人| 国产乱人免费视频| 日韩无码视频专区| 伊人中文网| 精品久久蜜桃| 成人国产免费| 久久精品aⅴ无码中文字幕| 国产又爽又黄无遮挡免费观看| 毛片最新网址| 尤物国产在线| 久久99国产视频| 亚洲综合网在线观看| 综合人妻久久一区二区精品| 亚洲性一区| 少妇高潮惨叫久久久久久| 亚洲无码高清一区二区| 在线va视频| 免费毛片a| www.国产福利| 欧美专区日韩专区| 高清免费毛片| 亚洲午夜福利在线| 欧美精品影院| 欧美亚洲国产视频| 亚洲一区二区三区国产精华液| 国产成人高精品免费视频| 欧美亚洲欧美| 自拍中文字幕| 亚洲天堂高清| 污网站免费在线观看| 久久久受www免费人成| 欧美a在线看| 丁香婷婷久久| 亚洲欧美国产视频| 国产v精品成人免费视频71pao| 欧美成人午夜视频免看| 她的性爱视频| 亚洲欧美在线看片AI| 亚洲日韩第九十九页| a国产精品| 日本国产精品| 无码精品国产VA在线观看DVD| 国产人妖视频一区在线观看| 国产精品综合色区在线观看| 亚洲精品桃花岛av在线| 亚洲综合日韩精品| 日本精品一在线观看视频|