999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多空間混合注意力的圖像描述生成方法

2020-06-01 10:55:12林賢早徐小康
計算機應用 2020年4期
關鍵詞:特征優化模型

林賢早,劉 俊,田 勝,徐小康,姜 濤

(杭州電子科技大學通信信息傳輸與融合技術國防重點學科實驗室,杭州310018)

(?通信作者電子郵箱lilcore_lxz@163.com)

0 引言

隨著近些年人工智能的高速發展,近海地區也在跟進構建智能化船舶監測系統。而自動化的情報生成就是其中至關重要的一環,也是極為困難的一環。船舶監測系統中關于情報的生成不僅需要船舶類別、位置等信息,還需要描述船舶圖像內容的語義信息作為數據支撐。得益于深度學習在計算機視覺中的廣泛應用,計算機通過訓練可以自動生成對圖像的文本描述,同樣可以對船舶圖像的運動狀態和四周場景進行描述。

視覺作為人類的主要感官,發揮著巨大的作用。人們通過在短時間快速地瀏覽圖片就能在腦海中生成符合語言學且與內容相符合的圖像描述。由此可知,圖像描述生成領域關聯兩個基礎問題,也就是視覺理解和語言處理。換而言之,解決圖像描述生成問題需要連接計算機視覺和自然語言處理兩個社區,這項任務不僅需要高度理解圖像語義內容,還需要用人類化的語言表達出該信息。從以往的研究得知,確定圖片中的物體的存在、屬性還有之間的關系本身就不是一個輕松的工作,進一步用符合語法的語句去描述此類信息則更加提升了這項工作的難度。

深度學習在計算機視覺和自然語言處理等人工智能領域表現優越,可知深度神經網絡能同時為視覺模型和語言模型[1]提供支撐。受到神經機器翻譯中編解碼框架的啟發,圖像描述生成任務也可以分解成兩個步驟:對圖像內容和語義進行編碼,使用語言模型對該特征進行解碼。卷積神經網絡(Convolutional Neural Network,CNN)[2]現如今已成為目標檢測和識別的主流方法,而循環神經網絡(Recurrent Neural Network,RNN)在自然語言處理也擁有著卓越表現,兩者的有機結合剛好為圖像描述生成提供了有效的解決方案。

1 相關工作

早期在圖像描述生成方面的工作主要集中在基于檢索的方法和基于模板的方法。這些方法要么通過關鍵詞直接套用現有的描述文字[3],要么依靠嚴格編碼的語言結構完成文字描述[4],因此早期工作中這兩種方法產生的圖像描述在很大程度上十分晦澀而又低效。現如今,許多基于循環神經網絡的深度學習模型已經廣泛應用于圖像描述生成。而這些使用深度學習的方法大多數采用編碼/解碼框架。這個框架的流程是先通過預訓練好的卷積神經網絡將圖像編碼成能夠表征圖像內容的特征,然后結合部分完整描述文字提供的語義輸入到循環神經網絡中將該特征解碼成句子。這是Vinyals等[5]率先提出的,該模型是受到最近神經機器翻譯[6]在序列生成中的成功應用所啟發,與神經機器翻譯的區別就是圖像描述生成的輸入不是句子而是卷積網絡得到的特征,特征進行解碼時采用了長短時記憶(Long Short-Term Memory,LSTM)單元。LSTM 作為RNN 的變種,由于其門控單元的設計,能夠很大程度改善RNN 在長時間序列上的梯度彌散,因此后續的模型大多都是用LSTM 或其變種來解決句子生成這類序列結構問題。后續的研究則分別在編碼和解碼上對其進行改良,近來備受關注的注意力機制就廣泛應用于該任務。Xu等[7]使用帶有空間信息的卷積圖像特征作為輸入,在二維空間上使用注意力對位置進行選擇,他采取了兩種注意力方式,分別為只選取固定數量位置的“硬”注意力和給所有的空間位置分配不同權重的“軟”注意力。這種空間注意力能夠有效地對特征再編碼,從而提高了語言模型生成句子的正確性。You等[8]將注意力轉向語義集合中,基于語義特征集合解碼生成圖像描述。Chen 等[9]甚至還對不同的特征通道使用了注意力,將注意力延伸到三維空間。

圖像描述生成方法在解碼階段一般使用交叉熵函數進行訓練,但是測試階段評價使用的是不可微的自然語言評價指標,比如BLEU(Bilingual Evaluation Understudy)[10]、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[11]、CIDEr(Consensus-based Image Description Evaluation)[12]等,因此使用交叉熵函數無法直接優化評價指標,而只能擬合模型去生成與數據集相近的語言描述,容易在解碼階段過擬合,無法對語言表達進行有效的學習。不止于此,測試階段的圖像描述生成是通過已訓練好的模型生成的單詞結合圖像特征,迭代地預測后續的單詞,所以這種預測方式容易對錯誤進行積累,這種現象叫作exposure bias,Rennie 等[13]1提出加入強化學習策略可以彌補交叉熵損失函數無法優化指標的缺陷,該策略可以在訓練中通過采樣的方式計算獎勵期望的梯度,進而更新模型權重,使得評價指標作為直接優化的目標。

圖像描述生成還受益于圖像描述生成數據集不斷擴大,比如原先的Flicker 8K、Flicker 30K 到現在MSCOCO(MicroSoft Common Objects in COntext)caption 提供十幾萬張圖片和對應的文字描述,使得深度神經網絡的訓練得到了有效的數據集支撐。為了將該方法應用于船舶監測中,本文自建船舶描述數據集對船舶的運動狀態和四周場景進行標注。

2 本文算法

本文提出的基于多空間混合注意力的圖像描述方法,使用預訓練好的檢測網絡提取感興趣區域的特征編碼,在解碼階段對該特征施加多空間注意力和視覺選擇,引入強化學習的策略梯度對優化目標進行重塑,從而使得訓練和測試階段的解碼統一,直接針對評價指標進行優化。整體框架如圖1所示,這種模式本質上屬于端到端的設計,但是由于實際訓練中無法同時優化卷積神經網絡和LSTM,圖像和文字雖然能表征同樣的事件或者事物,但是在表達形式上存在著鴻溝。本文將編碼解碼分成兩個步驟分開訓練,在得到豐富的語義特征之后,將該特征作為解碼模型的輸入。如圖1 所示,為了得到圖像的感興趣區域特征,算法總體框架中的卷積編碼器選用的是目標檢測網絡。具體采用的感興趣區域特征提取方案是以ResNet-101[14]為卷積骨干的Faster-RCNN[15]。為了感興趣區域特征能夠表征圖像中的相關屬性,在損失函數中添加屬性分類交叉熵損失。訓練數據集使用的是帶有屬性、坐標、類別標簽的Visual Genome 數據集。編碼采用的具體卷積結構如圖2所示。

圖2 卷積網絡結構Fig. 2 Convolution network structure

沿用Faster-RCNN 的框架,網絡的改動部分如下:首先將區域候選網絡(Region Proposal Network,RPN)結構接在分類網絡的第4 個卷積模塊之后,得到候選區域;然后將候選區域與第4 個卷積模塊的特征結合,得到感興趣區域特征;最后利用第5個卷積模塊接的圖像特征分別對401個屬性進行分類,對于1 601 個目標種類進行目標檢測。該目標檢測網絡的設計方式是為了與ResNet-101 分類網絡結構保持一致,提高網絡遷移的穩定性,使得網絡可訓練。

除此之外,當引入強化學習目標作為訓練的優化函數之后,增加了模型的不穩定性,通過實驗可知,直接優化平均期望獎勵這一目標,會使得模型無法訓練。而交叉熵損失函數往往能構成凸函數,使得模型易于收斂,所以本文先通過交叉熵模型得到性能較好的解碼模型,再使用策略梯度優化模型時就可以穩定地提高評價指標。

2.1 多空間注意力

在人類的視覺系統中,注意力信號大致可以劃分為兩種:一種是自頂向下的注意力,這類信號受當前的任務的驅動,由人的主動意識所控制;另外一種是外界新奇或者顯著的激勵因子組成的自底向上的信號,一般是被動地接收。這兩種注意力信號都與視覺元素的內容相關聯。

由于卷積操作本身的特性,特征圖的每一通道都由一組卷積核對上一層特征塊卷積后得到,可將其對應為自底向上的局部空間特征提取器,因此特征塊的通道可以認為是圖像的不同語義部分。換而言之,卷積核能夠在局部感受野中融合空間和通道信息。既然卷積的作用是對圖像進行特征編碼,那么注意力編碼的設計可以認為是對不同位置、不同通道的特征進行解耦。添加注意力后得到的特征圖,可以看作是對空間、通道信息的重新校準,可以對后續的解碼過程產生積極的影響。本文在解碼階段采用多空間注意力,如圖3所示。

圖3 多空間注意力Fig. 3 Multi-spatial attention

這種注意力也同樣屬于自注意力。此自注意力本質是對特征進行重新編碼。回顧之前的框架,本文通過卷積神經網絡得到了圖像的特征向量表達,這一環節就是結合解碼輸出構成的上下文語境引導特征的重新編碼。具體的操作為:

att = softmax(αhTV)V (1)其中:h 為循環神經網絡的隱層狀態;V 為感興趣區域特征。與一般注意力不同的是,本文將這種注意力擴展到了多個空間中。假設隱層狀態長度為k 維,每個空間位置的圖像特征也為k 維,先將其擴展成N 個子空間后,通過式(1)計算子空間注意力的權重,然后將其重新拼接成最后的注意力特征。

2.2 視覺選擇

因為評價標準依據的是生成句子的內容和流暢性,因此僅僅關注圖像的視覺部分還不夠,還需要考慮將圖像內容串聯起來的一些非視覺詞語,所以本文在原有的LSTM 中加入視覺選擇門控機制。帶有視覺選擇的解碼模型可以自動決定什么時候關注視覺信號,什么時候依賴語言模型。當依賴視覺信號時,模型同樣會決定對視覺區域的選擇作出判斷。一般的LSTM模型如下:

其中:xt是輸入向量;mt-1是t - 1 時刻的記憶細胞向量。通過在該向量上進行擴展,得到可供非視覺詞產生的信息,形成視覺選擇門控機制。

其中:Wx和Wh是需要被學習的權重;xt是LSTM 在t 時刻的輸入;gt向量對記憶細胞施加影響;mt包含了時刻t 及其之前的語義信息;“⊙”是點乘操作。

基于非視覺詞的信息st和注意力的特征attt來重新組合得到自適應語義向量c′。

其中μt是一個標量,它決定了對視覺信息的選擇,它的取值是先將st和ht映射到嵌入空間,將其進行組合后再投射到一維空間得到標量值,具體實現如下:

視覺選擇與多空間注意力構成了多空間混合注意力,既能關注視覺方面的信息,也能對圖像中的非視覺信息進行選擇。多空間混合注意力同時還得益于編碼特征中將圖像之間的屬性關系融合到優化目標中,使得感興趣區域特征融合進了圖像的屬性信息。

2.3 策略梯度優化指標

如圖4 所示,循環神經網絡模型可以看作一個智能體與外部環境(單詞和圖像特征)進行交流。這個網絡模型的參數θ定義了策略π。策略π 會產生一種動作,對應的就是句子的預測。在每個動作之后,這個智能體即LSTM 會更新它的狀態。這個狀態指的是LSTM 中的記憶細胞狀態和隱層狀態。這個過程迭代生成句子描述,直到生成句子結束標識符。智能體通過觀測環境可以獲得回報,動作的選擇就是通過最小化這個回報的負期望得到的。回報的產生就是依賴常用的評價指標,比如CIDEr-D,計算生成句子的得分值,本文將這種回報記作r。

圖4 強化學習優化過程Fig. 4 Optimization process of reinforcement learning

目標函數就從原來的交叉熵函數重新塑造成回報的期望:

由于無法得知回報的分布,一般常用蒙特卡洛方法經驗平均來作為模型期望的無偏估計。此方法主要的限制是在強化學習下使用小批量樣本會使需要優化的回報這一隨機變量產生高的方差,從而使得訓練過程十分不穩定,難以收斂,并且無法選擇學習率。除了適當地增加批尺寸外,為了穩定性的需要還可以加入合適的偏差修正baseline。

baseline 的設置為當前模型在測試階段得到回報。那么式(8)可改寫為:

因為baseline是一個常數,所以并不影響梯度的大小。除此之外本文還使用限定采樣方式為多項式分布來加速訓練過程。

3 實驗與結果分析

3.1 評價指標

針對圖像描述生成任務,本文主要使用CIDEr-D 進行評分,其他評價指標有機器翻譯工作中基于精確度的BLEU 和自動摘要工作中基于召回率的ROUGE。以下是CIDEr 的計算公式:

其中:ci是生成候選句子;sij是參考的句子;gn(ci)是一個向量,它的長度為候選句子和真實句子中n 元詞組的個數之和,每個元素是計算n 元語法在候選生成句子中的TF-IDF(Term Frequency-Inverse Document Frequency);||?||是取模操作。同理gn(sij)即是將生成候選句子替換為參考句子后進行計算。wn一般設為1/N(N 一般設為4)。為了評價的公平性,微軟官方重新對CIDEr 進行修改,加上了句子長度的差異的高斯懲罰和對大于參考句子的TF-IDF元素進行截斷,記為CIDEr-D,重寫為:

一般使用σ = 6,乘以10 是為了讓這個分數與其他的評價的指標相近。

3.2 數據集和參數

本文選用在MSCOCO caption 數據集上驗證算法的有效性。MSCOCO 是微軟公開的圖像描述數據集,包含著82 783張訓練集、40 504 張驗證集和40 775 張測試集。相對于其他小規模的圖像描述生成數據集,COCO caption 數據集更有挑戰力,也更加具有公信力,其中一張圖片對應5句描述,由json格式提供。本文采取的驗證模型優劣的方式分為兩個步驟:先通過訓練集和驗證集在線下調節模型的參數,然后提交測試集的結果到服務器上獲取對應指標的分數。最終的解碼模型獲取分為兩輪,區別在于第一輪是對交叉熵損失函數進行優化,第二輪是通過策略梯度對模型進行調節。第一輪設置為學習率0.000 1,選用Adam 優化器降低交叉熵損失,收斂至平穩后,再降低學習率,直至交叉熵損失無法進一步優化,最大迭代輪數為30。得到較穩定的交叉熵解碼模型后,再使用策略梯度替換交叉熵損失函數,采取相同的超參數進行優化,兩輪訓練的總迭代周期為70。沿用Karpathy等[16]的數據集設置,分別使用5 000 張圖片用于線下的驗證和測試。表1 列出訓練時候的超參數設置。詞嵌入向量設為1 024,LSTM 的隱藏層向量大小設置為1 024。為了防止過擬合對加入dropout,設為0.5。

3.3 結果與分析

為了使實驗結果有說服力,本文將COCO 測試集在本地得出的圖像描述提交到后臺驗證算法設計的有效性,并與近些年帶有注意力機制的算法進行比較。主要實驗內容如表2所示。

通過表2 可以得知,相比在解碼階段單純使用LSTM,現今的方法都會加上注意力機制,注意力機制能夠在解碼階段對于卷積得到的整體特征再次重新編碼,使得特征得以映射到能與語言空間容易轉換的嵌入空間,提升特征的表達能力。而本文使用的混合注意力,則首先將特征映射到不同的空間中,擴展注意力的表達,再使用視覺選擇機制分配視覺信息與語言信息的權重,不僅提升了特征的表征能力,還能聯系生成單詞的語義,從而獲得較好的指標結果。

在線下驗證實驗中,本文疊加多空間注意力和視覺選擇模塊進行訓練,融合成本文所提出的混合注意力進行優化模型。從表3 的結果來看,在沒有使用策略梯度微調模型的情況下,還是能夠使結果達到比較好的效果。當加上策略梯度優化時能夠極大地提升混合注意力模型解釋特征的能力。這里的強化學習算是一種優化手段,本質上也是在復雜模型提供的參數空間中尋找最優的參數優化指標,最終還是混合注意力起到了作用,使得該模型的圖像描述能力提升,獲得了較高的評價分數。同時實驗統計了編解碼模型在前向的耗時,編碼前向平均每幀平均耗時200 ms,解碼前向每幀平均耗時40 ms。

除了在權威的COCO 數據集上進行模型驗證實驗之外,本文還自建船舶描述數據集,將船舶在海上航行的情況進行描述,為情報生成打下基礎。如圖5 所示,給出帶有船舶的圖片,可以自動輸出語句來描述出其船舶明顯的主體顏色及其在海上航行或岸邊停靠等內容,并且語句的表述能夠合乎語法規則。

圖5 自動生成船舶圖像描述Fig. 5 Automatic generation of ship image descriptions

表1 超參數設置Tab. 1 Hyperparameter setting

表2 不同注意力機制的算法比較Tab. 2 Comparison of algorithms with different attention mechanisms

表3 疊加不同模塊的效果Tab. 3 Effect of adding different modules

4 結語

本文深入研究了圖像描述生成方案,提出了基于多空間混合注意力的圖像描述生成模型,并將該方法應用于船舶圖像上,以填補近海船舶監測系統的情報生成的缺失。但是該模型還是有局限性,比如句子的長度是被限制在16 個單詞,所以對于語義內容多的圖片可能無法進行有效的描述。值得一提的優化方法有增大語料庫來提高生成句子的豐富性,這種方式是最直接有效的提升指標,但是工作量較大。

猜你喜歡
特征優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 国产高清又黄又嫩的免费视频网站| 一级毛片在线免费视频| 天堂网亚洲综合在线| 99性视频| 最新国产成人剧情在线播放| 扒开粉嫩的小缝隙喷白浆视频| 日本福利视频网站| 欧美不卡视频在线观看| 欧美va亚洲va香蕉在线| 国产国产人成免费视频77777| 国产精品爽爽va在线无码观看 | JIZZ亚洲国产| 精品福利网| 欧洲av毛片| a级毛片免费看| 国产精品9| 青青操国产| 91福利片| 国产主播在线观看| 国产一区二区三区免费| 亚洲黄色片免费看| 精品综合久久久久久97超人| 狠狠五月天中文字幕| 久久婷婷五月综合97色| 中文字幕伦视频| 国产高清在线精品一区二区三区| 欧美日韩久久综合| 国产人在线成免费视频| 欧美天堂久久| 久久99精品国产麻豆宅宅| 爽爽影院十八禁在线观看| 国产av一码二码三码无码| 99热6这里只有精品| 国产成人盗摄精品| 欧美激情第一欧美在线| 国产视频 第一页| 欧美一级视频免费| 99re经典视频在线| 欧美日韩中文国产| 99尹人香蕉国产免费天天拍| 亚洲综合婷婷激情| 国产亚洲精品91| 国产亚洲精品精品精品| 日韩二区三区无| 国产精品熟女亚洲AV麻豆| 亚洲国产精品一区二区第一页免| 亚洲天堂啪啪| 国产女人水多毛片18| 激情爆乳一区二区| 国产精品女人呻吟在线观看| www.亚洲国产| 伊人色天堂| 亚洲一区国色天香| 亚洲全网成人资源在线观看| 国产成人免费观看在线视频| 国产精品七七在线播放| 久久人人97超碰人人澡爱香蕉| 丁香婷婷久久| 欧美国产在线看| 国产成人一二三| 亚洲日韩精品无码专区| 国产在线无码一区二区三区| 久久婷婷人人澡人人爱91| 国产h视频免费观看| 久久人妻xunleige无码| 一级看片免费视频| 亚洲丝袜第一页| 成人国产小视频| 中文字幕乱码二三区免费| 中国毛片网| 国产日韩精品欧美一区灰| 国内精品视频在线| 国产高清精品在线91| 67194亚洲无码| 国产精品久久久久久久久久98| 伊人91在线| 日本影院一区| 欧美午夜视频在线| 成人午夜网址| 在线另类稀缺国产呦| 麻豆精品在线视频| 亚洲精品免费网站|