999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的交通場景圖像描述生成算法

2022-12-03 01:56:46宋祿琴玄祖興王彩云
計算機應用與軟件 2022年11期
關鍵詞:機制特征模型

宋祿琴 玄祖興 王彩云

1(北京聯合大學北京市信息服務工程重點實驗室 北京 100101)2(北京聯合大學基礎與交叉科學研究所 北京 100101)

Image caption

0 引 言

當前,深度學習迅速發展,圖像描述作為計算機視覺和自然語言處理的交叉研究課題,具有十分廣闊的前景。圖像描述生成[1]任務是指將圖像的視覺信息和圖像的文本信息相結合,對輸入圖像的視覺特征和文本的關鍵詞特征提取分析,得到一句或者一段關于該圖像的文字描述。可應用在無人駕駛領域,主要體現在輔助視覺障礙人群、安全輔助駕駛、交管部門管理等方面都具有廣泛的應用價值。例如,在現實交通環境中,經常出現行人橫穿馬路、司機隨意變道、司機疲勞駕駛等不確定性復雜的行為,這些情況給人們的出行以及交管部門的管理帶來了新的挑戰。

目前,國內外出現許多自動駕駛企業,例如特斯拉、Mobileye、百度等,他們對汽車的智能駕駛主要是通過雷達、視覺圖像、全球定位系統等傳感器共同實現對汽車的智能駕駛。大多數學者和工業界從目標檢測[2-3]、目標識別[4]和全景分割[5]等角度對交通場景圖像進行研究,忽略了語義角度。現有資料表明,對交通場景圖像的圖像描述生成[6]研究較少,本文將從圖像描述角度出發,利用神經網絡實現對部分交通場景的圖像描述。

1 圖像描述生成算法研究現狀

目前,圖像描述生成算法大致分為三類:基于模板的方法、基于檢索的方法、基于神經網絡的方法。本文采用的基于神經網絡的方法。

基于模板的方法,這類方法一般具有固定模板,句子中包含許多空白的位置用來生成標題。利用計算機視覺技術檢測圖像中存在的對象、屬性,以及識別出圖像可能發生的動作,最后將關鍵字填入模板中的空白處。Farhadi等[7]提出一種三元模型,該模型由對象、動作和場景三種元素組成,將模型檢測出的關鍵字填充在句子的空白模塊,生成與圖像相匹配的圖像描述。由于模板是預定義的,不能生成隨意變換長度的句子,因此基于固定模板的方法生成句子比較單一。

基于檢索的方法,文獻[8]從訓練數據集中匹配與目標圖像標題視覺上類似的圖像,然后將標題標記為候選標題。基于檢索的方法生成的描述和語法正確的標題,但是對于特定語義的圖像或者數據集從未出現的語句無法生成正確的圖像標題。

基于神經網絡的方法,該方法通常采用編碼器-解碼器的組合架構。在編碼階段使用卷積神經網絡(Convolutional Neural Network,CNN)算法提取圖像特征信息,解碼階段使用循環神經網絡(Recurrent Neural Network,RNN)或者長短期記憶網絡來(Long Short Term Memory,LSTM)描述圖像。

其中,最具有代表性的算法是多模態循環神經網絡(multimodal RNN,m-RNN)[9],Mao等首次將圖像描述生成任務分為兩個子任務,在CNN任務中,通過AlexNet對提取圖像特征,用獨熱編碼將文字編碼為詞向量,將圖像特征和詞向量共同傳送至RNN網絡。由于RNN結構單一,隨著網絡深度的加深,容易產生梯度消失,存在學習能力下降的缺點。Vinyals等[10]提出了神經圖像描述生成(Neural Image Caption,NIC)算法,使用LSTM代替普通的RNN,同時在CNN結構中使用批處理操作,在之前的算法基礎上,精度和速度得到大幅度的提升。該算法的不足之處在于,LSTM的輸入部分為圖像經過CNN提取出的全局特征,并未考慮圖像中存在的關鍵信息,導致圖像在生成句子描述上語義表達模糊。Xu等[11]首次將注意力機制使用在圖像描述生成任務上,使圖像在生成語言文字序列時,選擇關注區域,提升圖像描述生成模型的精度。在提取特征過程中,隨著網絡深度的增加,網絡存在學習能力退化問題[12],He等[13]提出殘差網絡(Residual Network),有效解決了網絡退化問題。Xu對圖像特征提取后,語言模型的輸入為固定特征向量,并不能及時獲得圖像表達的完整語義,Wang等[14]提出了多注意力機制,可以充分地使用圖像特征進行語言描述。

You等[15]提出語義注意力模型,卷積神經網絡通過top-down和bottom-up提取圖像特征,通過分類圖像特征信息提取出圖像的語義屬性特征,最后利用注意力機制選擇語義特征向量生成圖像描述。隨著網絡深度的加深,該模型出現圖像信息逐漸丟失的問題。Lu等[16]提出視覺標記的Adaptive Attention算法,該算法在生成描述句子時,自適應地選擇依賴輸入圖像的視覺特征信息來生成視覺詞或者依賴LSTM語言模型來生成非視覺詞。Anderson等[17]提出結合bottom-up and top-down 兩種注意力機制,在提取圖像特征階段使用Faster R-CNN[18]網絡模型,該模型中的區域生成網絡(Region Proposal Network,RPN)可以提取圖像相對應的目標。不足之處在于RPN提取候選框較多,模型中存在較多的重復計算。文獻[19]提出在注意力機制中使用全卷積替代全連接操作,使得模型參數量減少,在一定程度上提升了運行速度。上述網絡模型在圖像描述生成任務中各有其優點,能夠良好地使用自然語言描述圖像。

本文提出一種基于注意力機制的圖像描述生成模型。主要有以下特點:(1) 使用改進的卷積神經網絡提取豐富的圖像特征,將圖像特征分為不同區域,分別依次連接注意力機制,使得算法在生成描述時,可以自主選擇各區域的特征;(2) 得到帶有注意力權重的圖像特征與多層LSTM語言模型相連,使其更加準確地完成對交通場景圖像描述生成;(3) 在解碼階段,對圖像的自然語言描述采用Word Embedding中的Word2vec編碼方式,相對以前常用的one-hot編碼,能夠有效地解決文本的有序性問題和文本向量維度災難等問題。

為了驗證算法的可靠性,本算法在MSCOCO[20]數據集上進行了驗證,該算法在評估指標BLEU-1至BLEU-4上分值分別為0.735、0.652、0.368和0.323。實驗表明,本文算法能夠準確地對交通場景圖像進行描述生成。

2 本文算法

對交通場景圖像理解,本文從語義角度出發,提出一種基于注意力機制的圖像描述算法,本文算法分為編碼階段和解碼階段。編碼階段,為了得到更加準確的圖像描述,本文算法利用深度殘差網絡提取圖像特征,重點是在圖像特征中增加了注意力權重,得到帶有權值的圖像特征,定義為集合C,解碼階段結合LSTM語言模型共同完成圖像的描述生成。如圖1是本文算法的總體流程。

圖1 本文算法的總體流程

用X表示輸入的訓練圖像,對應的文本描述為S={S1,S2,…,Sn},其中:Si表示輸入句子的第i個單詞;n表示文本句子中單詞的最大長度。C為帶有注意力權值的圖像特征集合。

網絡結構中,圖像X經過LSTM生成的單詞概率如式(1)所示。

模型在訓練中,訓練目的即使圖像特征與描述句子之間的映射關系最大化,模型所需學習的模型參數表示為式(2)。

式中:S為圖像X生成的句子且長度不固定;θ為模型需要學習的參數,訓練時通過優化θ的方式來最大化圖像生成正確的圖像描述概率。

2.1 編碼階段

2.1.1圖像特征提取

網絡層數越多,提取的特征越豐富,但是隨著網絡的深度加深,網絡在訓練集上的準確率容易趨近飽和。為了得到豐富的特征,本文使用深度殘差網絡,該網絡在普通卷積網絡結構中引入跳躍式連接方式構成殘差模塊,有效地解決了隨著網絡層數的加深,網絡的準確率和學習能力降低等網絡退化問題。

深度參數網絡由殘差模塊(residual block,RB)組成,圖2為一個殘差模塊結構示意圖。

圖2 一個殘差模塊示意圖

用x表示網絡的輸入,H(x)表示網絡的輸出,x通過跳躍連接方式直接作為輸出的初始結果,得到輸出結果H(x)見式(3)。

H(x)=F(x)+x

(3)

當F(x)=0時,構成恒等映射H(x)=x,網絡的學習目標發生改變,即H(x)和x的差值,訓練目標為將殘差結果無限趨近0。將求恒等映射H(x)=F(x)轉變為求式(4),擬合殘差函數比直接擬合函數H(x)=x更加容易。

F(x)=H(x)-x

(4)

本文采用50層的深度殘差網絡,網絡中包含4種不同參數的殘差模塊,每個殘差模塊由三層卷積組成。殘差模塊第二層采用3×3卷積先經過第一層卷積核大小為1×1的卷積降維,用來減少參數的計算量,在最后一層1×1卷積時做了維度還原操作,保持了精度的情況下減少了計算量。網絡結構中包含16個殘差模塊,具體網絡結構如圖3所示。

圖3 ResNet50網絡結構

圖像經過卷積、池化操作后得到l個特征圖,用集合A表示,見式(5),其維度為D。

A={a1,a2,…,al}ai∈RD

(5)

2.1.2融合注意力機制

在圖像描述生成中融合注意力機制,可以更準確地表達圖像突出的特征信息,注意力機制的本質是把圖像對應的文本描述和圖像中的不同區域做一個映射。在以往的圖像描述模型中,在預測t時刻單詞時,其映射關系為式(6)。

ht=f(ht-1,xt-1)

(6)

式中:ht-1表示上一時刻隱層的輸出信息;ht是當前時刻的隱藏層輸出值。編碼階段在提取特征向量過程后,在解碼階段預測單詞均使用最初輸入的圖像特征,并不能在每個時間節點關注到圖像的突出區域。

將一幅圖像分為l個不同區域,對不同區域使用卷積神經網絡提取特征,在l個不同區域融合注意力機制,賦予不同區域不同的權值,使得網絡在預測單詞過程中,可以時刻關注到圖像的重點區域。圖4是融合注意力機制的結構。

圖4 融合注意力機制的結構

表1 符號說明

用集合A表示一幅圖像共有l個特征圖,其維度為D,將圖像分為l個待關注區域,集合A見式(5)。

wt={at1,at2,…,atl},wti是t時刻ai的權值,在訓練注意力機制時,模型的輸入是圖像與相應的句子描述,句子通過詞嵌入(Word Embedding)方式向量化,保存在上一時刻的隱藏層狀態中。

圖4中C={c1,c2,…,cl},ci∈RD經以下形式融合而成,r表示相關性匹配計算操作,用來計算句子中每個單詞與每個特征圖ai的相關性,再通過tanh激活函數得到bti,用式(7)表示。

bti=fatt(ai,ht-1)

(7)

式中:fatt通常為一層神經網絡,其映射關系如式(8)所示。

fatt=tanh(wsrht-1+warai)

(8)

式中:wsr表示單詞S的權值;war表示圖像區域的權值,為了突出重要特征權值,采用Softmax歸一化處理,使其得到的結果映射在(0,1)之間。wti表達式如式(9)所示。

式中:bti中t表示t時刻,i表示ai對應的權重。帶有注意力權值圖像特征向量ct見式(10)。

2.2 解碼階段

在LSTM語言模型中,采用多個LSTM網絡結構,使圖像的底層的卷積特征連接底層的LSTM模塊,圖像的高層卷積特征連接高層的LSTM模塊,不同模塊之間賦予不同的注意力,充分地利用圖像特征信息。

本文的語言模型結構如圖5所示。

圖5 語言模型結構

本文網絡結構中使用多個LSTM基本單元,隨著網絡的不斷加深,使得網絡在訓練過程中容易飽和。LSTM提取圖像特征的注意力結構時,設計將多個LSTM基本單元使用殘差連接,可以有效地避免網絡無法收斂的情況。

LSTM作為語言生成模型的基本單元,模型基本結構如圖6所示。

圖6 LSTM單元存儲結構

1個LSTM單元存儲結構包括3個門和一個記憶細胞M。i、f和o分別代表輸入門、遺忘門和輸出門。it、ft和ot分別表示輸入門、遺忘門和輸出門向量。ht-1表示上一個LSTM存儲單元的隱藏層的狀態信息,ht表示當前單元的隱藏層輸出信息。xt表示當前輸入的文本向量信息,Mt-1表示上一個LSTM單元的存儲信息,Mt表示當前時刻即t時刻的存儲信息,σ為sigmoid(x)激活。it、ft和Mt分別用式(11)、式(12)和式(13)表示。

it=sigmoid(Wixt+Wiht-1+bi)

(11)

ft=sigmoid(Wfxt+Wfht-1+bf)

(12)

Mt=it×tanh(Wcxt+Wcht-1+bc)+ft×Mt-1

(13)

最后,通過輸出門控制當前LSTM單元的輸出信息,見式(14)、式(15)。

ot=sigmoid(Woxt+Woht-1+bo)

(14)

ht=ot×tanh(Mt)

(15)

3 實 驗

3.1 數據集與實驗環境

本文采用微軟提供的MSCOCO數據集,該數據集包含圖像識別、圖像分割和圖像描述生成等任務。圖像描述生成數據集由圖像數據和帶標注的JSON文件兩部分組成。JSON文件中包含圖像的類別、物體的輪廓坐標、邊界框坐標、image_id,對應于圖像數據中的存儲id和該圖像內容的描述,其中每幅圖像的描述均至少有5種。表2為實驗的訓練集和驗證集圖像,對于測試集,本文選用了交通場景的圖像作為測試集,更好地驗證該算法的準確性。

表2 數據集

文本實驗采用的硬件平臺是DELL深度學習工作站,顯卡為NVIDIA GeForce GTX 1080 Ti,操作系統為Ubuntu 16.04.3,深度學習框架為TensorFlow 1.14。

3.2 主要參數設置

網絡模型中,提取圖像特征選取改進的ResNet50,batch為11 290,訓練網絡時batch_size大小為32,epoch=50次,初始學習率0.001,衰減率設置為0.9。句子S生成詞向量,采用了詞嵌入方法,訓練過程中,為了防止在訓練過程中出現過擬合現象,使用正則化dropout方法,其取值為0.5。

3.3 實驗結果與分析

本次實驗結果測評選取當前主流的雙語評估指標(Bilingual Evaluation Understudy,BLEU)[21],該方法分析生成的候選句子和標準參考句子中n元組共同出現的概率,通過n-gram概率模型計算打分,取值范圍在0至1之間,取值越高,表示算法在“B-n”概率模型上效果越好。

BLEU評估指標計算為:

式中:wn為n-gram的權重;BP為懲罰因子,當生成候選句子的長度小于標準參考句子的情況,其值用式(17)表示。

式中:c為生成候選句子的長度;r為標準參考句子的長度。pn見式(18)。

Countclip(t)=min{Count(t),MaxRefCount(t)},t=n-gram

式中:pn為n-gram的匹配精度;Count(n-gram)為某個n元詞在生成的候選句子中出現的次數;MaxRefCount(n-gram)是該n元詞在標準參考句子中出現的最大次數。

本文算法與Google NIC[10]、Hard-Attention[11]、Sem-ATT[15]、Adaptive[16]和文獻[6]算法在BLEU上的對比結果如表3所示。

表3 MSCOCO數據庫上實驗結果比較(B-n代表BLEU分數,n=1,2,3,4)

表3表明,在MSCOCO數據集中,本文算法在BLEU-1至BLEU-4評估指標中取得了較高的分值,提升了圖像描述的性能。具體算法分析如下:

(1) Google NIC算法利用卷積神經網絡提取深層抽象的特征信息,再將圖像的特征信息傳送至長短期記憶網絡模型中,得到圖像的描述,在BLEU-4指標上,本文算法對比Google NIC算法提升了16.6%。

(2) Hard-Attention算法在圖像特征提取過程中,獲取淺層的圖像特征信息,在淺層信息中增加了注意力權值,然后將這些信息輸入至長短期記憶網絡模型。在BLEU-1至BLEU-4指標上,本文算法對比Hard-Attention算法分別提升了2.4%、29.4%、3%和29.2%。

(3) Sem-ATT算法在單詞屬性方面增加了注意力機制處理同時與圖像經過卷積神經網絡提取t=0時刻的圖像特征,同時傳入長短期記憶網絡模型中。在BLEU-1、BLEU-2、BLEU-4指標上,本文算法對比Sem-ATT算法分別提升了3.7%、21.4%和6.3%。

(4) Adaptive算法利用哨兵機制,生成圖像單詞時先計算單詞是屬于視覺詞或者上下文語義詞的概率,再由概率值分配權重得到總體特征,最后輸入至長短期記憶網絡模型生成圖像描述。在BLEU-2指標上,本文算法對比Adaptive算法提升了11.6%。

(5) 文獻[6]提出利用顏色注意力因子,對圖像中顏色賦予不同的權值,使其對黑、白和灰有很好的辨別能力。在BLEU-1、BLEU-2、BLEU-4指標上,本文算法對比文獻[6]算法分別提升了1.7%、25.9%和28.7%。

對交通場景圖像做圖像描述生成,本文提出的基于注意力機制的算法在BLEU指標上獲得了較高的分值。融合注意力機制的網絡使得圖像在訓練過程中更加關注圖像中的重要信息,如圖像中車、人的信息,使其對圖像的描述更加精確。為了進一步測試本文算法的效果,測試圖像選取了城市主干道路和十字路口圖像,融合注意力機制算法與無融合注意力機制算法對比測試結果如圖7所示,圖7左列與右列分別表示融合注意力機制算法與未添加注意力機制算法的圖像描述生成,結果表明:本文算法可以準確地用自然語言來描述交通場景圖像。

(a) 停在建筑物前面的汽車 (b) 在道路上行駛的一輛卡車

(c) 有交通信號燈和指示牌的一條城市道 (d) 城市街道上有許多交通工具

(e) 許多汽車在道路上行駛 (f) 一輛汽車停在路邊

(g) 一群人在道路上騎自行車 (h) 一個人在道路上騎自行車圖7 本文算法與無注意力機制算法描述對比測試圖像

4 結 語

交通場景的圖像描述生成重點是關注圖像中的行人和車輛,本文提出基于注意力機制的圖像描述生成算法,編碼階段將一幅交通圖像分為多個區域,不同的區域提取圖像特征后融合注意力權重,對圖像中的重點信息,如人和車賦予不同的權值,使得網絡在預測句子單詞過程中,可以時刻關注到圖像的重點區域。解碼階段采用多個LSTM網絡結構,底層的帶有注意力的卷積特征與底層LSTM單元結構連接,高層的帶有注意力的卷積特征與高層LSTM單元結構相連接,實現端到端的圖像描述。

本文算法在BLEU指標上進行評分,對比其他幾種注意力機制模型,評分結果表明,基于改進的殘差網絡和融合注意力機制圖像描述生成的算法能很好地描述交通場景圖像,包括交通場景中的重要信息,例如人和車。下一步研究工作重點是對交通場景中人和車之間相互關系進行準確描述,使得圖像描述生成在無人駕駛、安全輔助駕駛等方面發揮出更大的價值。

猜你喜歡
機制特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: a毛片在线| 久久精品一卡日本电影| 伊人色综合久久天天| 日韩视频免费| 69国产精品视频免费| 热久久这里是精品6免费观看| 国产精品污污在线观看网站| 欧美日韩午夜视频在线观看| 亚洲一区二区日韩欧美gif| 亚洲男人的天堂久久精品| 一级看片免费视频| 国产亚洲男人的天堂在线观看| 久久久久国产精品嫩草影院| 亚洲熟女中文字幕男人总站| 99re热精品视频国产免费| 亚洲国产天堂久久综合| 又爽又大又光又色的午夜视频| 四虎永久在线视频| 毛片在线区| 成人福利在线免费观看| 国产aⅴ无码专区亚洲av综合网| 欧美性爱精品一区二区三区| 亚洲成综合人影院在院播放| 国产精品污视频| 欧美精品在线免费| 日本国产一区在线观看| 国产在线欧美| 久久9966精品国产免费| 久久中文字幕2021精品| 国产老女人精品免费视频| 91久久天天躁狠狠躁夜夜| 丁香六月激情综合| 本亚洲精品网站| 亚洲综合经典在线一区二区| 99热这里只有精品久久免费| 露脸真实国语乱在线观看| 午夜毛片福利| 国产另类乱子伦精品免费女| 色妞永久免费视频| 成人午夜福利视频| 色天堂无毒不卡| 潮喷在线无码白浆| 欧美黄网在线| 91亚洲精品国产自在现线| 97国产一区二区精品久久呦| 一级毛片免费不卡在线视频| 国产一在线| 国产人碰人摸人爱免费视频| 美女视频黄频a免费高清不卡| 国产剧情国内精品原创| 国产性爱网站| 天天综合网站| 五月综合色婷婷| 综合久久五月天| 97超爽成人免费视频在线播放| 麻豆AV网站免费进入| 精品免费在线视频| 一本一道波多野结衣av黑人在线| 免费在线播放毛片| 极品国产一区二区三区| 夜精品a一区二区三区| 久久精品这里只有国产中文精品 | 色偷偷综合网| 狠狠综合久久| 色哟哟精品无码网站在线播放视频| 美女被操91视频| 国产免费黄| 99久久精品免费看国产免费软件| 99九九成人免费视频精品| 99久久亚洲综合精品TS| 国产后式a一视频| 91久久国产热精品免费| 欧美特黄一级大黄录像| 茄子视频毛片免费观看| 免费在线国产一区二区三区精品| 911亚洲精品| 亚洲日本中文字幕乱码中文| 亚洲第一成年网| 亚洲福利网址| 日本伊人色综合网| 国产h视频免费观看| 99爱在线|