李柯徵 王海涌
(蘭州交通大學(xué)電子與信息工程學(xué)院 甘肅 蘭州 730070)
(蘭州交通大學(xué)甘肅省人工智能與圖形圖像處理工程研究中心 甘肅 蘭州 730070)
硬件的發(fā)展推動(dòng)了人工智能的發(fā)展,作為人工智能分支的自然語(yǔ)言處理(Natural Language Processing, NLP)和計(jì)算機(jī)視覺(jué)(Computer Vision, CV)逐漸成為近幾年廣大研究者們研究的熱點(diǎn)。NLP主要研究的是理解自然語(yǔ)言,常用于實(shí)現(xiàn)命名實(shí)體識(shí)別、文本分析、機(jī)器翻譯、語(yǔ)音識(shí)別等。CV則主要研究的是圖像分類(lèi)、對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)、圖像的語(yǔ)義分割、圖像修復(fù)等。
互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及數(shù)碼設(shè)備的快速普及,帶來(lái)了圖像數(shù)據(jù)的迅速增長(zhǎng),使用純?nèi)斯?lái)鑒別圖像內(nèi)容變得十分困難。同時(shí),隨著深度神經(jīng)網(wǎng)絡(luò)的興起,處理日漸繁多的圖像數(shù)據(jù)成為一種可能,因此,如何通過(guò)計(jì)算機(jī)自動(dòng)提取圖像所表達(dá)的信息成為了研究人員所關(guān)注的熱點(diǎn)。圖像描述是指機(jī)器自動(dòng)生成描述圖像的自然語(yǔ)言,它能夠?qū)崿F(xiàn)圖像到文本信息的多模態(tài)轉(zhuǎn)換,是一項(xiàng)融合了NLP和CV的綜合任務(wù)。最早的圖像描述模型是由Farhadi等[1]提出的,該模型給定二元組(I,S),其中:I表示圖像;S表示摘要句子。能夠完成從圖像I到摘要句子S的多模態(tài)映射I→S。圖像描述的研究雖然仍處于初級(jí)階段,但是它在圖像檢索、機(jī)器人問(wèn)答、輔助盲人等方面有著很好的應(yīng)用前景,具有重要的現(xiàn)實(shí)意義。
Socher等[2]用深度神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)圖像和文本模態(tài)表示,然后映射到多模態(tài)聯(lián)合空間;Kulkarni等[3]將圖像中的對(duì)象、屬性和介詞等相關(guān)信息表示成三元組,然后使用預(yù)先訓(xùn)練好的N-gram語(yǔ)言模型生成流暢的文本描述句子;Mao等[4]提出的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(Multimodal Recurrent Neural Network,M-RNN)使用CNN對(duì)圖像建模、RNN對(duì)句子建模,并利用多模態(tài)空間為圖像和文本建立關(guān)聯(lián);Vinyals等[5]提出了谷歌NIC模型,該模型將圖像和單詞投影到多模態(tài)空間,并使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)生成摘要;Zhou等[6]提出一種基于text-conditional注意力機(jī)制的方法,該方法強(qiáng)調(diào)關(guān)注描述句子中的某個(gè)單詞,使用文本信息改善局部注意力;Zhang等[7]將強(qiáng)化學(xué)習(xí)應(yīng)用在圖像的文本描述生成中。然而,現(xiàn)有方法依然存在梯度消失導(dǎo)致的模型描述性能不佳、缺失語(yǔ)義信息,以及模型結(jié)構(gòu)無(wú)法關(guān)注圖像中的重點(diǎn)而導(dǎo)致模型與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足等問(wèn)題。
為了改善目前圖像描述方法所存在的問(wèn)題,本文以多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)M-RNN為基線(xiàn)模型,提出在圖像處理部分加入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[8]使模型更關(guān)注圖像中的重點(diǎn),并使用門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)來(lái)優(yōu)化M-RNN的語(yǔ)言處理部分。改進(jìn)后的模型在描述性能上得到了有效的提升,并且改善了模型與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足的問(wèn)題。
M-RNN可以為輸入的圖像生成描述句子來(lái)解釋圖像的內(nèi)容,是一種基于概率的神經(jīng)網(wǎng)絡(luò)模型。該模型將圖像描述生成分為兩個(gè)分支任務(wù),使用CNN提取圖像特征,使用RNN建立語(yǔ)言模型。M-RNN中的圖像部分采用AlexNet[9]結(jié)構(gòu)提取圖像特征(在Mao等[10]后續(xù)的研究中,模型里的CNN采用了VGGNet[11]結(jié)構(gòu),實(shí)驗(yàn)證明在M-RNN模型中VGGNet的效果要好于AlexNet),語(yǔ)言部分使用RNN處理詞向量,之后在多模態(tài)層將圖像特征與語(yǔ)言特征相結(jié)合,最后經(jīng)過(guò)Softmax層預(yù)測(cè)產(chǎn)生描述單詞。
M-RNN模型的每個(gè)時(shí)間步包含了5層:兩個(gè)詞嵌入層,循環(huán)層,多模態(tài)層,Softmax層。在圖像描述任務(wù)中,它們發(fā)揮了至關(guān)重要的作用:詞嵌入層可以將輸入的one-hot編碼的詞向量轉(zhuǎn)化為稠密詞向量,之后循環(huán)層對(duì)稠密詞向量進(jìn)行序列化處理,在多模態(tài)層會(huì)融合語(yǔ)言模型和圖像處理得到的特征向量,最后經(jīng)過(guò)Softmax層生成預(yù)測(cè)單詞的概率分布。
VGG-16網(wǎng)絡(luò)是常用的VGGNet模型,由13個(gè)卷積層和3個(gè)全連接層疊加而成,主要用來(lái)提取圖像特征。將VGG-16網(wǎng)絡(luò)中的Softmax層移除,并把第15層與M-RNN中的多模態(tài)層進(jìn)行連接,即可把抽取的圖像特征在多模態(tài)層和語(yǔ)言特征進(jìn)行融合。VGG-16網(wǎng)絡(luò)如圖1所示,其中FC表示全連接層。

圖1 VGG-16網(wǎng)絡(luò)圖
人類(lèi)的視覺(jué)注意力是一種特有的大腦信號(hào)處理機(jī)制,可以幫助人類(lèi)獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,以獲取更多目標(biāo)區(qū)域的細(xì)節(jié)信息,注意力機(jī)制則是對(duì)人類(lèi)視覺(jué)注意力的模擬。已經(jīng)有很多研究表明將注意力機(jī)制應(yīng)用到圖像描述任務(wù)當(dāng)中,可以顯著提高語(yǔ)義表示的準(zhǔn)確性。
Anderson等[12]使用了自下而上和自上而下的組合注意力機(jī)制,讓每個(gè)圖像區(qū)域關(guān)聯(lián)相應(yīng)的特征向量并確定相應(yīng)的特征權(quán)重,從而計(jì)算目標(biāo)對(duì)象與其他顯著圖像區(qū)域之間的注意力權(quán)重;Aneja等[13]提出一種用于圖像描述的使用注意力機(jī)制的卷積模型;Wang等[14]使用了一種視覺(jué)CNN和語(yǔ)言CNN相結(jié)合的方法(CNN+CNN),并利用分層的注意力機(jī)制連接了兩個(gè)CNN;靳華中等[15]提出了一種結(jié)合局部和全局特征的帶有注意力機(jī)制的圖像描述生成模型。
本文方法是一種基于M-RNN改進(jìn)的圖像描述方法,為了改善模型的描述性能和模型與圖像之間關(guān)聯(lián)性不足的問(wèn)題,針對(duì)M-RNN的語(yǔ)言模型和圖像特征提取兩方面進(jìn)行了改進(jìn)。由于M-RNN中的語(yǔ)言模型部分使用了RNN,在訓(xùn)練的過(guò)程中,RNN的神經(jīng)元更新容易出現(xiàn)梯度消失的問(wèn)題,從而使模型不擅長(zhǎng)處理較長(zhǎng)的上下文文本,所以本文提出在M-RNN中使用GRU門(mén)控循環(huán)單元來(lái)優(yōu)化文本序列的生成。而對(duì)于圖像特征提取部分,M-RNN僅僅使用了VGG-16網(wǎng)絡(luò)來(lái)提取圖像特征,無(wú)法對(duì)圖像中的關(guān)鍵部分進(jìn)行重點(diǎn)關(guān)注,會(huì)導(dǎo)致生成的圖像描述文本與圖像表達(dá)的重點(diǎn)出現(xiàn)偏差,所以提出在VGG-16網(wǎng)絡(luò)中引入CBAM卷積注意力模塊來(lái)解決這一問(wèn)題。
GRU是由Cho等[16]提出的一種RNN模型,該模型在RNN的基礎(chǔ)上使用更新門(mén)和重置門(mén)來(lái)處理信息流,其中更新門(mén)用來(lái)決定要忘記哪些信息以及哪些新信息需要被添加,重置門(mén)用來(lái)決定有多少信息需要被遺忘。其結(jié)構(gòu)如圖2所示。

圖2 GRU內(nèi)部結(jié)構(gòu)
GRU不僅可以解決普通RNN梯度消失而導(dǎo)致的缺乏長(zhǎng)期記憶的問(wèn)題,而且其構(gòu)造較之于常用的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM更加簡(jiǎn)單且參數(shù)更少,所以在進(jìn)行訓(xùn)練數(shù)據(jù)量大的任務(wù)時(shí),速度更快,因此本文引入了GRU來(lái)優(yōu)化文本序列的生成。將經(jīng)過(guò)詞嵌入層處理的詞向量wt和上一隱層的激活值ht-1作為GRU的輸入,得到時(shí)間步t的激活值ht,隨后將ht在多模態(tài)層與詞向量wt和圖像特征I融合,最后通過(guò)Softmax層預(yù)測(cè)文本,在經(jīng)過(guò)n個(gè)時(shí)間步后,得到文本序列。以下是GRU單元的內(nèi)部更新公式:
(1)
zt=σ(Wzwt+Uzht-1)
(2)
(3)
rt=σ(Wrwt+Urht-1)
(4)
式中:σ表示Sigmoid函數(shù);W和U表示要學(xué)習(xí)的權(quán)重。
分析以上公式:


4) 式(4)中重置門(mén)信號(hào)rt會(huì)判定ht-1對(duì)結(jié)果ht的重要性,如果ht-1和新的記憶計(jì)算不相關(guān),那么重置門(mén)就可以完全地消除過(guò)去隱藏狀態(tài)的信息。
在每一個(gè)時(shí)間步t的處理過(guò)程中,經(jīng)過(guò)GRU處理得到的激活值ht會(huì)輸入到多模態(tài)層與稠密詞向量wt、圖像特征I進(jìn)行加融合[17],公式如下:
mt=g2(Vw·wt+Vr·ht+VI·I)
(5)
式中:m代表各個(gè)特征在多模態(tài)層融合后得到的特征向量;V代表要學(xué)習(xí)的權(quán)重;g2(·)為雙曲正切函數(shù)[18]。
(6)
2.2.1卷積注意力模塊
注意力機(jī)制本質(zhì)上是模仿人類(lèi)觀(guān)察物品的方式。通常來(lái)說(shuō),當(dāng)人在看一幅圖片時(shí),除了從整體把握一幅圖片之外,也會(huì)更加關(guān)注圖片的某個(gè)局部信息,例如局部桌子的位置、商品的種類(lèi)等。人類(lèi)正是利用了一系列局部瞥見(jiàn)并選擇性地聚焦于顯著部分,所以能夠更好地捕捉視覺(jué)信息。注意力機(jī)制其實(shí)包含兩方面內(nèi)容:(1) 決定整段輸入的哪個(gè)部分需要更加關(guān)注;(2) 從關(guān)鍵的部分進(jìn)行特征提取,得到重要的信息,因此它的核心目標(biāo)就是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。
CBAM是一種用于前饋卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單而有效的注意力模塊,該模塊包含了通道注意力模塊和空間注意力模塊兩個(gè)子模塊,當(dāng)給定一個(gè)中間特征圖時(shí),特征圖會(huì)分別沿著CBAM中的通道和空間兩個(gè)維度依次推斷出注意力權(quán)重,然后與原特征圖相乘來(lái)對(duì)特征進(jìn)行自適應(yīng)調(diào)整。其中通道注意力模塊用來(lái)關(guān)注什么樣的特征是有意義的,可以對(duì)一些無(wú)意義的通道進(jìn)行過(guò)濾得到優(yōu)化的特征,而空間注意力模塊則用來(lái)關(guān)注哪里的特征是有意義的。通過(guò)兩個(gè)子模塊的協(xié)調(diào)作用,特征F轉(zhuǎn)化為更具表現(xiàn)力的特征F*。作為一種輕量級(jí)的通用模塊,CBAM可以無(wú)縫地集成到任何 CNN 結(jié)構(gòu)中,開(kāi)銷(xiāo)可以忽略不計(jì),并且可以與CNN一起進(jìn)行端到端的訓(xùn)練。
2.2.2在VGG-16中引入CBAM
本文方法中的提取圖像特征部分將CBAM模塊加入到了VGG-16結(jié)構(gòu)中,在VGG-16的3個(gè)14×14×512的卷積層之間分別引入了一次CBAM模塊,結(jié)構(gòu)如圖3所示。

圖3 在VGG-16中引入CBAM
本文方法中引入CBAM模塊的VGG-16使用了兩次CBAM注意力模塊來(lái)對(duì)圖像進(jìn)行自適應(yīng)調(diào)整。每一次自適應(yīng)調(diào)整,CBAM依據(jù)給定的中間特征映射F∈RC×H×W作為輸入,其中:C表示圖像特征的通道數(shù);H和W分別表示圖像特征的高和寬。依照式(7)推斷出一個(gè)一維通道注意力圖譜Mc∈RC×1×1,然后按照式(8)對(duì)原特征F與Mc進(jìn)行張量乘積得到通道注意力特征F′,緊接著根據(jù)式(9)獲得一個(gè)二維的空間注意力圖譜Ms∈R1×H×W,最后根據(jù)式(10)將空間注意力映射圖譜Ms乘以特征F′得到原特征F的最終自適應(yīng)特征F″。該過(guò)程如圖4所示。

圖4 VGG-16中的CBAM
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=
(7)

F′=Mc(F)?F
(8)
Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)]))=
(9)
式中:f7×7表示表示卷積核大小為7×7的卷積運(yùn)算。
F″=Ms(F′)?F′
(10)
圖像提取部分使用預(yù)訓(xùn)練過(guò)的包含了CBAM的VGG-16網(wǎng)絡(luò),利用對(duì)數(shù)似然成本函數(shù)來(lái)訓(xùn)練本文模型,對(duì)數(shù)似然成本函數(shù)與訓(xùn)練集中相應(yīng)圖片的參考句的困惑度有關(guān),困惑度則是評(píng)價(jià)語(yǔ)言模型的一個(gè)標(biāo)準(zhǔn)尺度,一條句子w1:L的困惑度計(jì)算公式如下:
(11)
式中:L代表句子的長(zhǎng)度;log2PPL(w1:L|I)表示圖片I對(duì)應(yīng)的句子w1:n-1的困惑度;P(wn|w1:n-1,I)表示給定圖片I和單詞序列w1:n-1時(shí)生成單詞wn的概率。訓(xùn)練模型選取的成本函數(shù)是由訓(xùn)練集給定上下文和相應(yīng)圖片得到的預(yù)測(cè)詞的平均對(duì)數(shù)似然函數(shù)加上正則化項(xiàng)得到的,公式如下:
(12)
式中:Ns表示訓(xùn)練集中句子的數(shù)目;N表示訓(xùn)練集中所有單詞的數(shù)目;Li表示第i個(gè)句子的長(zhǎng)度;λθ表示要學(xué)習(xí)的權(quán)重;θ代表模型的參數(shù)。使用反向傳播算法訓(xùn)練模型,訓(xùn)練目標(biāo)是最小化該成本函數(shù),即在訓(xùn)練集上使用該模型最大化生成句子的概率。
基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法如算法1所示。
算法1基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法
輸入:MSCOCO圖像數(shù)據(jù)集,文本數(shù)據(jù)集。
輸出:圖像描述文本。
對(duì)于數(shù)據(jù)集中的圖像及其對(duì)應(yīng)的參考句采取如下步驟:
Step1使用引入了CBAM注意力模塊的VGG-16網(wǎng)絡(luò)提取圖像特征I。
Step2經(jīng)過(guò)兩層詞嵌入對(duì)單詞編碼得到稠密詞向量wt。
Step3將詞向量wt,前一層GRU隱含層ht-1,輸入下一層GRU,計(jì)算ht。
Step4對(duì)wt、ht、I進(jìn)行加融合。
Step5通過(guò)損失函數(shù)計(jì)算損失,反饋調(diào)整參數(shù)。
Step6返回Step2,直到輸出為
Step7返回圖像描述文本。
實(shí)驗(yàn)使用的硬件設(shè)施為一臺(tái)具有型號(hào)為i7-7800X的主頻為3.5 GHz、睿頻為4 GHz的六核十二線(xiàn)程Intel CPU,以及一塊CUDA核心數(shù)為3 584、顯存容量為11 GB的NVIDIA GTX 1080TI的GPU的電腦。軟件方面使用64位的Linux操作系統(tǒng),采用了GPU 版本的TensorFlow深度學(xué)習(xí)框架,安裝了NVIDIA CUDA8.0工具包以及cuDNN-v5.1深度學(xué)習(xí)庫(kù),并基于Python2.7版本的PyCharm開(kāi)發(fā)環(huán)境進(jìn)行實(shí)驗(yàn)。
本文采用的數(shù)據(jù)集為MSCOCO2014[19]數(shù)據(jù)集。MSCOCO數(shù)據(jù)集是由微軟團(tuán)隊(duì)提出的用于圖像識(shí)別、圖像語(yǔ)義分割和圖像描述的大規(guī)模數(shù)據(jù)集,該數(shù)據(jù)集的目標(biāo)是通過(guò)將對(duì)象識(shí)別問(wèn)題放在更廣泛的場(chǎng)景理解問(wèn)題的背景下,提高對(duì)象識(shí)別的技術(shù)水平,同時(shí)對(duì)于提到圖像描述的準(zhǔn)確性也具有深刻意義。為了能夠與原算法形成鮮明對(duì)比,突出本文改進(jìn)后算法的優(yōu)越性,文中使用的數(shù)據(jù)集采用了與文獻(xiàn)[4]中一樣的MSCOCO數(shù)據(jù)集,并將該數(shù)據(jù)集劃分為包含82 783幅圖像的訓(xùn)練集和包含40 504幅圖像的驗(yàn)證集。對(duì)于每一幅圖像,都有對(duì)應(yīng)的5個(gè)參考描述句子。進(jìn)行實(shí)驗(yàn)時(shí),從驗(yàn)證集中分別隨機(jī)選取4 000幅圖像進(jìn)行驗(yàn)證,以及1 000幅圖像進(jìn)行測(cè)試。
進(jìn)行實(shí)驗(yàn)前,對(duì)數(shù)據(jù)集進(jìn)行進(jìn)一步的了解,通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析可知,數(shù)據(jù)集中圖像參考句的單詞數(shù)目大多集中在9個(gè)單詞到16個(gè)單詞之間,分析結(jié)果如圖5所示。所以在實(shí)驗(yàn)中使用句子長(zhǎng)度小于等于16個(gè)單詞的參考句來(lái)構(gòu)建單詞表,這樣可以使模型生成的句子更具代表性。

圖5 數(shù)據(jù)集中參考句的長(zhǎng)度分布
為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)中對(duì)本文方法和M-RNN、谷歌的NIC、DeepVS[20]、文獻(xiàn)[13]提出的卷積模型,以及CNN+CNN等模型進(jìn)行了實(shí)驗(yàn)對(duì)比,使用BLEU[21]、METEOR[22]和CIDEr[23]三種指標(biāo)來(lái)衡量圖像描述文本的質(zhì)量。并且采用了人工主觀(guān)抽檢的方式對(duì)改進(jìn)方法和原方法生成的圖像描述文本進(jìn)行評(píng)價(jià)分析。同時(shí)為了證明CBAM注意力機(jī)制對(duì)圖像特征產(chǎn)生了積極影響,使用梯度加權(quán)的類(lèi)激活映射(Gradient-weighted Class Activation Mapping ,Grad-CAM)[24]算法對(duì)圖像特征進(jìn)行了可視化對(duì)比。
在訓(xùn)練之前,使用MSCOCO數(shù)據(jù)集中的參考句構(gòu)建單詞表,本文選取句子長(zhǎng)度小于等于16個(gè)單詞的參考句來(lái)構(gòu)建單詞表,最終確定的單詞表大小為13 691。實(shí)驗(yàn)中采用反向傳播算法對(duì)模型進(jìn)行訓(xùn)練,將初始學(xué)習(xí)率設(shè)置為1.0,學(xué)習(xí)衰減率設(shè)置為0.85,批大小設(shè)置為100,在訓(xùn)練集上總共迭代50次。并且在訓(xùn)練時(shí),采用dropout正則化方法,按一定概率使詞嵌入層、循環(huán)神經(jīng)網(wǎng)絡(luò)層和多模態(tài)層中的某些神經(jīng)網(wǎng)絡(luò)單元隨機(jī)失活來(lái)預(yù)防過(guò)擬合的發(fā)生,本文實(shí)驗(yàn)中dropout值設(shè)為0.5。
圖6對(duì)比了本文方法、M-RNN、NIC在MSCOCO2014數(shù)據(jù)集上的困惑度曲線(xiàn),展示了三種方法復(fù)雜度隨迭代次數(shù)的變化,在第50個(gè)迭代時(shí),M-RNN的復(fù)雜度達(dá)到最小12.38,本文方法的復(fù)雜度達(dá)到最小12.17,NIC的復(fù)雜度達(dá)到最小12.08。

圖6 MSCOCO2014數(shù)據(jù)集上訓(xùn)練結(jié)果對(duì)比
表1使用BLEU-1、BLEU-4、METEOR、CIDEr等評(píng)價(jià)標(biāo)準(zhǔn),給出了不同圖像描述模型在MSCOCO驗(yàn)證集上的得分情況,其中B@1和B@4為BLEU-1得分和BLEU-4得分。可以看出,本文方法的各項(xiàng)得分均高于其他方法,反映出本文方法具有一定的優(yōu)越性。

表1 不同圖像描述生成模型得分對(duì)比結(jié)果
圖7為從MSCOCO測(cè)試集中選取的幾種不同類(lèi)型的圖片,使用這些圖片對(duì)比了本文改進(jìn)方法和原方法M-RNN生成的圖像描述句子。圖7(a)M-RNN生成的描述為an elephant is standing in a field,本文方法生成的描述為an elephant is standing in a grassy area;圖7(b)M-RNN生成的描述為a stop sign on the side of the road,本文方法生成的描述為a stop sign on the corner of a street;圖7(c)M-RNN生成的描述為a yellow bus driving down a street,本文方法生成的描述為a yellow bus driving down a street next to a building;圖7(d)M-RNN生成的描述為a group of people in a kitchen,本文方法生成的描述為a group of people standing around a kitchen preparing food;圖7(e)M-RNN生成的描述為a display case with lots of food,本文方法生成的描述為a display case filled with lots of different donuts;圖7(f)M-RNN生成的描述為a baseball player holding a bat,本文方法生成的描述為a baseball player holding a bat at a ball on a field。可以看出雖然兩種方法描述結(jié)果相近,但是本文方法描述更加準(zhǔn)確,且可以描述出圖像中更加細(xì)微的部分。比如,對(duì)于圖7(e),M-RNN只是描述了圖中有很多食物“l(fā)ots of food”,而本文方法生成的句子中“l(fā)ots of different donuts”不僅描述出食物是甜甜圈,還描述出甜甜圈種類(lèi)多樣。

(a) 動(dòng)物類(lèi)圖像 (b) 環(huán)境類(lèi)圖像
圖8是使用Grad-CAM可視化圖像特征的實(shí)驗(yàn)對(duì)比,對(duì)比了VGG-16和VGG-16+CBAM的特征區(qū)域以及真實(shí)類(lèi)別的Softmax得分P,可視化結(jié)果能夠反映特征對(duì)結(jié)果的貢獻(xiàn)程度。通過(guò)Grad-CAM算法的覆蓋圖層可以看出VGG-16+CBAM覆蓋的目標(biāo)對(duì)象區(qū)域優(yōu)于VGG-16網(wǎng)絡(luò),這說(shuō)明CBAM注意力機(jī)制能夠使VGG-16更好地利用目標(biāo)區(qū)域信息并從中聚合特征,同時(shí),也相應(yīng)提高了目標(biāo)的分類(lèi)分?jǐn)?shù)。

P=0.787 32 P=0.898 387
針對(duì)當(dāng)前圖像描述方法描述性能不佳、缺失語(yǔ)義信息,以及模型結(jié)構(gòu)與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足的問(wèn)題,提出基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法。該方法利用GRU型循環(huán)神經(jīng)網(wǎng)絡(luò)中的“門(mén)”操作在一定程度上解決了普通RNN在復(fù)雜模型下由于梯度消失而導(dǎo)致的缺少長(zhǎng)期記憶的問(wèn)題,引入CBAM注意力機(jī)制使得模型在提取圖像特征時(shí)關(guān)注圖像的關(guān)鍵部分,從而得到內(nèi)容更加詳實(shí)、信息關(guān)聯(lián)度更高的圖像描述句子。通過(guò)在MSCOCO數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證本文方法具有良好的性能。隨著自然語(yǔ)言處理與圖像處理理論的日趨完善,在未來(lái)工作中,將納入新的方法、技術(shù)來(lái)探索它們對(duì)圖像描述任務(wù)的影響。