999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法

2021-09-15 11:20:20李柯徵王海涌
關(guān)鍵詞:模態(tài)特征文本

李柯徵 王海涌

(蘭州交通大學(xué)電子與信息工程學(xué)院 甘肅 蘭州 730070)

(蘭州交通大學(xué)甘肅省人工智能與圖形圖像處理工程研究中心 甘肅 蘭州 730070)

0 引 言

硬件的發(fā)展推動(dòng)了人工智能的發(fā)展,作為人工智能分支的自然語(yǔ)言處理(Natural Language Processing, NLP)和計(jì)算機(jī)視覺(jué)(Computer Vision, CV)逐漸成為近幾年廣大研究者們研究的熱點(diǎn)。NLP主要研究的是理解自然語(yǔ)言,常用于實(shí)現(xiàn)命名實(shí)體識(shí)別、文本分析、機(jī)器翻譯、語(yǔ)音識(shí)別等。CV則主要研究的是圖像分類(lèi)、對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)、圖像的語(yǔ)義分割、圖像修復(fù)等。

互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及數(shù)碼設(shè)備的快速普及,帶來(lái)了圖像數(shù)據(jù)的迅速增長(zhǎng),使用純?nèi)斯?lái)鑒別圖像內(nèi)容變得十分困難。同時(shí),隨著深度神經(jīng)網(wǎng)絡(luò)的興起,處理日漸繁多的圖像數(shù)據(jù)成為一種可能,因此,如何通過(guò)計(jì)算機(jī)自動(dòng)提取圖像所表達(dá)的信息成為了研究人員所關(guān)注的熱點(diǎn)。圖像描述是指機(jī)器自動(dòng)生成描述圖像的自然語(yǔ)言,它能夠?qū)崿F(xiàn)圖像到文本信息的多模態(tài)轉(zhuǎn)換,是一項(xiàng)融合了NLP和CV的綜合任務(wù)。最早的圖像描述模型是由Farhadi等[1]提出的,該模型給定二元組(I,S),其中:I表示圖像;S表示摘要句子。能夠完成從圖像I到摘要句子S的多模態(tài)映射I→S。圖像描述的研究雖然仍處于初級(jí)階段,但是它在圖像檢索、機(jī)器人問(wèn)答、輔助盲人等方面有著很好的應(yīng)用前景,具有重要的現(xiàn)實(shí)意義。

Socher等[2]用深度神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)圖像和文本模態(tài)表示,然后映射到多模態(tài)聯(lián)合空間;Kulkarni等[3]將圖像中的對(duì)象、屬性和介詞等相關(guān)信息表示成三元組,然后使用預(yù)先訓(xùn)練好的N-gram語(yǔ)言模型生成流暢的文本描述句子;Mao等[4]提出的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(Multimodal Recurrent Neural Network,M-RNN)使用CNN對(duì)圖像建模、RNN對(duì)句子建模,并利用多模態(tài)空間為圖像和文本建立關(guān)聯(lián);Vinyals等[5]提出了谷歌NIC模型,該模型將圖像和單詞投影到多模態(tài)空間,并使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)生成摘要;Zhou等[6]提出一種基于text-conditional注意力機(jī)制的方法,該方法強(qiáng)調(diào)關(guān)注描述句子中的某個(gè)單詞,使用文本信息改善局部注意力;Zhang等[7]將強(qiáng)化學(xué)習(xí)應(yīng)用在圖像的文本描述生成中。然而,現(xiàn)有方法依然存在梯度消失導(dǎo)致的模型描述性能不佳、缺失語(yǔ)義信息,以及模型結(jié)構(gòu)無(wú)法關(guān)注圖像中的重點(diǎn)而導(dǎo)致模型與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足等問(wèn)題。

為了改善目前圖像描述方法所存在的問(wèn)題,本文以多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)M-RNN為基線(xiàn)模型,提出在圖像處理部分加入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[8]使模型更關(guān)注圖像中的重點(diǎn),并使用門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)來(lái)優(yōu)化M-RNN的語(yǔ)言處理部分。改進(jìn)后的模型在描述性能上得到了有效的提升,并且改善了模型與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足的問(wèn)題。

1 相關(guān)工作

1.1 多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)M-RNN

M-RNN可以為輸入的圖像生成描述句子來(lái)解釋圖像的內(nèi)容,是一種基于概率的神經(jīng)網(wǎng)絡(luò)模型。該模型將圖像描述生成分為兩個(gè)分支任務(wù),使用CNN提取圖像特征,使用RNN建立語(yǔ)言模型。M-RNN中的圖像部分采用AlexNet[9]結(jié)構(gòu)提取圖像特征(在Mao等[10]后續(xù)的研究中,模型里的CNN采用了VGGNet[11]結(jié)構(gòu),實(shí)驗(yàn)證明在M-RNN模型中VGGNet的效果要好于AlexNet),語(yǔ)言部分使用RNN處理詞向量,之后在多模態(tài)層將圖像特征與語(yǔ)言特征相結(jié)合,最后經(jīng)過(guò)Softmax層預(yù)測(cè)產(chǎn)生描述單詞。

M-RNN模型的每個(gè)時(shí)間步包含了5層:兩個(gè)詞嵌入層,循環(huán)層,多模態(tài)層,Softmax層。在圖像描述任務(wù)中,它們發(fā)揮了至關(guān)重要的作用:詞嵌入層可以將輸入的one-hot編碼的詞向量轉(zhuǎn)化為稠密詞向量,之后循環(huán)層對(duì)稠密詞向量進(jìn)行序列化處理,在多模態(tài)層會(huì)融合語(yǔ)言模型和圖像處理得到的特征向量,最后經(jīng)過(guò)Softmax層生成預(yù)測(cè)單詞的概率分布。

1.2 VGG-16網(wǎng)絡(luò)

VGG-16網(wǎng)絡(luò)是常用的VGGNet模型,由13個(gè)卷積層和3個(gè)全連接層疊加而成,主要用來(lái)提取圖像特征。將VGG-16網(wǎng)絡(luò)中的Softmax層移除,并把第15層與M-RNN中的多模態(tài)層進(jìn)行連接,即可把抽取的圖像特征在多模態(tài)層和語(yǔ)言特征進(jìn)行融合。VGG-16網(wǎng)絡(luò)如圖1所示,其中FC表示全連接層。

圖1 VGG-16網(wǎng)絡(luò)圖

1.3 注意力機(jī)制

人類(lèi)的視覺(jué)注意力是一種特有的大腦信號(hào)處理機(jī)制,可以幫助人類(lèi)獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,以獲取更多目標(biāo)區(qū)域的細(xì)節(jié)信息,注意力機(jī)制則是對(duì)人類(lèi)視覺(jué)注意力的模擬。已經(jīng)有很多研究表明將注意力機(jī)制應(yīng)用到圖像描述任務(wù)當(dāng)中,可以顯著提高語(yǔ)義表示的準(zhǔn)確性。

Anderson等[12]使用了自下而上和自上而下的組合注意力機(jī)制,讓每個(gè)圖像區(qū)域關(guān)聯(lián)相應(yīng)的特征向量并確定相應(yīng)的特征權(quán)重,從而計(jì)算目標(biāo)對(duì)象與其他顯著圖像區(qū)域之間的注意力權(quán)重;Aneja等[13]提出一種用于圖像描述的使用注意力機(jī)制的卷積模型;Wang等[14]使用了一種視覺(jué)CNN和語(yǔ)言CNN相結(jié)合的方法(CNN+CNN),并利用分層的注意力機(jī)制連接了兩個(gè)CNN;靳華中等[15]提出了一種結(jié)合局部和全局特征的帶有注意力機(jī)制的圖像描述生成模型。

2 本文方法

本文方法是一種基于M-RNN改進(jìn)的圖像描述方法,為了改善模型的描述性能和模型與圖像之間關(guān)聯(lián)性不足的問(wèn)題,針對(duì)M-RNN的語(yǔ)言模型和圖像特征提取兩方面進(jìn)行了改進(jìn)。由于M-RNN中的語(yǔ)言模型部分使用了RNN,在訓(xùn)練的過(guò)程中,RNN的神經(jīng)元更新容易出現(xiàn)梯度消失的問(wèn)題,從而使模型不擅長(zhǎng)處理較長(zhǎng)的上下文文本,所以本文提出在M-RNN中使用GRU門(mén)控循環(huán)單元來(lái)優(yōu)化文本序列的生成。而對(duì)于圖像特征提取部分,M-RNN僅僅使用了VGG-16網(wǎng)絡(luò)來(lái)提取圖像特征,無(wú)法對(duì)圖像中的關(guān)鍵部分進(jìn)行重點(diǎn)關(guān)注,會(huì)導(dǎo)致生成的圖像描述文本與圖像表達(dá)的重點(diǎn)出現(xiàn)偏差,所以提出在VGG-16網(wǎng)絡(luò)中引入CBAM卷積注意力模塊來(lái)解決這一問(wèn)題。

2.1 使用GRU優(yōu)化序列生成

GRU是由Cho等[16]提出的一種RNN模型,該模型在RNN的基礎(chǔ)上使用更新門(mén)和重置門(mén)來(lái)處理信息流,其中更新門(mén)用來(lái)決定要忘記哪些信息以及哪些新信息需要被添加,重置門(mén)用來(lái)決定有多少信息需要被遺忘。其結(jié)構(gòu)如圖2所示。

圖2 GRU內(nèi)部結(jié)構(gòu)

GRU不僅可以解決普通RNN梯度消失而導(dǎo)致的缺乏長(zhǎng)期記憶的問(wèn)題,而且其構(gòu)造較之于常用的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM更加簡(jiǎn)單且參數(shù)更少,所以在進(jìn)行訓(xùn)練數(shù)據(jù)量大的任務(wù)時(shí),速度更快,因此本文引入了GRU來(lái)優(yōu)化文本序列的生成。將經(jīng)過(guò)詞嵌入層處理的詞向量wt和上一隱層的激活值ht-1作為GRU的輸入,得到時(shí)間步t的激活值ht,隨后將ht在多模態(tài)層與詞向量wt和圖像特征I融合,最后通過(guò)Softmax層預(yù)測(cè)文本,在經(jīng)過(guò)n個(gè)時(shí)間步后,得到文本序列。以下是GRU單元的內(nèi)部更新公式:

(1)

zt=σ(Wzwt+Uzht-1)

(2)

(3)

rt=σ(Wrwt+Urht-1)

(4)

式中:σ表示Sigmoid函數(shù);W和U表示要學(xué)習(xí)的權(quán)重。

分析以上公式:

4) 式(4)中重置門(mén)信號(hào)rt會(huì)判定ht-1對(duì)結(jié)果ht的重要性,如果ht-1和新的記憶計(jì)算不相關(guān),那么重置門(mén)就可以完全地消除過(guò)去隱藏狀態(tài)的信息。

在每一個(gè)時(shí)間步t的處理過(guò)程中,經(jīng)過(guò)GRU處理得到的激活值ht會(huì)輸入到多模態(tài)層與稠密詞向量wt、圖像特征I進(jìn)行加融合[17],公式如下:

mt=g2(Vw·wt+Vr·ht+VI·I)

(5)

式中:m代表各個(gè)特征在多模態(tài)層融合后得到的特征向量;V代表要學(xué)習(xí)的權(quán)重;g2(·)為雙曲正切函數(shù)[18]。

(6)

2.2 卷積注意力模塊CBAM的使用

2.2.1卷積注意力模塊

注意力機(jī)制本質(zhì)上是模仿人類(lèi)觀(guān)察物品的方式。通常來(lái)說(shuō),當(dāng)人在看一幅圖片時(shí),除了從整體把握一幅圖片之外,也會(huì)更加關(guān)注圖片的某個(gè)局部信息,例如局部桌子的位置、商品的種類(lèi)等。人類(lèi)正是利用了一系列局部瞥見(jiàn)并選擇性地聚焦于顯著部分,所以能夠更好地捕捉視覺(jué)信息。注意力機(jī)制其實(shí)包含兩方面內(nèi)容:(1) 決定整段輸入的哪個(gè)部分需要更加關(guān)注;(2) 從關(guān)鍵的部分進(jìn)行特征提取,得到重要的信息,因此它的核心目標(biāo)就是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。

CBAM是一種用于前饋卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單而有效的注意力模塊,該模塊包含了通道注意力模塊和空間注意力模塊兩個(gè)子模塊,當(dāng)給定一個(gè)中間特征圖時(shí),特征圖會(huì)分別沿著CBAM中的通道和空間兩個(gè)維度依次推斷出注意力權(quán)重,然后與原特征圖相乘來(lái)對(duì)特征進(jìn)行自適應(yīng)調(diào)整。其中通道注意力模塊用來(lái)關(guān)注什么樣的特征是有意義的,可以對(duì)一些無(wú)意義的通道進(jìn)行過(guò)濾得到優(yōu)化的特征,而空間注意力模塊則用來(lái)關(guān)注哪里的特征是有意義的。通過(guò)兩個(gè)子模塊的協(xié)調(diào)作用,特征F轉(zhuǎn)化為更具表現(xiàn)力的特征F*。作為一種輕量級(jí)的通用模塊,CBAM可以無(wú)縫地集成到任何 CNN 結(jié)構(gòu)中,開(kāi)銷(xiāo)可以忽略不計(jì),并且可以與CNN一起進(jìn)行端到端的訓(xùn)練。

2.2.2在VGG-16中引入CBAM

本文方法中的提取圖像特征部分將CBAM模塊加入到了VGG-16結(jié)構(gòu)中,在VGG-16的3個(gè)14×14×512的卷積層之間分別引入了一次CBAM模塊,結(jié)構(gòu)如圖3所示。

圖3 在VGG-16中引入CBAM

本文方法中引入CBAM模塊的VGG-16使用了兩次CBAM注意力模塊來(lái)對(duì)圖像進(jìn)行自適應(yīng)調(diào)整。每一次自適應(yīng)調(diào)整,CBAM依據(jù)給定的中間特征映射F∈RC×H×W作為輸入,其中:C表示圖像特征的通道數(shù);H和W分別表示圖像特征的高和寬。依照式(7)推斷出一個(gè)一維通道注意力圖譜Mc∈RC×1×1,然后按照式(8)對(duì)原特征F與Mc進(jìn)行張量乘積得到通道注意力特征F′,緊接著根據(jù)式(9)獲得一個(gè)二維的空間注意力圖譜Ms∈R1×H×W,最后根據(jù)式(10)將空間注意力映射圖譜Ms乘以特征F′得到原特征F的最終自適應(yīng)特征F″。該過(guò)程如圖4所示。

圖4 VGG-16中的CBAM

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=

(7)

F′=Mc(F)?F

(8)

Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)]))=

(9)

式中:f7×7表示表示卷積核大小為7×7的卷積運(yùn)算。

F″=Ms(F′)?F′

(10)

2.3 模型訓(xùn)練

圖像提取部分使用預(yù)訓(xùn)練過(guò)的包含了CBAM的VGG-16網(wǎng)絡(luò),利用對(duì)數(shù)似然成本函數(shù)來(lái)訓(xùn)練本文模型,對(duì)數(shù)似然成本函數(shù)與訓(xùn)練集中相應(yīng)圖片的參考句的困惑度有關(guān),困惑度則是評(píng)價(jià)語(yǔ)言模型的一個(gè)標(biāo)準(zhǔn)尺度,一條句子w1:L的困惑度計(jì)算公式如下:

(11)

式中:L代表句子的長(zhǎng)度;log2PPL(w1:L|I)表示圖片I對(duì)應(yīng)的句子w1:n-1的困惑度;P(wn|w1:n-1,I)表示給定圖片I和單詞序列w1:n-1時(shí)生成單詞wn的概率。訓(xùn)練模型選取的成本函數(shù)是由訓(xùn)練集給定上下文和相應(yīng)圖片得到的預(yù)測(cè)詞的平均對(duì)數(shù)似然函數(shù)加上正則化項(xiàng)得到的,公式如下:

(12)

式中:Ns表示訓(xùn)練集中句子的數(shù)目;N表示訓(xùn)練集中所有單詞的數(shù)目;Li表示第i個(gè)句子的長(zhǎng)度;λθ表示要學(xué)習(xí)的權(quán)重;θ代表模型的參數(shù)。使用反向傳播算法訓(xùn)練模型,訓(xùn)練目標(biāo)是最小化該成本函數(shù),即在訓(xùn)練集上使用該模型最大化生成句子的概率。

基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法如算法1所示。

算法1基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法

輸入:MSCOCO圖像數(shù)據(jù)集,文本數(shù)據(jù)集。

輸出:圖像描述文本。

對(duì)于數(shù)據(jù)集中的圖像及其對(duì)應(yīng)的參考句采取如下步驟:

Step1使用引入了CBAM注意力模塊的VGG-16網(wǎng)絡(luò)提取圖像特征I。

Step2經(jīng)過(guò)兩層詞嵌入對(duì)單詞編碼得到稠密詞向量wt。

Step3將詞向量wt,前一層GRU隱含層ht-1,輸入下一層GRU,計(jì)算ht。

Step4對(duì)wt、ht、I進(jìn)行加融合。

Step5通過(guò)損失函數(shù)計(jì)算損失,反饋調(diào)整參數(shù)。

Step6返回Step2,直到輸出為或達(dá)到句子最大長(zhǎng)度。

Step7返回圖像描述文本。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)

實(shí)驗(yàn)使用的硬件設(shè)施為一臺(tái)具有型號(hào)為i7-7800X的主頻為3.5 GHz、睿頻為4 GHz的六核十二線(xiàn)程Intel CPU,以及一塊CUDA核心數(shù)為3 584、顯存容量為11 GB的NVIDIA GTX 1080TI的GPU的電腦。軟件方面使用64位的Linux操作系統(tǒng),采用了GPU 版本的TensorFlow深度學(xué)習(xí)框架,安裝了NVIDIA CUDA8.0工具包以及cuDNN-v5.1深度學(xué)習(xí)庫(kù),并基于Python2.7版本的PyCharm開(kāi)發(fā)環(huán)境進(jìn)行實(shí)驗(yàn)。

本文采用的數(shù)據(jù)集為MSCOCO2014[19]數(shù)據(jù)集。MSCOCO數(shù)據(jù)集是由微軟團(tuán)隊(duì)提出的用于圖像識(shí)別、圖像語(yǔ)義分割和圖像描述的大規(guī)模數(shù)據(jù)集,該數(shù)據(jù)集的目標(biāo)是通過(guò)將對(duì)象識(shí)別問(wèn)題放在更廣泛的場(chǎng)景理解問(wèn)題的背景下,提高對(duì)象識(shí)別的技術(shù)水平,同時(shí)對(duì)于提到圖像描述的準(zhǔn)確性也具有深刻意義。為了能夠與原算法形成鮮明對(duì)比,突出本文改進(jìn)后算法的優(yōu)越性,文中使用的數(shù)據(jù)集采用了與文獻(xiàn)[4]中一樣的MSCOCO數(shù)據(jù)集,并將該數(shù)據(jù)集劃分為包含82 783幅圖像的訓(xùn)練集和包含40 504幅圖像的驗(yàn)證集。對(duì)于每一幅圖像,都有對(duì)應(yīng)的5個(gè)參考描述句子。進(jìn)行實(shí)驗(yàn)時(shí),從驗(yàn)證集中分別隨機(jī)選取4 000幅圖像進(jìn)行驗(yàn)證,以及1 000幅圖像進(jìn)行測(cè)試。

進(jìn)行實(shí)驗(yàn)前,對(duì)數(shù)據(jù)集進(jìn)行進(jìn)一步的了解,通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析可知,數(shù)據(jù)集中圖像參考句的單詞數(shù)目大多集中在9個(gè)單詞到16個(gè)單詞之間,分析結(jié)果如圖5所示。所以在實(shí)驗(yàn)中使用句子長(zhǎng)度小于等于16個(gè)單詞的參考句來(lái)構(gòu)建單詞表,這樣可以使模型生成的句子更具代表性。

圖5 數(shù)據(jù)集中參考句的長(zhǎng)度分布

3.2 實(shí)驗(yàn)方法及參數(shù)設(shè)置

為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)中對(duì)本文方法和M-RNN、谷歌的NIC、DeepVS[20]、文獻(xiàn)[13]提出的卷積模型,以及CNN+CNN等模型進(jìn)行了實(shí)驗(yàn)對(duì)比,使用BLEU[21]、METEOR[22]和CIDEr[23]三種指標(biāo)來(lái)衡量圖像描述文本的質(zhì)量。并且采用了人工主觀(guān)抽檢的方式對(duì)改進(jìn)方法和原方法生成的圖像描述文本進(jìn)行評(píng)價(jià)分析。同時(shí)為了證明CBAM注意力機(jī)制對(duì)圖像特征產(chǎn)生了積極影響,使用梯度加權(quán)的類(lèi)激活映射(Gradient-weighted Class Activation Mapping ,Grad-CAM)[24]算法對(duì)圖像特征進(jìn)行了可視化對(duì)比。

在訓(xùn)練之前,使用MSCOCO數(shù)據(jù)集中的參考句構(gòu)建單詞表,本文選取句子長(zhǎng)度小于等于16個(gè)單詞的參考句來(lái)構(gòu)建單詞表,最終確定的單詞表大小為13 691。實(shí)驗(yàn)中采用反向傳播算法對(duì)模型進(jìn)行訓(xùn)練,將初始學(xué)習(xí)率設(shè)置為1.0,學(xué)習(xí)衰減率設(shè)置為0.85,批大小設(shè)置為100,在訓(xùn)練集上總共迭代50次。并且在訓(xùn)練時(shí),采用dropout正則化方法,按一定概率使詞嵌入層、循環(huán)神經(jīng)網(wǎng)絡(luò)層和多模態(tài)層中的某些神經(jīng)網(wǎng)絡(luò)單元隨機(jī)失活來(lái)預(yù)防過(guò)擬合的發(fā)生,本文實(shí)驗(yàn)中dropout值設(shè)為0.5。

3.3 實(shí)驗(yàn)結(jié)果及分析

圖6對(duì)比了本文方法、M-RNN、NIC在MSCOCO2014數(shù)據(jù)集上的困惑度曲線(xiàn),展示了三種方法復(fù)雜度隨迭代次數(shù)的變化,在第50個(gè)迭代時(shí),M-RNN的復(fù)雜度達(dá)到最小12.38,本文方法的復(fù)雜度達(dá)到最小12.17,NIC的復(fù)雜度達(dá)到最小12.08。

圖6 MSCOCO2014數(shù)據(jù)集上訓(xùn)練結(jié)果對(duì)比

表1使用BLEU-1、BLEU-4、METEOR、CIDEr等評(píng)價(jià)標(biāo)準(zhǔn),給出了不同圖像描述模型在MSCOCO驗(yàn)證集上的得分情況,其中B@1和B@4為BLEU-1得分和BLEU-4得分。可以看出,本文方法的各項(xiàng)得分均高于其他方法,反映出本文方法具有一定的優(yōu)越性。

表1 不同圖像描述生成模型得分對(duì)比結(jié)果

圖7為從MSCOCO測(cè)試集中選取的幾種不同類(lèi)型的圖片,使用這些圖片對(duì)比了本文改進(jìn)方法和原方法M-RNN生成的圖像描述句子。圖7(a)M-RNN生成的描述為an elephant is standing in a field,本文方法生成的描述為an elephant is standing in a grassy area;圖7(b)M-RNN生成的描述為a stop sign on the side of the road,本文方法生成的描述為a stop sign on the corner of a street;圖7(c)M-RNN生成的描述為a yellow bus driving down a street,本文方法生成的描述為a yellow bus driving down a street next to a building;圖7(d)M-RNN生成的描述為a group of people in a kitchen,本文方法生成的描述為a group of people standing around a kitchen preparing food;圖7(e)M-RNN生成的描述為a display case with lots of food,本文方法生成的描述為a display case filled with lots of different donuts;圖7(f)M-RNN生成的描述為a baseball player holding a bat,本文方法生成的描述為a baseball player holding a bat at a ball on a field。可以看出雖然兩種方法描述結(jié)果相近,但是本文方法描述更加準(zhǔn)確,且可以描述出圖像中更加細(xì)微的部分。比如,對(duì)于圖7(e),M-RNN只是描述了圖中有很多食物“l(fā)ots of food”,而本文方法生成的句子中“l(fā)ots of different donuts”不僅描述出食物是甜甜圈,還描述出甜甜圈種類(lèi)多樣。

(a) 動(dòng)物類(lèi)圖像 (b) 環(huán)境類(lèi)圖像

圖8是使用Grad-CAM可視化圖像特征的實(shí)驗(yàn)對(duì)比,對(duì)比了VGG-16和VGG-16+CBAM的特征區(qū)域以及真實(shí)類(lèi)別的Softmax得分P,可視化結(jié)果能夠反映特征對(duì)結(jié)果的貢獻(xiàn)程度。通過(guò)Grad-CAM算法的覆蓋圖層可以看出VGG-16+CBAM覆蓋的目標(biāo)對(duì)象區(qū)域優(yōu)于VGG-16網(wǎng)絡(luò),這說(shuō)明CBAM注意力機(jī)制能夠使VGG-16更好地利用目標(biāo)區(qū)域信息并從中聚合特征,同時(shí),也相應(yīng)提高了目標(biāo)的分類(lèi)分?jǐn)?shù)。

P=0.787 32 P=0.898 387

4 結(jié) 語(yǔ)

針對(duì)當(dāng)前圖像描述方法描述性能不佳、缺失語(yǔ)義信息,以及模型結(jié)構(gòu)與圖像特征之間語(yǔ)義信息關(guān)聯(lián)性不足的問(wèn)題,提出基于改進(jìn)的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法。該方法利用GRU型循環(huán)神經(jīng)網(wǎng)絡(luò)中的“門(mén)”操作在一定程度上解決了普通RNN在復(fù)雜模型下由于梯度消失而導(dǎo)致的缺少長(zhǎng)期記憶的問(wèn)題,引入CBAM注意力機(jī)制使得模型在提取圖像特征時(shí)關(guān)注圖像的關(guān)鍵部分,從而得到內(nèi)容更加詳實(shí)、信息關(guān)聯(lián)度更高的圖像描述句子。通過(guò)在MSCOCO數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證本文方法具有良好的性能。隨著自然語(yǔ)言處理與圖像處理理論的日趨完善,在未來(lái)工作中,將納入新的方法、技術(shù)來(lái)探索它們對(duì)圖像描述任務(wù)的影響。

猜你喜歡
模態(tài)特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀(guān)察
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
如何快速走進(jìn)文本
主站蜘蛛池模板: 欧美区日韩区| 成AV人片一区二区三区久久| 国产一级视频久久| 日韩A∨精品日韩精品无码| 亚洲免费黄色网| 日韩一二三区视频精品| 日本成人一区| 亚亚洲乱码一二三四区| 中文毛片无遮挡播放免费| h网站在线播放| 欧美性天天| 亚洲成av人无码综合在线观看 | 免费一级全黄少妇性色生活片| 亚洲第一中文字幕| 天堂成人在线| 欧美精品aⅴ在线视频| 国产v精品成人免费视频71pao | 91色在线观看| 国语少妇高潮| 国产女人爽到高潮的免费视频| 九色91在线视频| 99热最新网址| 国产亚洲精品精品精品| 成人亚洲国产| 老司机精品一区在线视频| 久久香蕉国产线| 国产成人AV综合久久| 99999久久久久久亚洲| 久久精品波多野结衣| 人人爽人人爽人人片| 久久综合亚洲鲁鲁九月天| 国产精品免费p区| 美女裸体18禁网站| 色综合手机在线| 天堂成人在线视频| 亚洲午夜久久久精品电影院| 亚洲国产看片基地久久1024| 丁香婷婷综合激情| 日韩视频免费| 一本大道无码高清| 色婷婷成人| 国产精品毛片在线直播完整版| 婷婷在线网站| 秋霞午夜国产精品成人片| 少妇精品在线| 国产丝袜啪啪| 在线欧美日韩国产| 国产欧美综合在线观看第七页| A级全黄试看30分钟小视频| 国产精品太粉嫩高中在线观看 | 欧美精品高清| 欧美亚洲国产精品久久蜜芽| 重口调教一区二区视频| 欧美福利在线| 理论片一区| 亚洲美女高潮久久久久久久| 亚洲天堂视频在线观看| 午夜老司机永久免费看片 | 青青草一区二区免费精品| 啊嗯不日本网站| 自拍偷拍欧美日韩| 亚洲综合第一区| 自拍偷拍欧美| 日韩毛片基地| 国产91无码福利在线| 国产老女人精品免费视频| 日本精品影院| 国产成人亚洲无码淙合青草| 网久久综合| 久久精品国产免费观看频道| 国产在线98福利播放视频免费| 看你懂的巨臀中文字幕一区二区| 无码国产偷倩在线播放老年人| 国产精品手机在线观看你懂的 | 99久久精品久久久久久婷婷| 亚洲天堂首页| 视频一区视频二区日韩专区| 91系列在线观看| 亚洲一级无毛片无码在线免费视频 | 乱人伦中文视频在线观看免费| 亚洲欧美日韩天堂| 欧美日韩va|