999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于顯著性特征提取的圖像描述算法

2022-04-14 02:18:56王鑫宋永紅張元林
自動化學報 2022年3期
關鍵詞:特征提取單詞特征

王鑫 宋永紅 張元林

圖像描述(Image captioning)是涉及到計算機視覺和自然語言處理這兩個領域的一個重要的研究方向,主要工作是實現圖像到文本的多模態轉換[1-3],需要計算機能夠識別圖像上的對象,理解對象的屬性、對象之間的關系,并用人類的語言表達出圖像上的內容.

目前常用于圖像描述的編碼器-解碼器 (Encoder-Decoder)框架最早受啟發于機器翻譯[4-6],NIC (Neural image caption)[7]模型作為第一個使用這個框架的圖像描述模型,以卷積神經網絡(Convolutional neural network,CNN)作為編碼器來提取圖像上的視覺信息[8-9],得到一個包含有整幅圖像上視覺信息的全局視覺向量,以單層的長短期記憶網絡(Long-short term memory,LSTM)[10]作為解碼器,在生成圖像描述的初始時刻將全局視覺向量輸入LSTM 網絡中,之后逐步生成圖像描述中的每個單詞.文獻[11]中提出了g-LSTM (Guiding LSTM)模型,它與NIC 模型最大的不同在于,不僅將全局視覺向量作為LSTM 網絡的輸入,也將全局視覺向量用來構建LSTM 網絡的各個門,作者嘗試以這種方法來引導LSTM 生成更加貼合于圖像內容的描述.文獻[12]中使用多標簽分類的方法,對圖像進行多標簽分類,從而將圖像上的多個高層屬性編碼進一個0-1 向量中,該向量的每一維都對應屬性庫中的一個屬性,如果圖像上具有該屬性,向量對應維度的值取1 否則取0,作者使用該向量代替編碼器給出的全局視覺向量,取得了比較好的效果.

雖然這幾種編碼器-解碼器模型都取得了不錯的效果,但存在兩個主要的問題:

1)包含整幅圖像視覺信息的全局視覺向量在初始時刻被輸入解碼器中,解碼器需要自己從中抽取預測單詞所需的視覺信息,造成解碼器負擔過重.

2)作為解碼器的LSTM 網絡在預測每個單詞時都會接收新的輸入并遺忘掉現有的部分信息,這就造成了隨著預測的進行一些重要的視覺信息會被遺忘掉,從而導致語言模型[13-15]預測出的單詞逐漸缺乏圖像上視覺信息的指導,偏離了圖像的真實內容.

在編碼器-解碼器框架的基礎上,相繼提出了多種注意力模型.文獻[16]中最早將空間注意力機制引入到圖像描述領域,在預測單詞時空間注意力模型能夠根據LSTM 的隱含層狀態來為每個局部視覺向量分配不同的權重,然后通過加權求和得到當前單詞所需的視覺向量.空間注意力模型與編碼器-解碼器模型的結合,一定程度上解決了編碼器-解碼器模型的上述兩個問題.但是同時也產生了3個新的問題:

1)在空間注意力模型中,每個局部視覺向量只對應一個標量權重,所以特征向量的每一維都需要乘以相同的權重,空間注意力的這種操作相當于認為同一個圖像區域中所有視覺特征具有同等重要性,但實際情況并不是這樣,所以本文認為空間注意力模型對特征的選擇是不準確的.

2)空間注意力模型對局部視覺向量上視覺特征的選擇是強制性的,解碼器在預測每個單詞時,空間注意模型都要求局部視覺向量權重之和為1,這就造成了局部視覺向量上沒有解碼器需要的視覺特征時,空間注意力模型也會向解碼器中輸入視覺特征,這些視覺特征就如同噪聲一般,會干擾解碼器對單詞的預測.

3)空間注意力模型是一種自頂向下的注意力模型,對于生成一個長度為n的句子,空間注意力模塊需要被執行n次,并且每次執行空間注意力模塊時所有的局部視覺向量都需要參與運算,這無疑大大限制了模型的時間性能.

針對空間注意力模型存在的第2 個問題,文獻[17]提出了自適應注意力機制(Adaptive attention),這種方法在局部視覺向量集合中添加一個編碼有已生成單詞序列語義信息的向量,當局部視覺向量上沒有解碼器需要的視覺信息時,該語義向量所對應的權重就會接近于1,從而可防止空間注意力模型強制向解碼器中輸入視覺特征.但是自適應注意力機制沒能解決第1 個問題和第3 個問題,而且增加了空間注意力模型的參數量和計算復雜度.文獻[18]提出的SCA-CNN (Spatial and channel-wise attention in CNN)一定程度上對空間注意力模型的第1 個問題做出了改進,它的通道級注意力模型能夠為編碼器輸出特征圖的每一個通道賦予一個權重,與空間注意力模型結合在一起既實現了對空間位置的選擇也實現了對通道的選擇.但是通道級注意力模型本質上只能為特征圖的每個通道計算一個權重,這種對通道的篩選仍然不靈活、不充分,并沒有完全解決第1 個問題.另外SCA-CNN 沒有考慮解決第2 個問題和第3 個問題,相反的通道級注意力模型同樣作為一個自頂向下的注意力模型,在空間注意力模型的基礎上進一步增加了模型的參數量和計算復雜度.

1 本文工作

NIC 模型[7]的應用揭示了單個全局視覺向量能夠用來生成整幅圖像對應的描述,這就意味著全局視覺向量是對圖像上的多種視覺信息的編碼,相應的每條局部視覺向量都是對局部圖像上的多種視覺信息的編碼.換句話說,視覺特征提取器輸出的每條視覺向量都包含了多種視覺特征.一般而言,單個句子無法描述出圖像中的所有內容,所以語言模型在生成單條圖像描述句子時,也無法用到所有的視覺特征.我們稱視覺向量上對生成準確圖像描述有用的特征為顯著性視覺特征,其余為非顯著性視覺特征,顯然對于語言模型來說,非顯著性視覺特征就是噪聲,會影響其生成準確的圖像描述.由于神經網絡模型的可解釋性不強從而導致特征向量每一維的含義難以被人類所理解,所以對顯著性特征和非顯著性特征的定義比較模糊,但是我們仍然希望在這種思想的指導下,設計出一種特征提取機制,能夠在訓練過程中學會區分這兩種特征,提取顯著性視覺特征,過濾非顯著性視覺特征,本文稱這種特征提取機制為顯著性特征提取機制(Salient feature extraction mechanism,SFEM).SFEM 由全局顯著性特征提取器(Global salient feature extractor,GE)和即時顯著性特征提取器(Instant salient feature extractor,IE)構成.實驗證明本文的SFEM 能夠有效解決編碼器-解碼器模型存在的兩個問題,并且能夠避免空間注意力模型所存在的三個問題.

本文在MS COCO (Microsoft common objects in context)數據集上對SFEM 進行了評估,使用編碼器-解碼器模型[7,19]作為基準模型 (baseline),實驗表明添加SFEM 模塊后,模型在BLEU (Bilingual evaluation understudy)/CIDER (Consensus-based image description evaluation)值上比基準模型有8.63%/11.24%的提升.并且SFEM 可以完全取代空間注意力模型,我們在與SFEM 完全一致的基準模型上實現了空間注意力模型[16,19],實驗表明SFEM 在BLEU4/CIDER值上比空間注意力模型有4.29%/5.79%的提升.另外本文還進行了兩種模型在圖形處理器 (Graphics processing unit,GPU)和中央處理器 (Central processing unit,CPU)環境下的時間性能對比實驗,在單塊Nvidia TITAN X GPU 環境下本文模型的FPS值比空間注意力模型高17.34%,在Intel Xeon CPU 環境下優勢更加明顯,本文模型的FPS (Frames per second)值比空間注意力模型高43.80%.由于現有的大多數圖像描述算法都是在空間注意力模型上添加新的模塊而設計的[17-21],時間復雜度在空間注意力模型的基礎上都有不同程度的增加,所以相比于其他目前先進的模型,本文方法在時間性能上具有明顯優勢.

1.1 算法描述

本文的網絡模型如圖1 所示,整個模型分解為多個步驟,主要是為了說明每個模塊的作用,實際中無論是前向傳播還是反向傳播,本模型都是一個端到端的網絡模型.本文算法的主要步驟如下:

圖1 本文網絡模型Fig.1 Structure of our network

步驟 1.視覺特征提取.本文選用在ImageNet 數據集上預訓練過的Inception-V4 模型作為特征提取器,用來對輸入圖像提特征,從而得到一個包含有多個特征向量的局部視覺向量集合,以及一個全局視覺向量.

步驟 2.全局顯著性視覺特征提取.GE 會從局部視覺向量集合中提取出各個向量上包含的顯著性視覺特征,然后將整幅圖像上的顯著性視覺信息編碼進一個和單個局部視覺向量維度相同的特征向量中,本文將該特征向量稱為全局顯著性視覺向量.

步驟 3.即時顯著性視覺特征提取.IE 根據解碼器當前的隱含層狀態,動態決定從全局顯著性視覺向量中獲取哪些視覺特征,同時決定視覺特征在當前步預測單詞時的參與比例,從而向語言模型提供對預測本時刻單詞最有用的顯著性視覺特征.

步驟 4.單詞預測.本文選用單層LSTM 網絡作為語言模型,其需要憑借顯著性視覺特征和上文的語義特征,預測本時刻的輸出單詞.如果輸出單詞不是句子終止符號,則轉到步驟3,否則完成預測.

1.2 本文的主要貢獻

1)提出了全局顯著性特征提取器.本文的全局顯著性特征提取器有三方面的作用:首先,全局顯著性特征提取器會從各個局部視覺向量中提取并整合顯著性視覺特征,這個操作會為局部視覺向量的每一維都生成一個權重,能夠有效克服空間注意力模型對特征選擇不準確的問題;其次,全局顯著性特征提取器不需要使用自上而下的語義信息,所以對于單幅圖像其只需要提取一次顯著性視覺特征就可以用來生成任意長度和任意數量的句子;最后,全局顯著性特征提取器只輸出一條全局顯著性視覺向量,能夠顯著減少解碼器端提取視覺信息時的計算量.

2)提出了即時顯著性特征提取器.本文的即時顯著性特征提取器有兩方面的作用:首先即時顯著性特征提取器能夠根據解碼器當前的隱含層狀態,動態決定從全局顯著性視覺向量中獲取哪些視覺特征,并有效控制視覺特征在語言模型預測單詞時的參與比例,該比例可以為0,避免了空間注意力模型強制向語言模型輸入視覺特征的問題;其次即時顯著性特征提取器的計算量明顯小于空間注意力模型,執行速度要優于空間注意力模型.

3)提出由全局顯著性特征提取器和即時顯著性特征提取器組成的SFEM,使用SFEM 能夠大幅提高編碼器-解碼器模型生成圖像描述的準確性,并且相比于廣泛使用的空間注意力模型,SFEM在生成圖像描述的準確性和時間性能兩方面都具有明顯的優勢.

4)將全局顯著性特征提取器和即時顯著性特征提取器分別與空間注意力模型組合使用,實驗結果表明本文的全局顯著性特征提取器和即時顯著性特征提取器單獨使用時也能提升空間注意力模型生成圖像描述的準確性.

2 基于顯著性特征提取的圖像描述模型

2.1 視覺特征提取器

視覺特征提取器通常也稱為編碼器,主要作用是從輸入圖像中提取整張圖像上的視覺特征.本文選用在ImageNet 數據集上預訓練過的Inception-V4 作為編碼器.首先將任意尺寸的圖像預處理為229×229像素,然后將圖像送入編碼器中提取其視覺特征.在Inception-V4 中,第3 個Inception-C 模塊輸出1 536 個通道的特征圖,每個特征圖的尺寸為8×8,將這些特征圖由C×W ×H形變為(W ×H)×C,從而得到局部視覺向量集合{v1,v2,···,v64},vi∈R1536,如圖2 所示,本文將圖像劃分為規則的網格,vi的感受野對應于圖像上第i個格子,另外取平均層的輸出為全局視覺向量g∈R1536,對應的感受野是整幅圖像.

圖2 局部視覺向量與圖像的對應關系Fig.2 Correspondence between local visual vectors and image

2.2 語言模型

語言模型通常也稱為解碼器,對于給定的一幅圖像I,我們的目標是生成描述這幅圖像內容的一條句子S={S1,S2,···,SN},其中Si表示句子中第i個單詞.遵循圖像描述中有監督學習的優化方式,建立語言模型時的優化目標是最大化產生圖像正確描述的概率,所以理想情況下,模型的參數θ應該滿足

其中,θ是模型的參數,I是一幅圖像,是這幅圖像對應的正確描述.使用鏈式法則展開p(;θ)

為了在表達上簡潔,我們去掉了θ.本文使用單層的LSTM 網絡對進行建模,即

其中,δ(x,k)表示取向量x第k維上的值,表示全局顯著性視覺向量,表示解碼器在t時刻所需的顯著性視覺向量,W表示網絡權重.

2.3 SFEM

在圖像描述領域,解碼器之所以可以生成描述圖像內容的句子,核心之處在于向解碼器中輸入了視覺特征,這些視覺特征能夠指導編碼器生成與圖像內容相關的圖像描述.而如何在合適的時間向解碼器中輸入合適的視覺特征則是讓解碼器生成最符合圖像內容的描述的關鍵之處.本文提出了顯著性特征的概念,并在提取顯著性視覺特征,過濾非顯著性視覺特征的思想指導下設計出SFEM,如圖3所示,SFEM 包含GE和IE 兩個部分.GE 能夠自適應地提取視覺向量vi上的顯著性視覺特征,過濾掉非顯著性視覺特征.然后GE 會將所有局部視覺向量vi上的顯著性視覺特征整合到唯一的一條特征向量中,稱其為全局顯著性視覺特征向量,之后解碼器所需的一切視覺信息只需要從上獲取.GE為

圖3 SFEM 網絡結構Fig.3 Structure of SFEM

IE 能夠根據LSTM 的隱含層狀態ht-1從中自適應地提取t時刻所需的顯著性視覺特征,并能夠靈活地控制視覺信息在解碼器中的參與比例,避免無關的視覺信息干擾解碼器預測單詞,這一點十分有益于解碼器生成語法和語義上正確的句子.IE為

2.3.1 全局顯著性特征提取器

使用編碼器對給定圖像提特征得到全局視覺向量g∈RD和局部視覺向量集合{v1,v2,···,vN},vi∈RK.g是對整幅圖像上視覺信息的編碼,vi是對圖像上局部區域上視覺信息的編碼.正如之前所提到的,我們認為在每條視覺向量上都存在顯著性視覺特征和非顯著性視覺特征,其中顯著性視覺特征對于解碼器生成圖像描述有用,需要保留下來,而非顯著性視覺特征則會作為噪聲干擾解碼器生成圖像描述,需要過濾掉.對于vi=[α1,α2,···,αK]T,在GE中直觀地將vi的每個維度αi視為一種特征,并定義權重系數對該特征進行過濾

其中,Wvd∈RK×K,Wgd∈RK×D.值得注意的是,對于任意的vi,GE 為其構建時共用同一套參數Wvd和Wgd. 所以就網絡的參數量而言,GE 其實和空間注意力模型基本一致.另外為了減少解碼器一端的計算量,本文將GE 從各個局部視覺向量中提取到的顯著性視覺特征融合到中,的計算方式為

實際上包含了整幅圖像上所有重要的視覺信息,所以解碼器只需要從獲取視覺信息就能夠生成正確的圖像描述,從而能夠減少解碼器提取視覺特征時的計算量.最后由于本文的GE 位于解碼器一端,所以對于單幅圖像GE 只需要執行一次就可以用來生成任意數量、任意長度的圖像描述.而生成一個長度為n的句子,空間注意力模型需要執行n次.

2.3.2 即時顯著性特征提取器

解碼器在預測圖像描述時需要兩種信息的支持,首先是前文的語義信息,其次是圖像上的視覺信息.在本文方法中,通過GE 對局部視覺向量集合{v1,v2,···,vN}中的顯著性視覺特征進行提取,大量的非顯著性視覺特征已經被過濾,但是解碼器是按時間順序逐個預測單詞來生成圖像描述的,對于不同的單詞,解碼器所需的顯著性視覺特征不同,而于同一個單詞,在圖像描述中出現第i次和第i+1次時,其所需的顯著性視覺特征也不相同.為此本文提出IE 用來從中提取解碼器在每一時刻所需顯著性視覺特征.對于=[α1,α2,···,αK]T,在IE 中采取與GE 類似的方法,為每一維的特征值αi賦予一個權重,來衡量αi的顯著性程度.所以對于,IE 需要為其生成K維的權重向量的構建使用解碼器的t-1時刻的隱含層狀態ht-1∈RL作為指導,因為ht-1包含了已生成單詞序列的語義信息,所以訓練好的模型可以通過ht-1來選擇t時刻預測單詞可能會用到的顯著性視覺特征,即

其中,Whv∈RK×L是網絡需要在訓練中學習的參數.將對應元素相乘就可以獲得t時刻輸入解碼器的顯著性視覺向量t

從網絡的參數量上來看,本文的IE 是非常少的,并且IE 在計算上也非常精簡,因為雖然本文的IE 需要在預測每個單詞時都執行一次,但IE 只涉及到ht-1和這兩個輸入,并且計算過程僅僅是對ht-1進行一個線性變換,再加一個向量間的對應元素相乘的操作,所以本文的IE 每次執行所需的時間要遠遠小于包括空間注意力模型在內的自定向下注意力模型.值得注意的是,本文的IE 不會強制向解碼器輸入視覺信息,因為所以當中沒有解碼器在t時刻需要的視覺特征時,每一維的值都為0,從而將上所有特征都作為非顯著性特征進行過濾.

2.4 模型優化

本文網絡采用端到端的訓練方式,訓練過程中固定視覺特征提取器的參數,只對SFEM和語言模型進行訓練.語言模型的損失函數也是整個網絡的損失函數,即

3 實驗與分析

3.1 數據集和評價標準

我們使用MS COCO 數據集[22]來評價本文提出的方法.MS COCO 的訓練集有82 783 幅圖像,驗證集中有40 504 幅圖像,并且每幅圖像對應5 個標注句子,這5 個句子的表達方式以及描述內容不盡相同,但這5 個句子都是對圖像中內容的描述.本文使用Karpathy[23]中的數據劃分方式進行模型的訓練和評估,訓練集不變,依舊是82 783 幅圖像,從原來的驗證集中選擇5 000 幅圖像來做驗證集,選擇5 000 幅圖像來做測試集.對數據集的處理參照文獻[19]的一系列處理方式,包括將句子中的字母都轉換為小寫、刪除非字母數字的符號、使用空格將單詞分割等.本文只保留在所有句子組成的集合中,至少出現5 次的單詞,這樣一來,本文最終的詞庫大小為10 516.對于句子長度,本文限制在30個單詞以內,并且這30 個單詞包括句子的開始符號BOS和句子的結束符號EOS.

本文使用BLEU1,BELU2,BELU3,BELU4[24],METEOR (Metric for evaluation of translation with explicit ordering)[25],以及CIDER[26],ROUGE(Recall-oriented understudy for gisting evaluation)[27],SPICE (Semantic propositional image caption evaluation)[28]作為評價標準.對于這些評價標準的計算,使用的是MS COCO 圖像描述評價工具.

3.2 全局顯著性特征提取器性能分析

本文的GE 能夠從局部視覺向量中獲取到顯著性視覺特征,但是GE 是通道級別的注意力,人類很難去理解每個通道表示的是什么,所以本文采用了一種間接的方式,可視化出顯著性特征在圖像上的分布,以此來展示顯著性特征與圖像中的哪些內容能夠對應起來.

本文通過Wi來衡量GE從vi提取的顯著性視覺特征的量,具體表示為

其中,‖v‖1表示向量的L1 范數,K是vi的維度.結合第2.3.1 節對GE 的介紹,可以看出當Wi為0時,GE 未從vi上提取到任何視覺特征.Wi越大,說明GE從vi上提取的顯著性視覺特征越多.

圖4是Wi的可視化結果,每個子圖中左邊是原圖,中間是Wi的可視化圖,右邊是原圖和Wi的可視化圖的疊加,文字為本文的SFEM 生成的圖像描述.在本文的實驗中,視覺特征提取器會從圖像中提取出64 個局部視覺向量,按順序對應于圖像的64 個區域.本文將每個vi對應的Wi平鋪于對應的區域,得到Wi的可視化圖,其中灰度值越大表示GE 從該區域的顯著性視覺特征越多,反之則越少.從圖4 中可以發現,GE 更加關注圖像上與周圍環境差異比較大的區域,對于形狀、紋理、顏色相似的區域則會適當降低關注.由此可以推測,通過GE在訓練過程中的學習可以得知,這些相似的區域能夠向語言模型提供的視覺特征基本一致,并且這些區域大概率是背景.為了避免這部分視覺特征在所占比重過高,GE 通常認為這些區域的視覺特征的顯著性程度低;而與周圍環境差異比較大的區域通常會存在模型感興趣的實體對象,所以GE 認為這些區域的視覺特征顯著性程度高.需要注意的是模型不會將圖像上所有實體對象所在區域都作為感興趣區域.由于一句話所能表達的內容有限,因此模型會與人的表達行為相似,通常只表達自己感興趣的內容,從這一點來看,本文的GE 其實是一個內容注意力模塊,對照圖5 可以看出GE 能夠決定語言模型將要描述的圖像內容.

圖4 顯著性特征在空間上的分布Fig.4 Spatial distribution of salient features

圖5 即時顯著性特征隨預測單詞的變化Fig.5 The change of instant salient features with predicted words

3.3 即時顯著性特征提取器性能分析

本文通過Dt來衡量IE在t時刻提取顯著性視覺特征的量,Dt等于的L1 范數除以的維數,即

結合第2.3.2 節對IE 的介紹,可以看出當Dt為0 時,IE 不會從全局顯著性視覺向量中提取到任何視覺特征,此時解碼器對單詞的預測完全參考LSTM在t時刻之前累積的語義特征.當Dt越大時,說明LSTM在t時刻參考的視覺特征越多.

本文認為一個完全符合圖像內容的句子,它的每一個單詞都應該在圖像上有據可查,所以單詞對應的Dt值通常不會為0,而Dt值的高低主要取決于3 個因素:首先是單詞的抽象程度(抽象程度越低則Dt值越高);其次是單詞對應的圖像內容應大致位于GE 給出的顯著性程度較高的區域(GE 會過濾掉大量視覺特征);最后是單詞在數據集中出現的頻數(頻數越高則Dt值越高).通常情況下不考慮單詞出現的頻數,只有當單詞出現的頻數過低時,頻數才會成為主因.本文對單詞的抽象程度進行了簡單定義:可以從圖像上直接觀察到,不需要根據圖像內容做出推理的單詞我們認為其抽象程度比較低,需要根據圖像內容進行推理或者需要根據英語語法進行推理的單詞我們認為其抽象程度比較高(注意單詞的抽象程度與詞性沒有直接關系,實體對象的名稱、數量和屬性通常都可以從圖像上直接觀察到,所以它們的抽象程度一般都比較低).

我們使用本文模型為測試集中所有圖像生成對應句子,然后統計該單詞在所有句子中Dt的均值,從而得到,在表1 中給出了值最高的20 個單詞.可以看出這些單詞包括實體對象的名稱以及屬性,通常情況下可以從圖像上直接觀察到.我們對圖5 第1 張圖中每個單詞進行詳細分析:第1 個單詞 “a”表示摩托車的數量,可以直接從圖像中觀察到,所以其抽象程度較低;第2 個單詞 “motorcycle”表示摩托車的類別名稱,可以直接從圖像中觀察到,所以其抽象程度較低;第3 個單詞 “parked”抽象程度比較高,因為模型需要從摩托車上沒有人來推測它的狀態是停放的;第4 個單詞 “in”抽象程度比較高,因為模型需要根據語法和圖像內容進行推理才能得到;第5 個單詞 “a”抽象程度比較高,因為這一個 “a”并不是很直觀,它需要從語法和圖像內容進行推理才能得到;第6 個單詞 “dirt”表示地面的屬性,但是模型不需要識別出 “field”,模型從 “field”所在的顯著性程度較高的單塊區域就可以判斷出泥地面是臟的;第7 個單詞 “field”對應的圖像內容大部分位于GE 給出的顯著性程度較低的區域,從僅剩的幾塊顯著性較高的區域模型很難識別出 “field”;第8 個單詞 “next”抽象程度比較高,因為模型需要從摩托車和柵欄的位置關系推理得到,以此類推后面的幾個單詞的Dt值.

表1 值最高的20個單詞Table 1 The top-20 words withvalue

表1 值最高的20個單詞Table 1 The top-20 words withvalue

3.4 SFEM 評估

1)Encoder-Decoder+SFEM.本文使用第2.1 節的視覺特征提取器作為編碼器,以第2.2 節提到的語言模型作為解碼器,搭建出編碼器-解碼器模型作為實驗的基準模型,在基準模型上面分別添加空間注意力模型和本文提出的SFEM 進行對比實驗.如表2 所示,本文模型比基準模型在BLEU-4值上提升了8.63%,在CIDER值上提升了11.24%.本文模型比空間注意力模型在BLEU-4值上提升了4.29%,在CIDER 上提升了5.79%.

表2 Encoder-Decoder+SFEM 在MS COCO 數據集上的表現(%)Table 2 The performance of Encoder-Decoder+SFEM on MS COCO dataset (%)

2)Up-Down-SFEM.為了充分對比SFEM和空間注意力模型的性能,并驗證顯著性目標檢測方法能否提高SFEM 的性能,本文以文獻[20]中提出的Up-Down 模型作為基準模型進行實驗.Up-Down模型包含自底向上注意力模型和自頂向下注意力模型,其中自底向上注意力模型也是視覺特征提取器,由一個Faster-RCNN (Region-based convolutional neural network)[29]構成,自頂向下注意力模型就是空間注意力模型.Up-Down 模型使用Faster-RCNN 從圖像上檢測出顯著性目標,并提取出顯著性目標對應的視覺向量,每個顯著性目標對應一個視覺向量,所以視覺特征提取器輸出的也是一個局部視覺向量集合,接下來這些局部視覺向量會送給空間注意力模型用來獲得語言模型預測每個單詞時所需的視覺特征.由于文獻[20]中訓練Up-Down模型使用了額外的VG (Visual genome)[30]數據集,以及強化學習[31],所以本文對Up-Down 模型的實現細節以及訓練方式可參考文獻[21].實驗中使用SFEM替換掉空間注意力模型來對比SFEM和空間注意力的性能,表3 中Up-Down-Spatial Attention 表示按照文獻[21]方法實現的Up-Down模型,Up-Down-SFEM 表示用SFEM 替換空間注意力模塊后的模型.我們取Faster-RCNN 中(Region proposal network)之前的視覺特征提取網絡作為編碼器,構造了一個編碼器-解碼器模型并為其添加SFEM 模塊,以此來驗證用顯著性目標檢測方法替換掉編碼器能否提高SFEM的性能,在表3 中將該模型表示為Encoder-Decoder?+SFEM.對比Encoder-Decoder?+SFEM和Up-Down-SFEM 的結果,可以看出使用顯著性目標檢測方法并沒有明顯提高SFEM的性能,其中BLEU-4和ROUGE-L值有輕微的下降,我們認為有兩方面的原因,首先是SFEM 中GE 本身就具有選取顯著性區域的能力,所以顯著性目標檢測方法對SFEM 的增益有限;其次是顯著性目標檢測方法會將實體對象分割開來,可能會喪失表示實體對象相互關系的特征.另外對比Encoder-Decoder?+SFEM和Up-Down-Spatial Attention 的結果,可以看出在顯著性目標檢測方法的輔助下,空間注意力模型的性能才能夠接近本文的SFEM,但這樣進一步降低了空間注意力模型的時間性能.

表3 Up-Down+SFEM 在MS COCO 數據集上的表現(%)Table 3 The performance of Up-Down+SFEM on MS COCO dataset (%)

3)SFEM 的時間性能.在表4 中給出了空間注意力模型和本文的SFEM 的時間性能對比,對于Karpathy 劃分下的測試集中的5 000 個樣本,本文模型在單塊Nvidia TITAN X GPU 環境下測試得到FPS值比空間注意力模型高17.34%,在Intel Xeon CPU 環境下本文模型的FPS值比空間注意力模型高43.80%.事實上,現有的很多圖像方法都是在空間注意力模型的基礎上添加模塊得到的,所以這些方法的計算復雜度都要比空間注意力模型高,相應在速度上都要比空間注意力模型慢.所以,本文方法相比這些方法在速度上的優勢明顯.

表4 本模型和空間注意力模型的時間性能對比(幀/s)Table 4 Time performance comparison between our model and the spatial attention model (frame/s)

空間注意力模型可以表示為

實驗中,Whα與式(9)中Whv參數量相同,所以Whαht-1與式(9)的計算量是一致的,式(10)是兩個向量對應元素相乘,它的計算量相比矩陣乘法可以忽略不記,所以Whαht-1的計算量幾乎等同于整個IE 的計算量,另外由于生成每個單詞時α(vi,ht-1)需要計算N次,所以IE 的計算量遠遠小于空間注意力模型.

表5 中是各個模塊單次執行時平均花費的時間,其中GE 單次執行花費的時間和空間注意力模型相當,但是由于GE 對于單幅圖像只需要執行一次就可以用來生成任意長度、任意數量的圖像描述,所以在生成圖像描述的完整過程中GE 花費的時間小于空間注意力模型.IE 與空間注意力模型類似,在生成每個單次時都要執行一次,但是GPU 環境下空間注意力模型花費的時間是IE 的4.79 倍,CPU 環境下空間注意力模型花費的時間是IE 的21.84 倍.

表5 各個模塊單次執行平均花費時間(s)Table 5 The average time spent by each module in a single execution (s)

4)SFEM 與其他注意力模型的對比.表6 中列出了近幾年在圖像描述領域常用的一些注意力模型,其中Soft-Attention、Hard-Attention 與本文中對比的空間注意力模型基本一致,本文的SFEM 性能優于這兩種注意力模型,SCA-CNN和Up-Down是在空間注意力模型上添加新的模塊改進得到的,可以看出本文的SFEM 與這些改進過的空間注意力模型也是具有可比性的,所以我們認為本文提出的SFEM 能夠作為一種新的注意力模型應用在圖像描述領域.

表6 本文模型在MS COCO 數據集上的表現(%)Table 6 The performance of our model on MS COCO dataset (%)

3.5 組合模型評估

1)全局顯著性特征提取器+空間注意力模型.本文的全局顯著性特征提取器與空間注意力模型配合使用時需要做以下兩個改變:首先是使用全局顯著性視覺信息向量替代全局視覺向量g;其次是重新構建一個局部顯著性視覺信息向量集合替代局部視覺向量集合,具體表示為

2)即時顯著性特征提取器+空間注意力模型.本文的即時顯著性特征提取器和空間注意力模型配合使用時有兩種方式:第1 種是空間注意力模型在前,而即時顯著性特征提取器在后;第2 種則是即時顯著性特征提取器在前,而空間注意力模型在后.這兩種方式都能夠提升空間注意力模型的性能,但是第2 種方式的提升更加明顯,所以本文僅對第2種組合方式進行介紹.第2 種組合方式將即時顯著性特征提取器作用于每一個局部視覺向量上,相當于重新構建了一個局部顯著性視覺信息向量集合替代最初的局部視覺向量集合,具體表示為

在表7 中給出了全局顯著性特征提取器結合空間注意力模型的實驗結果以及即時顯著性特征提取器結合空間注意力模型的實驗結果,可以看出空間注意力模型添加了全局顯著性特征提取器和即時顯著性特征提取器之后,在各個評估標準上都能取得一定程度的提高.

表7 組合模型在MS COCO 數據集上的表現(%)Table 7 Performance of the combined model on MS COCO dataset (%)

4 結束語

目前空間注意力模型結合編碼器-解碼器框架在圖像描述領域得到了廣泛的應用,但是空間注意力模型有3 個主要的缺陷.本文按照語言模型對圖像上視覺信息的需求,將每條視覺向量上的特征分為顯著性視覺特征和非顯著性視覺特征,在提取顯著性視覺特征過濾非顯著性特征的思想指導下,本文嘗試提出一種新的顯著性特征提取機制(SFEM)用來替代空間注意力模型,實驗表明,本文的SFEM在圖像描述的各個評價指標上均優于空間注意力模型,并且時間性能明顯優于空間注意力模型.

圖6 本文模型生成的圖像描述展示Fig.6 Image descriptions generated by the model of this paper

猜你喜歡
特征提取單詞特征
單詞連一連
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
最難的單詞
主站蜘蛛池模板: 欧美亚洲欧美区| 日本成人一区| 一级全黄毛片| 国产精品青青| 亚洲人成影视在线观看| 成人日韩视频| 手机在线看片不卡中文字幕| 天天摸夜夜操| 92精品国产自产在线观看| 一本大道视频精品人妻 | 国产成人亚洲无吗淙合青草| 九九香蕉视频| 国产在线视频福利资源站| 国产99精品久久| 亚洲成人动漫在线观看| 久久精品无码中文字幕| 中文成人在线视频| 成人午夜天| 人人爱天天做夜夜爽| 久久人搡人人玩人妻精品| 福利视频一区| av尤物免费在线观看| 精品一区二区三区无码视频无码| 欧美国产日本高清不卡| 免费国产黄线在线观看| 天天干伊人| 亚洲欧洲日产国产无码AV| 国产成人福利在线| 国产爽妇精品| 欧美亚洲一区二区三区在线| 人人看人人鲁狠狠高清| 亚洲精品福利网站| 色视频国产| 国产精品成人观看视频国产| 国内精自视频品线一二区| 久久综合久久鬼| 国产亚洲视频中文字幕视频| 国内自拍久第一页| 欧美精品aⅴ在线视频| 国产91精品久久| 尤物特级无码毛片免费| 欧美三级日韩三级| 久久国产精品无码hdav| 一级在线毛片| 99热这里只有精品在线播放| 伊人精品成人久久综合| 91蜜芽尤物福利在线观看| 国产永久无码观看在线| 日韩av电影一区二区三区四区| 伊人久久精品无码麻豆精品| 亚洲黄色高清| 日本爱爱精品一区二区| 国产一区二区三区精品欧美日韩| 狼友视频国产精品首页| 在线无码九区| 萌白酱国产一区二区| 又大又硬又爽免费视频| 伊人色综合久久天天| hezyo加勒比一区二区三区| 极品国产在线| 欧美激情综合| 东京热一区二区三区无码视频| 日韩人妻无码制服丝袜视频| 欧洲日本亚洲中文字幕| 一本大道无码高清| 她的性爱视频| 99久久精品无码专区免费| 亚洲青涩在线| 国产免费高清无需播放器| 亚洲国产AV无码综合原创| 亚洲精品天堂自在久久77| 久久久久国产精品熟女影院| 成人国产三级在线播放| 国内丰满少妇猛烈精品播| 精品少妇人妻无码久久| 国产一在线| 国产毛片不卡| 中文字幕永久视频| 无码一区中文字幕| 精品国产自| 国产91精品调教在线播放| 亚洲女同欧美在线|