999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于演化深度學習的圖像描述自動生成技術研究

2022-01-01 00:00:00高欣孫茂圣朱俊武
計算機應用研究 2022年3期

摘 要:針對現有基于視覺注意力和基于文本注意力的圖像描述自動生成模型無法同時兼顧描述圖像細節和整體圖像的問題,提出了一種基于演化深度學習的圖像描述生成模型(evolutionary deep learning model for image captioning,EDLMIC),該模型是一種包含圖像編碼器、演化神經網絡和自適應融合解碼器三個子模塊的圖像描述自動生成模型,能夠有效地融合視覺信息和文本信息,自動計算這兩種信息在每個時間步所占的比例,從而基于融合的視覺文本信息更好地生成給定圖像的相關描述。在Flickr30K 和COCO2014兩個公開數據集的實驗結果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四個指標均優于其他基線模型,并且在多種不同的生活場景中具有較好的性能。

關鍵詞:演化深度學習;圖像描述生成;注意力機制;計算機視覺;自然語言處理

中圖分類號:TP391 文獻標志碼:A

文章編號:1001-3695(2022)03-047-0911-08

doi:10.19734/j.issn.1001-3695.2021.07.0266

基金項目:江蘇省高職院校教師專業帶頭人高端研修項目;國家自然科學基金資助項目(61872313);江蘇省教育信息化研究重點課題(20180012);揚州市科技計劃資助項目(YZ2019133,YZ2020174)

作者簡介:高欣(1977-),男,江蘇揚州人,副教授,主要研究方向為人工智能、算法博弈論、人力資源管理等;孫茂圣(1971-),男,江蘇海安人,高級工程師,博士,主要研究方向為人工智能及其應用;朱俊武(1972-),男(通信作者),江蘇江都人,教授,博導,博士,主要研究方向為人工智能、智能軟件及算法博弈論等(jwzhu@yzu.edu.cn).

Evolutionary deep learning for image captioning

Gao Xin1,2a,Sun Maosheng2b,Zhu Junwu2a?

(1.School of Information Engineering,Jiangsu College of Tourism,Yangzhou Jiangsu 225131,China;2.a.College of Information Enginee-ring,b.Office of Informationization Construction amp; Administration,Yangzhou University,Yangzhou Jiangsu 225127,China)

Abstract:Aiming at the problem that the existing automatic image description generation models based on visual attention and text attention cannot describe the image details and the whole image at the same time,this paper proposed a model for image captioning which included three sub-modules,i.e.,an image encoder,an evolutionary neural network,and an adaptive merging decoder.The proposed model could effectively integrate both the visual information and text information,and automatically calculated the proportion of these two information at each time step.The experimental results on two public data sets,Flickr30k and COCO2014,show that the proposed EDLMIC model is superior to other baseline models in four indicators such as METEOR,ROUGE-L,CIDEr and SPICE,and has good performance in a variety of different life scenes.

Key words:evolutionary deep learning;image captioning;attention mechanism;computer version;national language processing

0 引言

隨著科技的發展,圖像描述自動生成的相關研究引起了學術界和工業界的廣泛關注[1]。該工作的目標是根據給定圖像輸出相應的圖像描述,這是一項意義重大但又極具挑戰性的任務,主要體現在兩方面[2]:a) 它必須識別圖像中的對象及其相互之間的關系,然后用良好的自然語言進行描述;b) 圖像描述自動生成任務結合了自然語言處理和計算機視覺這兩個人工智能領域的重要分支,即該任務要求算法能夠利用計算機視覺技術精確識別圖像中的場景并用自然語言準確描述。值得注意的是,這兩個子任務在計算機視覺和自然語言處理領域是比較困難的。圖像描述自動生成在日常生活中有著廣泛的應用場景[3],例如,圖像描述通過連接互聯網智能機器人與周圍設備進行交互,能夠幫助視障人士“看清”真實的世界等。

為了對給定的圖像產生更好的描述,研究人員進行了廣泛的研究,設計了各種圖像自動描述模型和算法[4~6]。受到機器翻譯思想的啟發[7],研究人員提出了一種基于編碼器—解碼器框架的模型,并在圖像描述自動生成任務中取得了很大的成功。基于此模型,研究者們又進一步融入注意力機制,提出了基于注意力機制的神經編碼器—解碼器模型[5,8],該模型較之于原模型可以將注意力集中在描述詞對應的高亮圖像區域。根據現有的編碼器—解碼器模型,現有研究工作主要分為兩類,分別是基于視覺信息的注意力模型和基于文本信息的注意力模型。這兩類方法各有優缺點:一方面,基于視覺信息的注意力模型以視覺信息為輸入,因此它可以準確地獲取給定圖像的相關細節信息。然而,這種模型不能全面地描述整個圖像,其更傾向聚焦于描述給定圖像中的特殊部分。另一方面,基于文本信息的注意力模型能夠全面地捕捉到圖像的主題信息,但由于文本在語義上存在固有無序性和視覺信息使用不足的問題,難以將特定的文本片段與圖像中與之對應的對象正確關聯。此外,基于人類的直覺,如果一個模型能夠從圖像的多個方面提取細粒度的視覺信息,并以不同的方式將其融合,可以為給定的圖像生成更準確的描述。然而,現有的大多數工作通常將視覺信息從編碼器直接饋送到解碼器,這使得此類模型無法充分有效地利用視覺信息。

為了綜合基于視覺信息的注意力模型和基于文本信息的注意力模型的優點,本文嘗試將視覺信息和文本信息進行充分融合和利用,從而為給定的圖像生成更好的圖像描述。此外,考慮到直接將編碼器輸出的視覺信息直接反饋輸入給解碼器的缺點,本文構建了一個演化神經網絡來進一步處理編碼器輸出的圖像信息。為了能夠確定演化神經網絡的模型結構,本文采用了演化算法(evolutionary algorithm,EA)對其結構進行自動學習。進化算法[9,10]是一種基于自然選擇和自然遺傳學的全局搜索和優化算法,主要包括遺傳算法、遺傳規劃、演化策略和演化規劃四種典型的方法。不同于一般的搜索算法,演化算法存在如下優點:a)非線性,無須函數梯度信息和連續性;b)全局最優;c)并行性,多點出發以便更容易地獲取最優解。通過這些優點可以很好地解決深度神經網絡模型的結構設計問題。因此,本文提出一種基于演化深度學習的自適應視覺—文本融合網絡,該網絡能夠充分利用視覺信息,有效引導視覺信息和文本信息流。進一步具體說明,基于演化深度學習的自適應視覺文本融合網絡包括三個模塊,即編碼器模塊、演化神經網絡模塊和解碼器模塊。首先,編碼器從給定的圖像中提取圖像信息、平均圖像信息和全局圖像信息。接著,演化神經網絡將提取的圖像信息轉換為視覺特征,對于這些變換后的視覺特征,解碼器模塊在每個時間步長中將其與之前的描述詞進行組合,然后通過自適應合并門模塊對這兩類信息進行有效融合并自動確定其比例。最后,利用文本信息和視覺特征的融合信息來預測用于描述給定圖像的每個詞。

a)本文提出了一種演化神經網絡,能夠將提取的圖像信息轉換為視覺特征,從而更加有效地利用圖像信息完成圖像描述任務。

b)本文提出了一種基于LSTM的自適應合并解碼器,該解碼器由視覺注意模塊、文本注意模塊和自適應合并門模塊組成。該解碼器可以自適應地融合視覺特征和文本信息,形成視覺—文本融合信息,并對給定的圖像逐個生成相應的描述詞。

c)通過在Flickr30K和COCO2014數據集實驗結果的定量分析,表明了本文模型較之于其他典型模型,其性能優越,模型中的每個子模塊都有助于提高模型圖像描述的性能。

d)本文對實驗模型進行了包括示例和生成描述的可視化的定性結果分析。此外,本文還進行了錯誤案例分析,以提供關于如何提高本文模型性能的可行建議和見解。

1 相關工作

1.1 圖像描述

圖像描述的自動生成問題受到了世界范圍內越來越多研究者的關注。目前,關于圖像描述的研究工作主要從基于模板的方法、基于搜索的方法和基于語言的模型三個不同的維度展開[1,2]。隨著研究的不斷深入,基于語言的模型因其對給定的圖像能夠產生新穎、多樣的描述而脫穎而出。本文模型就是基于語言的編碼器—解碼器模型。該模型的靈感來自于神經網絡在機器翻譯[7,11~13]中的成功應用。類似于機器翻譯中的將一種語言翻譯成另一種語言,該模型采用編碼器—解碼器框架直接將給定的圖像翻譯成能夠描述該圖像的句子。具體來說,編碼器—解碼器框架由編碼器和解碼器兩個子模塊組成。一方面,能夠從圖像中提取信息的編碼器通常是卷積神經網絡(convolutional neural network,CNN)[14],如VGG、AlexNet和ResNet。為了從圖像中提取更細粒度的圖像信息,這些編碼器框架通常首先被預先訓練于大型數據集上的圖像分類或圖像識別任務[15]。另一方面,將給定圖像的視覺信息轉換為描述的解碼器通常是循環神經網絡[16],如GRU(gated recurrent unit)和LSTM(long short term memory)。關于圖像描述自動生成的編碼器—解碼器模型的代表性工作包括文獻[4,17,18],這些工作的主要區別在于模型中使用了不同的卷積神經網絡和循環神經網絡。

為了進一步提高圖像描述的編碼器—解碼器模型的性能,研究人員提出了將注意機制應用于編碼器—解碼器模型的思路,并取得了良好的效果。注意力機制最早是應用于心理學和神經科學領域的研究。Xu等人[5]首次將注意力機制應用到圖像描述工作并證明了注意力機制在圖像描述的編碼器—解碼器框架上的有效性。基于現有注意力機制的圖像描述模型的總結,本文將其分為兩種不同類型,兩者的區別在于關注的焦點不同。第一類圖像描述的注意力機制以卷積神經網絡獲得的圖像信息為研究對象,并以此希望能夠關聯生成的每個單詞與圖像中最相關的區域。這類圖像描述注意機制模型的代表性工作有文獻[5,8,19,20]。第二種圖像描述的注意機制聚焦于給定圖像的圖像主題,這些圖像主題來自于人類標注的基本事實描述中最相關的文本片段。值得注意的是,圖像主題可以被一個良好的圖像主題提取器(如文獻[21])自動捕獲,關于第二類圖像描述的注意機制的代表性工作有文獻[22,23]。

1.2 遺傳算法和演化策略

遺傳算法[24]是一種不需要求導的隨機優化方法,它以自然選擇和演化過程為基礎。遺傳算法[25]被廣泛應用于自適應控制、數據庫查詢優化和深度學習。遺傳算法優化主要包括以下四個步驟[26]

a)編碼和初始化。編碼表示對優化對象的編碼,初始化表示對各種相關參數的初始化。

b)適應度函數的設計。適應度是衡量個體質量優劣的標志,通常指所研究問題的目標函數。

c)選擇。基于優勝劣汰的原則來確定將參與下一代繁殖的親本。

d)突變。利用當前基因庫的潛力來產生新的個體并保留良好的特征。 如果所需的編碼信息不在當前基因庫中,則自發突變會產生新個體。

演化策略[27]是Rechenberg于1963年提出的一種模擬自然進化原理來解決參數優化問題[28,29]的算法。進化策略中應用比較廣泛的是(μ+λ)-ES算法,其種群概念如下:首先,在搜索開始時建立一個包含μ個體的初始種群PA;接著,從初始總體開始,迭代計算一系列種群,在每次迭代中,從當前種群PA中生成λ個子群體。對于每種情況,使用以下三個步驟來生成子種群:

a)從當前PA中選取兩個沒有偏見的個體作為父代用于重組;

b)通過所選父代的重組,產生一個新個體;

c)對新個體進行變異和評估。

經過上述迭代,計算子種群和父種群的總誤差。通過對誤差進行排序,從λ個子代和μ個PA代組成的集合中選擇誤差最小的向量作為下一代PA+1。重復上述迭代,直至達到最小精度要求。

與現有圖像描述模型的不同之處在于,本文模型側重于有效地結合視覺注意力和文本注意力以充分發揮兩者的優勢。此外,本文還提出了一種演化神經網絡,能更有效地利用圖像信息進行圖像描述來彌補直接將圖像信息輸入解碼器的缺陷。

2 模型

本章將詳細介紹本文提出的基于演化深度學習的圖像描述生成模型EDLMIC,其主要包括圖像編碼器、演化神經網絡和自適應合并解碼器。本文采用演化神經網絡將圖像編碼器與自適應融合解碼器相結合。圖1展示了本文模型的總體架構。接下來將依次介紹圖像編碼器、演化神經網絡和自適應合并解碼器。

2.1 圖像編碼器

卷積神經網絡在提取視覺信息方面有著顯著的優勢。因此,在本文模型的圖像編碼器中,ResNet101[30]被用于生成圖像的視覺性息。具體來說,本文采用ResNet101最后一個卷積層的輸出作為圖像信息細節,如下所示。

2.2 演化神經網絡

本文提出的演化神經網絡用于連接圖像編碼器和自適應合并解碼器。演化神經網絡的核心思想是將演化算法的核心思想融入到深度學習的整個過程中,從而最小化重構誤差,優化學習模型的結構。接下來,本文將介紹演化神經網絡在圖像描述領域的四個具體步驟。

2.2.1 學習結構編碼和初始化

學習結構主要是指學習隱含層數和隱含節點數。限制玻爾茲曼機結構中可見層與隱藏節點之間的能量函數如下所示。

其中:ψ=〈W,a,b〉是模型的參數,W表示可見層與隱藏層之間的連接權值,b和a分別表示可見層和隱藏層的偏差值。值得注意的是,不同隱藏層中的節點數量不同,對應參數的維數也不同,所以編碼后形成的碼長也不同。表1給出了演化神經網絡參數的編碼方案。

如表1所示,n表示初始隱藏層節點數,v和o分別表示輸入層和輸出層的節點數。由于編碼器輸出的視覺信息維數是2 048,所以本文取v=2 048,o=1 024。與神經網絡的隨機初始化不同,演化深度學習中的參數初始化通過無監督學習來完成,即通過對輸入數據逐層進行無監督預處理來學習初始參數,以減少初始值對整個學習過程的影響,從而提高學習效率。

2.2.2 適應度函數設計

將演化思想引入深度學習的主要目的是使學習模型在滿足一定精度要求的前提下具有最簡單的網絡結構。本文所涉及的學習模型的構建和優化主要是通過最小重構誤差來完成的。因此,采用重構誤差作為優化目標。演化神經網絡中所用的重構誤差可通過比較初始視覺層中節點i′的狀態概率與模型重構后新視覺層對應節點i的狀態概率得到。基于通用方法,本文采用信息散度(Kullback-Leibler divergence,KLD)來度量兩個概率之間的相似性,如下所示。

式(4)是演化神經網絡中需要的適應度函數。其中,D表示輸入數據的維度,即D=2 048。此外,當且僅當p(v=i)=p(vl=i′)時,G=0。

2.2.3 節點選擇

節點選擇的主要任務是利用式(5)中的偏差函數計算每個節點的偏差,即適應度值,從而根據適應度值選擇性能更好的隱含層節點,并生成新的種群。節點被選擇的概率應該與節點的適應度值成反比。實現該方案最常用的方法是設置節點i的選擇概率pi,如下所示。

其中:n表示隱藏節點的數量;gi表示節點i的偏差(適應度值)。這種選擇方法有利于從父代中遺傳優良基因。計算出每個節點的適應度值后,根據適應度值對節點進行排序,并設置合適的適應度閾值ε,從而選擇具有glt;ε的節點作為新一代的隱藏節點。

2.2.4 突變

突變主要針對演化神經網絡中精度不夠的問題而設計。現實生活中的原始圖像是海量且高維的。但是,如果滿足適應度要求的節點數量有限,則可能會對圖像信息欠擬合,即無法充分挖掘和利用視覺特征信息。因此,必要時必須以一定的概率更新不滿足要求的節點的相關參數,即認為不滿足要求的節點已經發生突變,直到滿足精度要求為止。

進化神經網絡的參數可以按照以下公式進行變異:

其中:α表示動量,它可以使參數的變化更加平滑,其取值為[0.1,1],通常可以設置為0.5;β為學習率,用于調整演化神經網絡中參數變化的值,其取值為[0,1]。演化神經網絡中學習率的選擇是非常重要的,過大值可能導致進化神經網絡收斂不穩定;過小的值會導致進化神經網絡訓練時間過長,進而導致演化神經網絡收斂緩慢,不能滿足需求的誤差。經過多次重復實驗得到,當β=0.1時,網絡的穩定性和收斂速度都在可接受范圍內,因此本文取β=0.1。此外,W、b、a的初始化均設為0。

2.2.5 視覺特征輸出

視覺特征輸出利用進化神經網絡將圖像信息Ii和Iavg轉換為視覺特征vi和vavg。因此,本文采用兩個具有ReLU激活函數的單層感知器,其計算公式如下所示。

2.3 自適應合并解碼器

基于LSTM[31]的自適應合并解碼器是本文模型的核心部分,其工作流程可概括如下:在每個時間步長,解碼器首先接收演化神經網絡傳輸的視覺特征和文本信息;然后,該解碼器自適應融合視覺特征和文本信息,形成視覺—文本內容;最后,解碼器根據所得到的視覺—文本內容,對給定的圖像逐個生成相應的描述詞。自適應合并解碼器中有視覺注意力模塊、文本注意力模塊和自適應合并門模塊三個關鍵模塊。圖2顯示了該模型中自適應合并解碼器的數據流。下文將詳細闡述自適應合并解碼器的三個模塊。

2.3.1 視覺注意力模塊

綜上所述,較之于現有文獻[21~27]工作,本文的視覺注意力模型可以有效地結合包括LSTM當前狀態和圖像三個不同方面在內的信息,這表明視覺注意力包含了更豐富的視覺信息。值得注意的是,這三種圖像信息都來自演化神經網絡,在圖像描述中能夠更好地表達圖像信息的特征。

2.3.2 文本注意力模塊

圖像描述的基本神經網絡模型接收一個單獨的圖像并為給定圖像生成相應的描述。本文給定圖像生成的描述 CWs 可被表示為編碼詞1-of-L的序列:

對于上述三個公式,BasicLSTM指用于生成ht 和ct的基礎LSTM,Wsc、Wsx和wsh是模型中的可學習權重參數。為了融合視覺信息,本文計算xt=[(Vg+Vavg)/2 :CWt],這表示 xt是通過連接全局視覺特征和平均視覺信息這兩個不同視覺信息的平均值而得到的矩陣。

2.3.3 自適應合并門控機制

加權視覺特征WVFt和文本—信息T AIt 可通過上述視覺注意力模塊和文本注意力模塊獲取。自適應合并門模塊將接收加權視覺特征WVFt 和注意力文本信息 T AIt,并致力于這兩者的充分利用。最簡單的方法是對于兩者取平均值表示兩者具有相同的權重。然而,視覺特征和文本信息不應該有相同的權值,因為類似于人類大腦的思維模式,在不同的時間步長產生不同的描述詞時,圖像描述模型的焦點是不同的。因此,設計自適應合并門模塊的目的是調整加權視覺特征WVFt與注意力文本信息T AIt的比例。針對該問題,本文提出了一種自適應合并門方法,該方法可以在每個時間步自適應學習去權衡加權視覺特征和注意文本信息的比例。接下來將詳細描述該方法,首先引入自適應平衡模型,其計算公式為

綜上所述,在自適應合并門模塊中,視覺注意模塊和文本注意模塊可以幫助自適應合并解碼器充分利用所有可用的信息。此外,自適應合并門模塊可以有效地幫助自適應合并解碼器平衡視覺和文本信息,為給定的圖像產生更好的描述。

3 實驗

3.1 數據集

本文在訓練和評估模型時分別使用數據集Flicker30K和Microsoft COCO 2014,下面分別詳述兩者。

a)COCO2014。COCO是common object in context的縮寫,是由Microsoft維護的一個圖像數據集[32],也是研究圖像描述最流行的數據集之一。根據微軟公司的官方聲明,該數據集共有123 287張圖片,其中82 783張用于訓練,40 504張用于驗證。此外,對于這些圖像,每一張都由不同的眾包工作人員手動標注了5個不同的文本描述語句。由于微軟沒有發布測試數據集,為了使本文實驗模型與其他模型具有可比性,本文實驗使用了Karpathysplits(https://github.com/karpathy/neuraltalk,http://github.com/tylin/coco-caption,https://github.com/pytorch/pytorch,https://github.com/pytorch/vision)處理COCO2014的訓練、驗證和測試集。

b)Flicker30K。Flicker30K是另一個用于研究圖像描述的常用數據集。然而,該數據集規模小于COCO2014,僅有31 783張圖片。與COCO2014類似,COCO2014中的每張圖片都配有5個眾包文本描述語句。

3.2 評價指標和方法

一方面,為了讓本文模型與其他模型具有可比性,本文采用COCO描述工具來評估該模型,主要包括八個廣泛使用的圖像描述指標來驗證實驗結果,即BLEU1~BLEU4[31]、METEOR[33]、ROUGE-L[34]、CIDEr[35]和SPICE[36]。考慮到BLEU1~BLEU3最初設計主要用于機器翻譯,不能良好地反映圖像描述的性能。因此,本文選用BLEU4、METEOR、ROUGE-L、CIDEr和SPICE作為定量分析中用于報告實驗結果的指標。

另一方面,為了證明模型的有效性,將本文模型與其他具有代表性的模型進行比較。用于比較的模型包括DeepVS[4]、Soft Attention[5]、Hard Attention[5]、Adaptive Attention[8]、LRCN[17]、 SCA-CNN[19]、CNN+CNN[20]、LSTM-A3[21]、ATT-FCN[22] 和 Skeleton[23] 、Evolutionary RNN[37]。此外,本文還實現了一個用于圖像描述的通用編碼器—解碼器模型,稱為基線模型(BaseLine)。為了顯示本模型中每個子模塊的有效性,根據基線模型和本文模型,創建如下五個相關變量:

a)BaseLine+visual attention module。配備了視覺注意力子模塊的基線模型。

b)BaseLine+text attention module。配備了文本注意力子模塊的基線模型。

c)BaseLine+adaptive merging gate module。配備了自適應合并門模塊的基線模型,即包括視覺注意力子模塊和文本注意力子模塊。

d)BaseLine+evolutionary neural network。配備了演化神經網絡的基線模型。

e)本文without evolutionary neural network。除去演化神經網絡的本文模型。

3.3 具體實現

PyTorch是由Facebook AI研究機構維護的一個開源的Python機器學習庫。近年來,PyTorch在科學研究領域逐漸受到越來越多的歡迎,因此使用PyTorch來實現本文模型。在數據集處理方面,本文實驗舍棄所有非字母字符,并將所有字母轉換為小寫字母。此外,在COCO2014中,刪去每一個超過50字的文本描述。本文將出現至少6次的單詞匯總到實驗詞匯表中,所有出現次數少于6次的描述詞都被替換為未知標記〈UNK〉。最終,對于COCO2014數據集,本文構建了一個包含9 491個標記的詞匯表,其中9 489個是常用單詞,1個是未知標記〈UNK〉,1個是特殊符號 〈pad〉。對于Flickr30K數據集,與COCO2014的處理方式類似,截斷所有長于22個單詞的文本描述,并將出現至少3次的單詞匯總到實驗詞匯表中。所有出現少于3次的描述詞都被替換為未知標記〈UNK〉。最后,對于Flickr30K數據集,本文構建了一個由7 649個單詞組成的詞匯表,其中7 647個單詞為常用單詞,1個單詞為未知標記〈UNK〉,1個單詞為特殊符號〈pad〉。

如圖1所示,就模型結構而言,所提模型由圖像編碼器、進化神經網絡和自適應合并解碼器三部分組成。對于圖像編碼器,為了更好地提取視覺信息,實驗使用了在ImageNet上預先訓練好的ResNet101模型作為圖像編碼器以獲取給定圖像的視覺信息。該預先訓練的ResNet101模型可以直接從PyTorch模型獲得。對于進化神經網絡,在實驗中,初始隱藏層的節點數設置為2 000。經過訓練和優化,最終形成具有三個隱含層的深度網絡結構,維數分別為1 500、1 000和500。此外,基于一個基礎LSTM構建自適應合并解碼器,并設置解碼器的隱藏大小為1 024。本文采用Adam Optimizer訓練模型。對于初始學習率,使用圖像編碼器的初始學習率0.000 01來訓練模型,演化神經網絡和自適應合并解碼器的學習率分別設置為0.001和0.004。考慮到訓練集的大小,本文將批處理的值設為64。值得注意的是,在對自適應合并解碼器進行了40次訓練之后,本文將訓練轉換為聯合訓練,并對整個模型進行了微調。根據常用方法,本文實驗采用早停法來訓練模型。具體來說,不會停止模型的訓練,直到圖像描述關于CIDEr的分數在過去的50個迭代中沒有得到改善。

3.4 定量結果分析

為了驗證本文模型的性能,將本文模型與其他五種經典圖像描述模型進行了比較。選取的模型和五種相關變體已在3.2節中介紹。表2、3分別是在數據集Flickr30K 和COCO2014上的實驗結果。

首先,對于注意力模塊,從表2、3的基線模型和相關變體的實驗結果可以發現,包含視覺注意力模塊、文本注意力模塊和自適應融合門模塊的三種注意力模塊可有效提高基線模型的性能,尤其是自適應融合門模塊,即帶有自適應融合門模塊的基線模型可獲得高于基于其他注意力模塊模型的得分。這是因為自適應融合門模塊結合了視覺注意力和文本注意力模塊的優點。其次,對于演化神經網絡,如表2、3的演化神經網絡實驗結果所示,演化神經網絡可有效提高基線模型和本文模型的性能。此外,相較于其他有視覺注意力模塊和文本注意力模塊的模型,有演化神經網絡模塊的基線模型獲得了比這兩個模型更高的得分,其性能與有自適應融合門模塊的基線模型相當,這說明了演化神經網絡有助于優化單一注意力模塊。最后,將本文模型與其他經典模型相比,在數據集Flickr30K和COCO2014上的詳細實驗結果分別如表2、3所示,具體分析如下。表2是在數據集Flickr30K上的實驗結果,可以看出本文具備自適應融合門模塊和演化神經網絡的模型,除BLEU-4指標以外,其他指標均優于其他經典模型。具體地,與其他經典模型和相關變量的得分相比,本文模型的ROUGE-L分數從0.467提升至0.499,METEOR分數從0.204提升至0.213,CIDEr分數從0.531提升至0.601,SPICE分數從0.146提升至0.159。表3是在數據集COCO2014上的實驗結果,可以看出與數據集Flickr30K上的實驗結果相類似。然而,模型在數據集COCO2014上的相關變量指標均優于數據集Flickr30K上的指標,這是因為COCO數據集規模更大。更具體地說,本文模型在除BLEU-4之外的所有度量方面都比所有現有的經典模型和關于基線的相關變體表現得更好,其中ROUGE-L分數從0.552提升至0.571,METEOR分數從0.271提升至0.276,CIDEr分數從1.085提升至1.193,SPICE分數從0.195提升至0.206。值得注意的是,本文模型在SPICE方面優于最新模型[8],這說明對圖像的描述更加符合實際。

綜上所述,通過對表2、3定量結果的分析,證明了本文提出的圖像描述生成模型的優越性,注意力機制模塊和進化神經網絡都能有效地提高模型的性能。

3.5 定性結果分析

為進一步改善模型的性能,在本節中進行了定性分析。

圖3展示了由不同模型生成的文本描述以及人工手動標注的正確描述。用于生成文本描述的模型有:a)B+A表示基線+自適應合并門模塊;b)B+E表示基線 + 演化神經網絡模塊;c)O-E表示不含演化神經網絡的模型;d)O表示本文模型。此外,為了對比不同模型的差異,本文將樣本圖像劃分為三種場景:a)關于數量的場景;b)關于顏色的場景;c)關于細節的場景,如圖3所示。接下來進行具體分析。

a)關于數量的場景,主要是準確描述圖像中的數量,如圖3中第一行所示。顯而易見的是,所有模型都可以自動生成一些相關描述,然而,本文模型可以生成場景中更明確的數字。例如,與由其他三種模型生成的文本片段“a glass of wine”和“a bottle of wine”相比,本文模型生成的“a glass of wine”“bottle”和“patio table”更加準確。

b)關于顏色的場景,主要是準確描述圖像目標的顏色,如圖3第二行所示。與其他三種模型相比,在保證圖像內容正確描述的情況下,本文模型可以更精準描述目標的顏色。例如,與B+A和B+E模型相比,本文模型可以更準確地描述圖像內容“beach”和“yellow surfboard”。此外,盡管O-E模型可以識別“beach”和“yellow surfboard”,但是卻將女人錯誤識別為男人。因此,相較于其他模型,本文模型能夠更準確地描述圖像內容。

c)關于細節的場景。主要是盡可能多描述復雜圖像的細節內容,如圖3第三行所示。雖然全部模型都可以生成一些相關文本描述,但是本文模型對給定圖像的細節描述更加精準。與其他三種模型生成的文本片段“a group of people”和“table”相比,本文模型還可以額外生成文本片段“food”,這顯然更符合給定圖像的細節和主題。

3.6 可視化

為了在定性分析中更好地分析和解釋本文模型,本節可視化了視覺注意權重1-αt。視覺可視化的過程分為以下兩步:a)從COCO2014數據集上對圖像進行取樣,尺寸為224×224;b)采用雙線性插值和高斯平滑來實現視覺注意力的可視化權重。此外,考慮到文本注意力權重不能在圖像中可視化,以αt的折線圖表示文本注意力的權重值。

圖4展示了兩個視覺注意力可視化的實際例圖。在圖4中,每個例圖的左側是被采樣處理的原始圖像;每個例圖的上側為文本注意力的合并門的值,其隨時間步長而變化;每個例圖的下側為視覺注意力的可視化,反映了視覺注意力的價值。如圖4所示,所有覆蓋的圖像區域都被高亮。一方面,當要生成對應的描述字時,特別是名詞時,模型可以為圖像的正確相應區域進行高亮。對于圖4中的第一個例子,當要生成詞“dog”“teddy”和“bear”時,圖中狗和泰迪熊的周圍區域都被明顯高亮,這說明當生成文本描述字詞時,模型的視覺注意力集中在圖像正確的區域。另一方面,如圖4中的上側所示,文本注意力合并門的值較高。對于圖4中的第二個例子,當要生成詞“on”“in”“of”和“crowed”時,這些詞對應的權重分別是0.726、0.703、0.695和0.672,全部超過0.6,它們的值都大于0.6,這與本文假設是一樣的。視覺注意缺乏這些對應的非描述性詞匯的信息,并且不知道到底要尋找什么,因此文本注意模塊對這些詞匯的產生起著重要作用。

3.7 錯誤分析

為了對如何提高模型的性能提供可行的建議和見解,本節使用在COCO2014數據集上訓練的模型進行案例錯誤分析。在生成的1 200個文本描述中,有144個被選為性能不理想的錯誤案例。對于這些失敗的案例進行了深入統計,并將其分為細節理解錯誤、行為理解錯誤和語義理解錯誤三類錯誤。圖5顯示了模型生成的三種描述錯誤,表4給出了這些錯誤的統計結果。接下來將進一步詳細解釋。

a)細節理解錯誤。指本文的模型無法準確地描述某些特定圖像上的細節場景。這些特定圖片通常是復雜的圖,即包含了諸多場景的圖像。造成這種錯誤的原因是模型很難把握圖像中物體與背景的關系,從而注意到錯誤的圖像細節。例如,對于圖5中的第一個例子,模型的注意力主要集中在鐘樓的紀念拱門上,且忽略了流動餐車和行人行為的細節。如表4所示,該類型的錯誤占總錯誤的47.96%,是發生率最高的錯誤。遺憾的是,這些錯誤很難在短時間內解決,因為它們是計算機視覺領域尚未解決的基本問題,涉及到如何關注圖像中的更多細節。

誤差類型誤差數量誤差率誤差類型誤差數量誤差率

細節理解錯誤6947.92%語義理解錯誤2618.06%

行為理解錯誤3826.39%其他錯誤117.63%

b)行為理解錯誤。模型不能精確識別目標的行為,甚至在一些特殊的圖像中忽略了目標的行為。這類錯誤占總錯誤的26.39%。對于這些特殊的圖像,物體的行為往往表現得模棱兩可,有時人類甚至都無法準確識別或忽略它們。例如,對于圖5的第二個例子,本文模型可識別出站在一起的人,但是卻不能正確地識別他們的行為。然而,事實上,這些人聚集在一起剪紅絲帶而不僅僅是簡單地站在一起。這類錯誤形成的原因與細節理解錯誤類似。

c)語義理解錯誤。模型不能理解一些特殊圖像中的語義信息。這類錯誤占總錯誤的18.06%,其常見于包含大量語義信息的圖像中。例如,對于圖5中的第三個例子,本文模型成功地識別出了桿上有一個藍色警示牌,但是它無法識別藍色警示牌所表達的信息,這就需要對給定的圖像有更深的理解。造成這種錯誤的原因是原始數據集中的圖像缺乏這方面的語義描述,而且大多數圖像只描述圖像中的相關對象,不涉及相關的圖像語義信息。因此,創建一個關于圖像語義的大型數據集可以幫助消除這種錯誤類型。

4 結束語

為了綜合基于視覺注意和文本注意模型的優點,本文介紹了一種用于圖像描述自動生成模型。該模型包括三個子模塊,分別是用于生成圖像的視覺信息圖像編碼器子模塊、用于把圖像信息轉換為視覺特征的演化神經網絡子模塊、能夠將視覺特征和文本信息進行有效融合的自適應的融合解碼器。最后在COCO2014和Flickr30K數據集上進行模擬實驗,并進行了定量和定性分析,結果驗證了本文模型的有效性和可行性。

在未來的工作中,計劃探索更有效的自適應合并機制,以充分利用不同層次的圖像信息。另外,考慮到進化深度學習方法在計算機視覺和自然語言處理領域的廣泛應用,利用進化深度學習實現編碼器和解碼器結構的自動設計也是今后的工作。

參考文獻:

[1]Bai Shuang,An Shan.A survey on automatic image caption generation[J].Neurocomputing,2018,311(15):291-304.

[2]Hossain M,Sohel F,Shiratuddin M.A comprehensive survey of deep learning for image captioning[EB/OL].(2018).https://arxiv.org/abs/ 1810.04020v2.

[3]Wu Shaomei,Wieland J,Farivar O,et al.Automatic alt-text:computer-generated image descriptions for blind users on a social network ser-vice[C]//Proc of the 20th ACM Conference on Computer Supported Cooperative Work and Social Computing.New York:ACM Press,2017:1180-1192.

[4]Andrej K,Li Feifei.Deep visual-semantic alignments for generating image descriptions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3128-3137.

[5]Xu K,Ba J,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proc of the 32nd International Conference on Machine Learning.2015:2048-2057.

[6]Yang Zhilin,Yuan Ye,Wu Yuexin,et al.Encode,review,and decode:reviewer module for caption generation[C]//Proc of the 29th Conference and Workshop on Neural Information Processing Systems.2016:133-141.

[7]Cho K,Van Merriёnboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014).https://arxiv.org/abs/1406.1078.

[8]Lu Jiasen,Xiong Caiming,Parikh D,et al.Knowing when to look:adaptive attention via a visual sentinel for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:375-383.

[9]Sun Yanan,Wang Handing,Xue Bing,et al.Surrogate-assisted evolutionary deep learning using an end-to-end random forest-based performance predictor[J].IEEE Trans on Evolutionary Computation,2020,24(2):350-364.

[10]Bali K K,Ong Y S,Gupta A,et al.Multifactorial evolutionary algorithm with online transfer parameter estimation:MFEA-Ⅱ[J].IEEE Trans on Evolutionary Computation,2019,24(1):69-83.

[11]Sutskeve I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proc of the 27th Conference and Workshop on Neural Information Processing Systems.2014:3104-3112.

[12]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].(2014).https://arxiv.org/abs/1409.0473.

[13]Wu Qi,Shen Chunhua,Liu Lingqiao,et al.What value do explicit high-level concepts have in vision to language problems[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2016:203-212.

[14]Gu Jiuxiang,Wang Zhenhua,Kuen J,et al.Recent advances in convolutional neural networks[J].Pattern Recognition,2018,77:354-377.

[15]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proc of the 25th Conference and Workshop on Neural Information Processing Systems.2012:1097-1105.

[16]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[17]Donahue J,Hendricks L,Guadarrama S.Long-term recurrent convolutional networks for visual recognition and description[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2015:2626-2634.

[18]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.

[19]Chen Long,Zhang Hanwang,Xiao Jun,et al.SCA-CNN:spatial and channel-wise attention in convolutional networks for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:6298-6306.

[20]Wang Qingzhong,Chan A B.CNN+CNN:convolutional decoders for image captioning[EB/OL].(2018).https://arxiv.org/abs/1805.09019.

[21]Yao Ting,Pan Yingwei,Li Yehao,et al.Boosting image captioning with attributes[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4894-4902.

[22]You Quanzeng,Jin Hailin,Wang Zhaowen,et al.Image captioning with semantic attention[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4651-4659.

[23]Wang Yufei,Lin Zhe,Shen Xiaohui,et al.Skeleton key:image captioning by skeleton-attribute decomposition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7378-7387.

[24]Kumar A,Barman D,Sarkar R,et al.Overlapping community detection using multi objective genetic algorithm[J].IEEE Trans on Computational Social Systems,2020,7(3):802-817.

[25]Elkelesh A,Ebada M,Cammerer S,et al.Decoder-tailored polar code design using the genetic algorithm[J].IEEE Trans on Communications,2019,67(7):4521-4534.

[26]Yan Jiaqi,Gou Yang,Zhang Siyu,et al.Output current optimization for multi brick parallel discharge drivers based on genetic algorithm[J].IEEE Trans on Plasma Science,2019,47(6):3015-3025.

[27]Alavi M,Henderson J C.An evolutionary strategy for implementing a decision support system[J].Management Science,1981,27(11):1309-1323.

[28]Lara A,Sanchez G,Coello A,et al.HCS:a new local search strategy for memetic multi objective evolutionary algorithms[J].IEEE Trans on Evolutionary Computation,2010,14(1):112-132.

[29]Huang Han,Su Junpeng,Zhang Yushan,et al.An experimental method to estimate running time of evolutionary algorithms for continuous optimization[J].IEEE Trans on Evolutionary Computation,2020,24(2):275-289.

[30]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

[31]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 40th Annual Mee-ting of the Association for Computational Linguistics.New York:ACM Press,2002:311-318.

[32]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of the 12th European Conference on Computer Vision.Berlin:Springer,2014:740-755.

[33]Denkowski M,Lavie A.Meteor universal:language specific translation evaluation for any target language[C]//Proc of the 9th EACL Workshop on Statistical Machine Translation.New York:ACM Press,2014:376-380.

[34]Lin C Y.ROUGE:a package for automatic evaluation of summaries[C]//Proc of the 42nd Annual Meeting of the Association for Computational Linguistics.New York:ACM Press,2004:74-81.

[35]Vedantam R,Zitnick C L,Parikh D.CIDER:consensus based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4566-4575.

[36]Anderson P,Fernando B,Johnson M,et al.SPICE:semantic propositional image caption evaluation[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:382-398.

[37]Wang Hanzhang,Wang Hanli,Xu Kaisheng.Evolutionary recurrent neural network for image captioning[J].Neurocomputing,2020,401:249-256.

主站蜘蛛池模板: 亚洲a级在线观看| 国产aaaaa一级毛片| 成人午夜视频在线| 92午夜福利影院一区二区三区| 国产成人91精品免费网址在线| 亚洲va在线观看| 国产精品成人免费综合| 国产精品yjizz视频网一二区| 欧美午夜视频在线| 国产精品无码一二三视频| 欧美一区福利| 丰满的熟女一区二区三区l| 成人国产精品一级毛片天堂 | 91小视频在线播放| 成人久久18免费网站| 久久这里只精品热免费99| 国产亚洲美日韩AV中文字幕无码成人| 午夜视频在线观看免费网站| 久久激情影院| 岛国精品一区免费视频在线观看| 精品無碼一區在線觀看 | 性69交片免费看| 色婷婷综合在线| 亚洲一级无毛片无码在线免费视频 | 伊人久久久久久久久久| 国产国产人成免费视频77777| 午夜国产不卡在线观看视频| 亚洲一道AV无码午夜福利| 日韩a在线观看免费观看| 2020最新国产精品视频| 成人噜噜噜视频在线观看| 日韩小视频在线播放| av一区二区无码在线| 91丨九色丨首页在线播放| 91精品国产自产91精品资源| 成年人午夜免费视频| 亚洲视频在线观看免费视频| 国产精品一区二区不卡的视频| 91福利片| AV片亚洲国产男人的天堂| 亚洲中久无码永久在线观看软件| 日本国产在线| 国产91久久久久久| 国产精品漂亮美女在线观看| 成人午夜视频网站| 99999久久久久久亚洲| 国产福利免费观看| 午夜人性色福利无码视频在线观看| 天堂在线www网亚洲| 亚洲h视频在线| 在线无码九区| 色综合手机在线| 欧美a在线| 精品一区二区三区视频免费观看| 久久99国产乱子伦精品免| 久久美女精品| 99久久亚洲综合精品TS| 青草视频在线观看国产| 国产在线观看91精品| 国产精品视频免费网站| 青青操视频在线| 国产精品尤物铁牛tv| 91丝袜乱伦| 日韩中文精品亚洲第三区| 国产精品吹潮在线观看中文| 伊人中文网| 欧美自慰一级看片免费| 国产h视频免费观看| 国产精品xxx| 久久精品国产999大香线焦| 成年av福利永久免费观看| 亚洲欧美日韩天堂| 视频在线观看一区二区| 亚洲人成人伊人成综合网无码| 一级香蕉视频在线观看| 国产精品真实对白精彩久久| 制服丝袜一区二区三区在线| 国产理论一区| 国产成人做受免费视频| 97人人模人人爽人人喊小说| 欧美成人A视频| 六月婷婷激情综合|