陳耀傳,奚雪峰*,崔志明,盛勝利
(1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215000;2.蘇州市虛擬現實智能交互及應用重點實驗室,江蘇 蘇州 215000)
在計算機視覺領域中,目標檢測[1-2]與圖像分類[3]等技術已經發展的較為成熟,在實際生活中也出現了采用這些技術的應用和產品。圖像描述(Image Captioning)作為結合人工智能領域中的計算機視覺(Computer Vision,CV)和自然語言處理(Natural Language Process,NLP)兩個領域的任務,也逐漸成為人工智能領域的研究熱點,圖像描述的目標是生成輸入圖片的文本描述,整個過程需要使用計算機視覺技術識別圖像中的顯著目標,并利用自然語言處理技術生成連貫的文本描述,如圖1所示。區別于圖像分類與目標檢測,讓計算機理解輸入的圖像,顯然是具有挑戰性的任務。計算機不僅需要通過模型提取出圖像中的“表層信息”(圖像特征),也要提取出圖像中的“深層信息”(目標關系),這對計算機來說是十分困難的。

圖1 圖像描述實例
在圖像描述技術發展初期,研究者們主要使用圖像處理技術提取圖像特征并進行圖片分類,分類后得到圖像特征中可能存在的對象與目標。獲取到的對象與目標通過人為制定的規則生成對應的文本描述。然而這種方法的效果并不理想,原因在于該做法十分依賴對圖像的特征提取,并且在生成文本描述時制定的規則也非常重要。隨著圖像描述技術的發展,研究者們發現了提高生成文本多樣性的方法,即基于檢索的方法。但是這種方法過于依賴對語料庫的訓練,并且人力投入過大,因此該方法沒有成為目前圖像描述技術的主流方法。
深度學習技術的發展,使得圖像描述迅速成為人工智能領域的研究熱點之一。深度神經網絡可以提取圖片中的高維語義信息,這種高維語義信息表示了圖像中目標與目標的關系,從而使生成的圖像描述有不錯的準確率。在深度學習技術的支持下,圖像描述方法的研究迅速向前發展,在近些年涌現了越來越多的方法,使用深度學習技術完成圖像描述任務正在成為未來的主要趨勢。
為了更好地理解和比較圖像描述領域中顯著的研究貢獻,本節將從三個方面介紹分析圖像描述的相關工作:模板填充的方法、檢索的方法和深度學習的方法。其中深度學習的方法是目前圖像描述任務的主流方法。
使用模板填充的圖像描述方法在生成文本時有固定的文本模板,在整個過程中,首先通過算法提取出圖像的視覺特征,包括圖像的對象、動作、場景及屬性等其他元素對應的文本。然后檢測出這些元素對應的單詞,并把這些單詞填入模板生成圖像描述。
Farhadi等[4]通過支持向量機[5](Support Vector Machines,SVM)構建節點特征,檢測圖像的三元素,包括場景、對象和行為。生成圖像描述時,利用隱馬爾可夫模型計算得到最有可能的詞語,并且根據檢測出的三元素填充制定好的模板中得到圖像描述。Mitchell[6]等提出了Midge系統,該系統從計算機視覺的檢測中生成類似于人類的自然語言描述。其中,通過統計句法上出現的詞匯次數,并通過生成器過濾并約束視覺系統輸出的嘈雜檢測結果生成的句法樹,來說明計算機視覺系統看到的信息。結果顯示,該生成系統優于當時最先進的模板填充方法,自動生成了一些自然的圖像描述。Kulkarni等[7]提出一種基于文本統計數據和計算機視覺的識別算法,該算法生成的圖像描述更符合特定的圖像內容。這種方法通過對象和物體檢測器找出候選對象,使用屬性分類器和介詞關系函數處理每個候選對象,計算得到候選對象之間的關系,構建條件隨機場預測圖像標簽,最終根據標簽生成文本填入既定的模板得到圖像描述。
使用模板填充的方法生成圖像描述的優勢在于語法正確率很高,這得益于人工制定的填充模板。但也正是因為模板的限制,使得生成的圖像描述較為單一,在靈活性和多樣性方面表現欠佳。另外,模板的數量問題也是限制這種圖像描述方法的一大難點。
基于檢索的圖像描述方法是在存有所有圖像描述的集合中搜索,找出與輸入圖像相似性最高的圖片后,提取出該圖片對應的圖像描述,再經過修改得到輸入圖像的描述。
Ordonez等[8]提出了一種自動收集數據的方法,該方法過濾了帶有噪音的數據,得到100萬張帶有視覺描述的圖片。在收集到帶有視覺描述圖片的基礎上,通過全局搜索和內容估計檢索生成圖像描述。Hodosh等[9]提出了KCCA方法,構建捕獲語義相似性的核函數與序列核函數,通過搜索找出基于句子的圖像描述,再根據規則對候選描述排序,排序結果作為最終的圖像描述。這種排序的方法和生成式的方法不同,這種方法不需要考慮生成語句的合理性,而是以排序作為圖像描述的方法。Socher等[10]提出DT-RNN模型,該模型使用依賴樹將句子嵌入到向量空間,以便檢索這些句子描述的圖像,如圖2所示。與RNN相比,DT-RNN模型更加關注句子中的動作和主體,所以對語法結構和詞序的變化更有魯棒性。Kuznetsova等[11]提出一種文本生成方法,該方法以樹形結構為主體,樹的片段來自數據庫自存的圖像描述,從這些片段中篩選出合適的文本,將這些文本重新組合抽取,生成的文本作為最終的圖像描述。

圖2 DT-RNN模型框架
基于檢索的圖像描述方法在靈活性和多樣性方面表現較好,在生成文本描述時能夠保證語句的正確性,但是這種方法對大規模訓練語料的依賴性過高,并且受到訓練文本的制約,所以難以保證圖像描述的語義正確性。
近些年深度學習技術迅速發展,各種基于深度學習的方法相繼問世,在各個領域都取得了顯著的效果。得益于深度學習技術的發展,圖像描述技術也成為多模態學習領域的重要組成部分。使用深度學習的方法,能夠生成準確率較高的圖像描述,是目前圖像描述領域最主流的方法。
作為多模態學習領域中的分支,基于深度學習的圖像描述技術有著較高的靈活性,這種靈活性來自于編碼器-解碼器結構,該結構保證了編碼端和解碼端能夠使用大部分的深度學習模型。Mao等[12]在2014年提出的m-RNN模型,創造性地將CNN和RNN結合,并在圖像描述中使用該模型,使得CNN-RNN結構成為編碼器-解碼器結構的熱門結構。然而RNN在學習序列數據時,會出現信息遺忘的現象,這導致生成圖像描述的準確率大打折扣。為了解決這個問題,Vinyals等[13]提出了NIC框架,該框架在編碼端使用了深度更深的卷積神經網絡,并且CNN提取出的圖像特征只會在初始階段輸入一次。在解碼端,使用LSTM代替了RNN,生成準確率更高的圖像描述。
雖然編碼器-解碼器結構在圖像描述任務中表現良好,但是也存在著局限性。在定長的向量中,向量能夠保存的信息量往往是有限的,這種限制帶來的問題和輸入序列的長度呈正比關系。此外,如何在編碼端更有效地提取圖像特征,如何在解碼端完善文本生成的方法,都是提升圖像描述準確率需要解決的問題。
1.3.1 注意力機制的方法
生成圖像描述時,每一個輸出的詞語往往關聯著圖像的不同區域,理想的情況應該是解碼端更加關注預測單詞對應的圖像區域,這種在模型中引入注意力機制的方法,提高了圖像描述的準確率。在編碼器-解碼器結構中融入注意力機制,還可以助力解決序列長度帶來的信息遺忘問題。
Xu等[14]最早在圖像描述中引入注意力機制,在編碼端利用CNN對圖像進行特征提取,得到位置特征集合后,使用注意力機制學習位置特征的權重。位置權重使模型在生成圖像描述時,更加關注圖像的區域特征。Xu等還在工作中借助可視化的方法,表達了融入注意力機制的工作效果。Lu等[15]在Xu的基礎上提出了帶有視覺標記的自適應注意力機制,該機制在解碼端會對不同的詞匯使用不同的注意力策略。通過在LSTM中加入視覺標記,將圖片信息和文本信息加權組合,從而控制解碼器生成與視覺信息無關的詞。這種方法使模型在生成圖像描述時自行決定依賴于視覺信息還是語義信息,從而生成信息更加豐富的圖像描述。Chen等[16]也指出視覺注意在圖像描述任務中的重要作用,在使用CNN進行編碼時引入空間與通道的注意力機制。該方法通過動態地學習多層特征圖中的每一個特征,計算出與隱藏層之間的關系,從而增強圖像描述的效果。Tavakoli等[17]提出的自下而上(Top-Down)的視覺注意力機制,是一種基于顯著性的注意力模型,該方法處理圖像的位置數據效果較好。在Top-Down視覺注意力機制的基礎上,Anderson等[18]提出了自上而下(Bottom-Up)和自下而上相結合的視覺注意力機制。在編碼端使用Faster R-CNN檢測目標區域并提取圖像特征,Bottom-Up和Top-Down聯合得到圖像與文本的注意力權重。在解碼端,使用2個LSTM層并結合注意力機制生成圖像描述。Huang等[19]提出的AoA模塊改進了注意力機制,在傳統的注意力基礎上增加了另一個注意力。該模塊促使編碼器和解碼器都能了解注意力結果和查詢(Query)之間的相關性,作者將AoA模塊應用在模型的編碼端和解碼端,使模型衡量圖像中的區域關系以及文本中的有關信息,提高圖像描述的準確率。Cornia等[20]在自注意力中加入先驗知識,構建記憶增強注意力機制,從而生成更加可控和風格多樣的圖像描述。在高階特征交互方面,Pan等[21]提出的X-LAN網絡,通過雙線性池化選擇性地利用視覺信息或進行多模態推理,實現了高階特征之間的交互。在編碼端使用Faster R-CNN檢測圖像區域后,利用堆疊的X-LAN模塊對區域級特征進行編碼,經過高階模內互動得到增強的區域級和圖像級特征。根據增強的視覺特征,在解碼端利用X-LAN模塊,進行多模態推理生成圖像描述。這種高階模態之間交互的方法,在如今的圖像描述領域也達到了極好的效果。近些年基于注意力機制的改進方法層出不窮,并且廣泛應用于計算機視覺、自然語言處理和多模態技術等領域。在圖像描述任務中,注意力機制不僅在編碼端可以獲取局部圖像和全局信息的關系,而且可以提升文本與圖像區域的相關性,提高生成圖像描述的準確率。上述方法在不同數據集上的實驗結果如表1所示。

表1 基于注意力機制的方法在數據集上的實驗結果
根據表1數據集的使用來看,隨著工作的不斷進行,大部分工作都選擇使用MS COCO數據集,而Flickr30K數據集的使用相對較少,該問題來自于數據集的規模差異。和MS COCO相比,Flickr30K的數據量較少,涉及領域不夠廣泛,導致實驗結果的說服力不強。從實驗效果來看,得益于深度學習技術的創新和注意力機制的改進,新提出的方法在實驗上的表現越發出色。在編碼器-解碼器的基礎架構上,自Anderson開始,研究者逐漸將視線轉移到改進注意力機制本身,針對注意力機制的改進效果優于其他基于注意力機制的方法。實驗效果不斷提高的另一個原因是實驗設備的優化,算力的提高給實驗帶來了極大的利好,模型能夠處理更復雜的算法,參數量不斷增大的同時,使擬合的結果更接近真實結果。
1.3.2 對抗生成網絡的方法
近些年,對抗生成網絡[22](Generative Adversarial Networks,GAN)在計算機視覺領域發展迅速,由于在圖像生成任務中表現良好,GAN開始被廣泛應用于機器翻譯、文本總結、對話系統、圖像描述等自然語言處理任務中。GAN的內部結構包含兩個網絡,分別是生成網絡和判別網絡。為了獲得強大的生成模型,縮小生成樣本和真實樣本間的差異,判別器與生成器不斷地對抗博弈,直到真假難辨。
Dai等[23]提出的條件生成對抗網絡(Conditional GAN)模型,首次在圖像描述任務中使用GAN,提升了生成句子的多樣性,輸出更加自然的圖像描述。該模型生成部分的輸入由提取的圖像特征和隨機噪音變量構成,通過LSTM生成偽造的圖像描述。在判別部分使用LSTM對句子進行編碼,編碼后與圖像特征計算得到概率值,用于判斷生成描述是否可靠以及是否與輸入圖像相關。最后利用策略梯度算法更新參數,根據得到的最大概率值輸出最佳的圖像描述。在多樣性方面,Shetty等[24]也在圖像描述任務上使用了Conditional GAN。不同的是,Dai等主要依賴生成部分的隨機噪音輸入實現圖像描述的多樣性;而Shetty等在判別部分使用圖像和對應的文本描述作為輸入,從而引導生成器生成多樣化的圖像描述。另外,生成部分新增了Faster RCNN,用于檢測目標特征,并用Gumbel-Softmax代替了常用的策略梯度算法,不僅解決生成器采樣過程中不可微的問題,而且提升了模型的計算效率。Chen等[25]提出了一種跨領域圖像描述的對抗訓練,旨在訓練樣本較少的領域,提升模型生成圖像描述的準確性。該方法使用對抗學習網絡將未配對的數據應用到新的領域,在多個數據集上表現較好。為了判斷圖像描述的真實性和自然性,Chen等[26]提出了結合GAN和強化學習的圖像描述框架,利用強化學習的自我批判算法對生成模型進行優化,進而衡量圖像描述的可靠性。該模型在編碼端引入兩種判別器結構,得到給定句子真實性的概率值。在解碼端的判別器采用了標準的LSTM架構,通過輸入的圖像特征和單詞編碼信息,輸出圖像描述為真的概率值,這種方法生成的圖像描述真實性較高。雖然在圖像描述任務上使用GAN可以提高生成描述的多樣性,但還是無法同時生成多種風格的圖像描述。Guo等[27]提出的MSCap模型,通過在輸入文本信息時引入風格參數,從而生成多種風格的圖像描述,并且引入了一個風格分類器用于區分圖像描述的樣式。另外模型中還使用了反向翻譯模塊,確保生成以視覺為基礎的風格化圖像描述,保證真實的圖像描述和風格化描述的一致性。使用GAN的方法能夠改善圖像描述的多樣性,生成風格眾多的圖像描述。在眾多的圖像描述方法中,基于GAN的方法最為靈活有趣,然而使用GAN的方法在評估標準上的表現卻差強人意。基于GAN的圖像描述方法在數據集上的實驗結果如表2所示。
根據表2可以看出,基于GAN的圖像描述方法的效果略低于基于注意力機制的方法,但是該方法的準確率并不低,而且生成的圖像描述更加自然。另外,從表中可以看出相較于僅使用GAN的方法,Chen在模型中引入強化學習的方法大大提升了實驗效果,這為研究者們提供了廣闊的研究思路,啟發研究者們將其他深度學習技術應用在基于GAN的圖像描述模型中。

表2 基于對抗生成網絡的方法在數據集上的實驗結果
1.3.3 強化學習的方法
強化學習[28](Reinforcement Learning)是機器學習領域必不可少的一部分,在圖像描述任務中使用強化學習可以提升模型的性能。強化學習又叫鼓勵學習、評價學習和增強學習,模型包括智能體、環境、行為和獎勵四個元素。
在使用編碼器-解碼器結構的方法中,訓練圖像描述模型的損失函數大部分都采用交叉熵函數,這帶來了兩個問題。第一個問題是在模型訓練階段和測試階段存在曝光誤差(Exposure Bias),這導致了預測單詞的錯誤累計。第二個問題是損失評估不匹配(Loss-Evaluation Mismatching),由于評價標準不可微分,交叉熵函數不能直接對評價函數進行微分計算,可能會造成評價標準對正確圖像描述的誤判,導致正確的圖像描述得分卻不高。
為了解決這兩個問題,Ranzato等[29]將強化學習技術應用到了自己的模型中。在生成模型中采用交叉熵函數和強化學習同時訓練,取代了單獨使用交叉熵損失函數訓練的方法。針對生成文本階段的錯誤累計問題,該模型在解碼器的尾部引入強化學習,并直接對評估標準進行優化,取得了不錯的效果。在使用策略梯度訓練端到端模型的背景下,Rannie等[30]提出了SCST方法,在訓練圖像描述模型時融入強化學習,改善了使用序列訓練的圖像描述模型性能,大大提升了實驗準確率。同樣使用序列訓練,Zhang等[31]提出使用Actor-Critic的強化學習方法。該方法在原有序列訓練的基礎上,新增了價值模型作為強化學習中的baseline,并且在模型中引入自注意力機制,降低采樣過程中樣本重復出現的概率,實驗表明該方法在各項指標上都有不錯的效果。Liu等[32]提出使用交叉熵函數和強化學習損失函數協調訓練的方法,首先使用交叉熵函數進行訓練,隨著訓練時間的提升,不斷提高使用強化學習損失函數訓練的時間,直到圖像描述都是由強化學習損失函數訓練得來。在解決損失評估不匹配的問題上,Gao等[33]從狀態值函數與當前狀態前一時刻狀態動作值函數的關系中,提出了n-step的優勢函數。在強化學習的過程中,使用n個時間步逐漸增加狀態值函數絕對值的均值,在降低方差的同時重新設置優勢的平均值。目前的強化學習有著巨大的發展空間,如何設計出更好的獎勵機制和反饋機制是提升強化學習性能的關鍵所在。并且強化學習算法已經逐漸成為圖像描述任務不可缺少的一部分,在不同的評價指標下,使用強化學習的方法顯著提升了圖像描述效果。使用強化學習的方法在不同數據集上的實驗結果如表3所示。
根據表3可以看出,基于強化學習的方法在數據集上的實驗結果相差不大,在強化學習技術的使用上,Ranzato、Rannie和Liu在訓練階段引入強化學習;Zhang和Gao引入強化學習的同時,還引入了注意力機制,這種方法和同時代的使用強化強化學習的圖像描述方法相比,準確率更高?;趶娀瘜W習的方法是圖像描述任務的重點,它能夠在現有方法的基礎上,優化模型訓練函數和實驗評價指標,提升模型性能,起到錦上添花的效果。

表3 基于強化學習的方法在數據集上的實驗結果
圖像描述領域中,已知大約有幾十個公開的大型數據集,其中使用最廣泛的數據集主要有MS COCO[34]、Flickr30K[35]、Conceptual Captions[36]。
2.1.1 MS COCO數據集
MS COCO(Microsoft Common Objects in Context)數據集主要使用在目標檢測、目標追蹤和圖像描述任務中,在2014年發布了第一個版本。MS COCO數據集共包含16.4萬張圖像,其中有8.3萬張訓練圖像、4.1萬張驗證圖像以及4.1萬張測試圖像,每一張圖像都有5個對應的圖像描述。整個數據集具有80個對象類別,91個物體類別;用于關鍵點檢測的圖像超過20萬張,帶有關鍵點標注的個體實例圖像25萬張,帶有注釋的實例圖像5.6萬張。2015年,MS COCO數據集發布了補充版本,在原有數據的基礎上新增了8.1萬張測試圖像,包括所有以前的4.1萬張測試圖像和4萬張全新圖像。隨后在2017年,MS COCO數據集再次更新,更新后的數據集共有超過32萬張圖像,是目前圖像描述任務最主流的數據集之一。
2.1.2 Flickr30K數據集
Flickr30K數據集于2015年發布,圖像從Flickr網站上收集而來,包含3.1萬張圖像與5.1萬個實體,其中驗證圖像和測試圖像都為1 000張。與MS COCO數據集相同,每一張圖像對應5個參考語句,參考語句均由人工注釋。由于Flickr30K數據集圖像數量較少,常常在驗證模型時使用,和在MS COCO數據集上驗證相比,這節省了大量的訓練時間。
2.1.3 Conceptual Captions數據集
Conceptual Captions數據集是谷歌2018年發布的大規模圖像描述數據集,擁有超過300萬張圖像。包含330萬張測試圖像、2.8萬張驗證圖像和2.2萬張測試圖像,每一張圖像對應一個參考語句。這些圖像和參考語句均來自于網絡,因此代表了更廣泛的風格。正是因為數據集中圖片的廣泛性,Conceptual Captions數據集對大量的圖像類型有著更強的適應性。此外,為了保證參考語句的簡潔性、信息量、流暢性和學習性之間的平衡,谷歌開發出了用于提取、過濾和轉換候選圖像-描述對的自動管道。
驗證機器學習模型的結果是檢驗模型有效性的重要手段,使用人工評估模型的結果成本過于昂貴,所以對模型結果進行自動評估尤為重要,本小節將會介紹圖像描述領域的評價指標。目前圖像描述領域常用的評價指標有BLEU[37]、METEOR[38]和CIDEr[39]。
2.2.1 BLEU
IBM公司在2002年提出BLEU(Bilingual Evaluation Understudy,BLEU),提出初期主要用于機器翻譯任務的結果評估。這是一種基于準確率的評價標準,通過比較待評價語句的n-grams和參考語句的n-grams,并且計算二者匹配的數量從而得出評價結果。參考語句和待評價語句n-grams的匹配項是位置獨立的,匹配的數量越多,表明待評價語句的翻譯質量越高。公式可以表示為:
(1)
其中,Candidates代表所有待評價語句,評估時可能有多個語句,所以ΣC∈{Candidates}代表所有待評價語句;Σn-gram∈C表示統計每個待評價語句的n-gram;Countclip(n-gram)代表隨機的一個n-gram在待評價語句中出現的次數;Count(n-gram')代表參考語句中n-gram的總數。另外,BLEU中引入了懲罰因子BP,確保待評價語句必須在語句長度、單詞選擇和單詞順序上均與參考語句相匹配,有效減少短句的精度過高的問題。
2.2.2 CIDEr
CIDEr(Consensus-based Image Description Evaluation)是圖像描述領域的專用評價標準,用來衡量圖像生成的文本描述和人類描述的相似性。CIDEr通過計算每個n-gram的TF-IDF權重,得到的權重就是待評價語句和參考語句之間的相似度,根據相似度的高低判斷生成的圖像描述質量的效果。計算權重的公式表示為:
(2)
其中,gk(sij)代表n元組ωk的TF-IDF加權;hk(sij)代表一個n元組ωk出現在人工標注語句sij中的次數。Ω代表包含所有n-gram的詞匯表;I代表數據集中所有圖像的集合。簡單地說,TF對參考語句中經常出現的n-gram具有更高的權重,而IDF減少了數據集中所有圖像中經常出現的n-gram的權重。
CIDEr考慮了自然語句的準確率與召回率,通過計算待評價語句和參考語句的平均余弦相似度, 得到n元組的CIDEr評分,計算公式如下:

(3)
其中,gn(ci)是gk(ci)生成的向量,表示長度為n的所有元組,gn(Sij)則是n元組ωk的TF-IDF權重gk(Sij)生成的向量?!琯n(ci)‖和‖gn(Sij)‖代表相對應的向量的模。與BLEU相比,CIDEr在評估方面的效果更好,因為BLEU認為相匹配的單詞重要性相同,但實際情況是個別單詞有更高的重要性。
2.2.3 METEOR
METEOR(Metric for Evaluation of Translation with Explicit Ordering)是在BLEU提出后推出的評價標準,最初也是在機器翻譯領域中使用,該方法通過計算單個單詞的準確率與召回率的加權調和平均數,從而得到最終得分。和BLEU相比,METEOR通過調整相關參數,實現了對訓練數據的優化,實驗表明,這種優化改善了評估結果與人類判斷之間的相關性。METEOR評估得到的分數越高,表明生成的圖像描述效果越好。得分公式可以表示為:
score=(1-Pen)·Fmean
(4)
其中,Pen代表懲罰系數,表示兩個字符串中匹配的單個語句中單詞順序的相同程度,懲罰系數的公式表示為:

(5)
其中,γ(0≤γ≤1)決定最大懲罰值,ch代表最小的詞片段,m代表詞庫提供的校準值。
圖像描述經過這些年的發展,在技術上取得了巨大的進步,在未來的人工智能領域,圖像描述也會逐漸占據十分重要的技術地位。然而目前圖像描述技術還面臨著幾個挑戰,本章基于現有的圖像描述研究方法,對圖像描述工作做出如下展望。
目前基于預訓練模型的圖像描述方法受到廣大研究者的青睞,近幾年在CV領域、NLP領域、多模態領域等出現了效果極好的預訓練模型,該方法不需要調整模型結構,只需要在圖像描述任務中使用就能獲得極高的正確率。然而預訓練模型的遷移能力有限,對于數據集規模較小的下游任務,使用預訓練模型可能導致高估或低估的問題。并且對于有中間任務的目標任務來說,可能出現遺忘預訓練知識的現象,所以更好的預訓練模型可以提高圖像描述的準確性。
圖像描述的解碼端用于生成最終的文本輸出,高效的生成模型可以大大提高圖像描述的準確率,目前許多工作都在解碼端對生成模型展開創新,取得優異的效果。良好的生成模型可以提高輸入特征的使用效率,在高維空間完成圖像與文本特征的匹配。因此,在圖像描述任務中,創新生成模型具有很高的研究價值。
近些年圖像描述發展迅速,生成的圖像描述不僅有正確率的要求,而且也在慢慢向多樣化靠攏。然而現有的評價指標已經無法對這些要求做出準確的評估,甚至隱約已經開始制約圖像描述技術發展。當前圖像描述領域的許多評價指標都是從機器翻譯領域借鑒而來,缺乏專門適用于圖像描述領域的評價指標,構建圖像描述的評價指標是未來的重點任務。
從概述圖像描述的發展歷程出發,逐一介紹了圖像描述的相關數據集、評價標準以及相關方法,并對使用深度學習方法的實驗結果進行分析比對。從早期的模板填充、檢索,到如今廣泛使用的深度學習,方法的創新帶來了圖像描述效果的顯著提高,使用深度學習方法的準確率居高不下。然而即使在深度學習的方法下,圖像描述仍然存在著一些問題,在小型數據集上預訓練模型的遷移能力受限、圖像描述應用領域的狹窄、生成圖像描述風格的單一、評價指標的落后等都是亟待解決的問題。在社會生活中,圖像描述也有非常重要的社會意義,輔助視障人士、自動生成影像報告、智能家居等技術都為提高社會舒適度做出了重要貢獻,在未來,圖像描述任務仍然是一個極為重要的研究方向。