袁啟旺 蘆健秋 戶傳真 涂小雅 周志文
淮陰工學院管理工程學院 江蘇淮安 223003
圖像字幕生成是繼圖像識別、目標定位、圖像分割后又一新型計算機視覺任務。在計算機視覺發展的初期,研究者們嘗試利用計算機程序來模擬人類視覺系統,并讓其告訴我們它看到了什么,這也就是最基本的圖像識別。圖像字幕生成是按順序執行以下關鍵任務。首先對圖像中不同物體的特征進行適當提取后提取特征,然后識別物體之間的關系(即如果物體是施工機械和土,則識別施工機械是否在土上)。一旦檢測到對象并識別出關系,現在就需要生成文本描述,即根據圖像對象之間的關系將單詞有序地排列成一個語句。圖像字幕是自動生成類似于人類圖像描述的過程,在應用計算機視覺的眾多領域應用廣泛。圖像字幕不僅識別物體,更要識別物體之間的交互活動及其場景,并據此生成圖像的語句描述。機器在圖像字幕生成中獲得與人類相當的結果和精度,一直是非常具有挑戰性的任務。深度學習起源較早,是機器學習(Machine Learning,ML)領域中重要的研究方向,來源于人工神經網絡(Artificial Neural Network,ANN)研究,其實質是通過構建機器學習模型和利用海量訓練數據,逐層調整特征參數,以提升分類或者預測精度。近年來,高性能顯卡以及集群服務的發展,推動了深度學習方法在各研究領域中的深度應用,基于深度學習的圖像字幕技術也隨之獲得了跨越式的發展。基于深度學習方法的關注重點則放在了語言模型的應用與改進中。
圖像字幕生成過首先對語言進行建模。與圖像特征提取類似,語言建模是計算機視覺應用研究的一項基礎性工作,廣泛應用于各種自然語言處理問題,如語音識別、機器翻譯、詞性標注等。一般而言,語言建模就對圖像進行特征提取后得到的信息用來進行確定某項信息與某一語句語義符合概率的模型。通過語言建模,可以確定可能性更大的詞匯序列,或在給定若干詞匯的條件下,預測下一個最可能出現的詞語。圖像字幕生成建模首先需要對圖像進行特征提取、對象檢測、場景及其他屬性提取,然后利用統計模型將這些屬性與自然語言聯系起來。目前這一過程通過深度學習網絡實現,如為獲得圖像不同區域的視覺特征和對象CNN,可以使用RCNN、Faster-RCNN,按順序生成文本描述可以使用RNN或LSTM。不同領域多是基于利用這些常用神經網絡方法及其組合開發出適用于不同行業、執行不同領域特定任務的圖像字幕生成方法。
目前,在不同領域基于不同任務采用圖像字幕生成方法差異較大,其運算效率和字幕描述效果也有顯著差異。為此,本文檢索國內外知名數據庫從2019年至2022年所有相關研究文獻,對比、分析不同研究領域所采用的圖像字幕生成的方法及數據集類型,并提煉各方法和評估矩陣等技術細節。
本文首先對文獻進行系統分類,在設計檢索策略及設計質量評估標準的基礎上,確定數據提取策略。
首先,本文提出兩組搜索關鍵詞,第一組為圖像字幕生成,第二組為深度學習、神經網絡、卷積神經網絡、循環神經網絡及長短期記憶理論。其次,運用科學的方法從不同的學術數據庫中檢索結果。根據關鍵字組成在IEEE Xplore、Web of Sciences、Scopus及知網等著名學術數據庫上應用了被引用的搜索查詢字符串來搜索文章。我們采用了2019—2022年期刊中最新發表文獻,經去除重復文獻,并剔除了音頻字幕或視頻字幕等與本研究主題無關的文獻后,得到467篇文獻。
在對較為模糊、抽象篩選不充分的文獻進行全文篩選之后,本研究提出質量評價標準,具體為文獻必須在期刊上發表;文獻提出了一個合適的方法來實現使用深度學習的圖像字幕生成;文獻必須有清晰和明確的結果;文獻必須討論圖像字幕生成技術的應用與不足;必須討論模型的評價策略。然后根據上述質量評估標準問題評估了467篇文獻,并通過全文篩選,我們從所有數據庫中找到了86篇文獻。
本研究基于研究問題定義了數據提取策略,并據此進一步對篩選后的86篇文獻提取數據并進行最終匯總。為用于進一步匯總,確定提取的主要參數為:發表年份、標題、用于語言生成和對象檢測的模型、用于實現模型的方法、使用的數據集、用于評估目的的評估矩陣以及最終提出的模型的精度。進而總結出從數據提取中得到的事實,并為后續研究提供指導與參考。
以往研究表明,有許多數據集可用于執行圖像字幕生成。文獻中最常用的數據集是MS COCO和Flicker 8k和30k,對于專業性很強的圖像字幕應用領域的文本描述,如醫療或交通領域,一般會有自己創建的專用數據集。
2.1.1 MSCOCO
MSCOCO代表場景中的共同對象,因包含非標志性圖像,非常適合用于圖像字幕。數據集的“Karathy”數據分割方式被廣泛采用,該分割包含113287個訓練圖像,5000張驗證圖像,以及5000張測試圖像,每個樣本圖像有5個長度不定的真實字幕文本。當前,絕大多數的圖像字幕生成方法的研究在各自的實驗中均使用該數據集。
2.1.2 深度學習網絡
用于圖像的深度學習網絡一般為卷積神經網絡(CNN)。目前,CNN被認為是將圖像數據映射為輸出變量的最佳方法。有各種各樣的預構建模型利用CNN的這一特性,如常用于圖像中物體檢測和定位的循環神經網絡(RCNN)、快速循環神經網絡(RCNN)等。這些模型不僅用來分類任務,而且被用于理解圖像內容,理解圖像數據之后,就需要預測單個詞匯的順序來生成特定圖像的語言文本。在詞匯序列預測方面,RNN和長短期記憶(LSTM)最為被經常采用。對于圖像字幕生成建模,CNN與RNN或LSTM一起使用,其中CNN多用于理解圖像內容,RNN或LSTM多用于文本描述生成。在文本預測網絡的BLEU-1性能方面,LSTM方法的準確性明顯優于RNN。
2.1.3 卷積神經網絡(CNN)
卷積神經網絡(Convolutional Neural Networks,CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks)。卷積神經網絡具有表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類。作為深度學習的一種數據提取與轉換算法,CNN的兩個主要功能是卷積和池化。CNN中的卷積用于檢測圖像的邊緣,池化則用于減小圖像的大小。通過基于濾過值將圖像方法,將一種稱為核矩陣或濾波器的一個小數量矩陣與圖片實現轉換與濾過。CNN通常用于處理圖像且處理效果優于人工神經網絡(ANN)。
2.1.4 循環神經網絡(RNN)
由于CNN在前一個輸入和下一個數據之間沒有任何形式的聯系,當輸入數據相互關聯時,CNN執行效率較低。RNN對具有序列特性的數據非常有效,它能挖掘數據中的時序信息以及語義信息。從網絡結構上,循環神經網絡會記憶之前的信息,并利用之前的信息影響后面結點的輸出。RNN的記憶特性能夠提醒數據中先前發生的事情,這也就意味著建模時需要更為前置的輸入,進而要求RNN在文本上是相互關聯的順序數據,最終表現為RNN運算效果最優。
2.1.5 長短期記憶網絡(LSTM)
LSTM是RNN的一種變體,區別在于它在算法中加入了一個判斷信息有用與否的“處理器”。爆炸梯度、消失梯度和長期依賴是簡單RNN的兩個明顯不足。LSTM使用“門”這一核心概念來記憶過去的事件或活動。在LSTM中“門的”種類一般有輸入門、遺忘門和輸出門等三類,均是S型激活函數,一個信息進入LSTM的網絡當中,可以根據規則來判斷是否有用。只有符合算法認證的信息才會留下,不符的信息則通過遺忘門被遺忘。
文獻對比發現,最常見的評價機制是BLEU、ROUGE-L、CIDEr、METEOR和SPICE,且BLEU評分方法是幾乎所有研究中最常用的評價方法。
2.2.1 BELU
BLEU是一個用來衡量機器文本生成質量的指標,是文本生成中廣泛使用的一種評價機制。BLEU將機器生成的文本與一個或多個手動編寫的文本進行比較,其值表征了生成的文本與預期文本的接近程度。BLEU評分主要用于自動機器翻譯、圖像字幕、文本摘要、語音識別等。在圖像字幕生成中,BLEU評分表示生成標題與人工特定圖像標題的接近程度。文獻研究表明,幾乎所有的研究都使用BLEU作為評估矩陣。
2.2.2 METEOR
METEOR主要基于生成單詞的精度與召回率,使用單元詞組精確度、單元詞組召回率、碎片懲罰三部分的組合來計算分數,是用于評估機器翻譯語言的另一種評估方法。METEOR引入了較為靈活的對齊機制,基于單元詞組(unigram)匹配,基于準確率precision和召回率recall的調和均值計算(召回率的權重大于準確率)。該指標用WordNet等知識源擴充同義詞集,同時考慮單詞的詞形,METEOR可以在句子或段落層次上計算相關性,在長文本的評價上具有較好性能。
2.2.3 ROUGE-l
ROUGE-1是一種基于召回率的評估方法,具有明確排序的評估和轉換評價。ROUGE通過將模型生成的摘要或者回答與參考答案(一般是人工生成的)進行比較計算,得到對應的得分。相比BLEU指標,它將單詞序列、單詞對、N-gram與一組參考文本進行比較。ROUGE實質是回憶導向的替補,用于道具評價。
本文詳細分析了用于圖像字幕生成的不同深度學習模型。基于文獻分析,利用數據提取機制對數據進行了提取和深入分析,得到了用于圖像字幕生成的各種不同模型和技術。主要結論如下:
(1)對于圖像內容提取,CNN是最適合的模型,對于語言生成,兩個常用的模型是RNN和LSTM。LSTM算法的性能優于RNN算法。深度學習圖像字幕技術最有效方法是編碼—解碼器、注意機制及其組合方法,可有效提升運算效率與解釋精準度。
(2)最適合用于圖像字幕的數據集是MSCOCO,主要原因在于其包含非標志性圖像。
(3)圖像字幕生成技術應用日益廣泛。如施工現場圖像的智慧工地管理、基于醫學超聲或MRI圖像或血管造影視頻的自動報告文本、基于公司產品制造環境圖像的環境或產品異常警報、基于農作物圖像的作物報告生成,以及基于閉路電視攝像圖像的交通分析報告等。