岳毅然 李霆鋒 陳鑫銳 李煜



摘要:本文基于殘差網絡和長短期記憶網絡,利用AI Challenger圖像中文描述挑戰賽的數據集,借助前人的研究基礎,對圖像描述模型的網絡結構及參數進行優化和改進,并加以對比試驗,通過恰當的評價指標探究模型網絡結構對圖像語義信息處理和描述匹配生成效果的影響,為提升標注準確度、流暢度提供參考依據。
關鍵詞:圖像描述? 深度殘差網絡? 長短期記憶網絡
前言
近年來,隨著深度學習在CV(Computer Vision,計算機視覺)和NLP(Natural Language Processing,自然語言處理)領域的發展和智能科學技術的突破,深度學習中的卷積神經網絡(Convolutional Neural Networks,CNN)成為了人工智能領域的熱點話題。其中,深度殘差網絡(Deep Residual Networks,ResNet)是卷積神經網絡模型算法中最典型、最成功的算法之一,它是應用最為廣泛的特征提取網絡,具有權值共享、稀疏連接、網絡結構更類似于生物神經網絡等特點。
圖像描述——看圖說話(Image Caption)任務是結合計算機視覺CV和自然語言處理NLP兩個領域的一種比較綜合的任務,Image Caption模型的輸入是一幅圖像,輸出是對該幅圖像進行描述的一段文字。這項任務要求模型可以識別圖片中的物體、理解物體間的關系,并用一句自然語言表達出來。圖像描述在搜索引擎優化、自動配字、視障輔助閱讀等廣泛領域有著較高的應用價值。
AI Challenger圖像中文描述挑戰賽數據集是目前規模最大、語言使用和場景最為豐富的圖片中文描述數據集,涵蓋了超過100種復雜生活場景的含有人物的二十萬張帶有標注處理的圖片,其場景復雜度、人物動作復雜度、身體遮擋情況都高于現有的其他數據集;而且,此數據集的語言描述標注更符合中文語言使用習慣。相對于Flickr8k-CN等傳統數據集,該數據集創新性的引入了中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。
本文基于深度殘差網絡和長短期記憶網絡在圖像描述算法模型的應用研究,對傳統的ResNet與LSTM模型進行優化,改進圖片語義信息特征提取、描述語義數據的預處理效果,在AI Challenger圖像中文描述挑戰賽數據集上驗證準確率和有效性。本文主要從圖像信息處理、描述數據處理、語句生成三個部分進行參數優化和網絡結構研究。對整體網絡的卷積核、層數、批大小、學習率、分詞模型等參數或結構進行優化,并針對全連接層傳遞效率較低、干擾到卷積層提取出的局部特征、收斂速率較低等問題,對傳統的ResNet模型進行改進。
1 模型介紹
本研究的模型基于文獻[1]的研究結果,輸入分為圖像和描述兩部分,圖片經過卷積神經網絡提取全連接層的輸入(2048維的向量)然后利用全連接層轉化成256維的向量。由此將圖像的語意空間轉化到了詞向量的語意空間。描述經過嵌入層(Embedding)轉化成256維的向量。而后將上述得到的256維向量拼接在一起,輸入LSTM中,計算每個詞的輸出,根據輸出進行分類,預測下一個詞。完整的流程框架如圖1-1所示。
數據的預處理主要分為圖像預處理和描述預處理兩部分。圖像預處理即提取圖像特征,將圖片輸入ResNet網絡,將最后一層替換成一個恒等映射,獲得在池化層的輸出(即全連接層的輸入,2048維的向量)。
2 實驗過程與效果
2.1圖片語義信息
圖片語義信息部分中,我們分別使用三種層數的深度殘差網絡:ResNet 50、ResNet 101、ResNet 150。其三者的基本結構如圖2-1所示。
在修改與調整中,控制變量訓練批次大?。╡poch)為20,更改采用的模型以及對應的參數和維度量等,其他保持不變,樣例如圖2-2所示。實驗表明,本文使用深度殘差網絡解決了增加深度而帶來的退化問題,從而使增加網絡深度后的網絡性能顯著提高。隨著層數的增加,圖片特征提取效果逐漸上升,語句生成更加順暢、貼合實際。
2.2描述數據處理
在描述數據的預處理部分,本文通過優化描述數據處理步驟中的參數,優化得到的caption.pth,減少模型訓練時間和不必要的計算。主要方式有以下幾種:
(1)丟棄低頻詞(如圖2-3所示):估算得到高頻詞與低頻詞分界公式,將min_appear定為10,減小word2ix,減少訓練時間。
(2)詞語長度限制:為保證整體效率,本文選擇丟棄長度過長的詞組。
(3)padding平均化句長:將不同長度的句子變成同樣長度,設置max_length為30,更加貼合實際需要。
(4)用pack padded sequence函數對padding后的序列進行操作(如圖2-4所示):經過padding操作序列中與許多空白填充值,在計算RNN隱藏元時也會進行不必要的計算,更可能會影響隱藏元的取值。于是針對不同長度的句子,我們按長度進行排序并記錄每個句子長短。對不同的句子,padding成一樣的長度。將上一步的Variable和樣本長度輸入pack padded sequence函數,會輸出一個Packed Sequence對象,這個對象即可輸入到LSTM模型中。
經過實驗,我們發現描述數據處理的優化對實驗結果沒有顯著的影響,但是減少了不必要的計算,減少了大量模型的訓練時間。
2.3模型訓練與描述生成
描述語句的生成部分本文選取了一個RNN網絡,模型中的組成成分有兩個全連接(linear)層:一個嵌入(embedding)層和一個LSTM(RNN)層。其中,LSTM層是Image Caption問題中典型的decoder,用于解碼和生成詞序列。本文在保證收斂性的情況下,保持最佳學習率,調節了優化器的種類,以獲取正確的語句生成效果和更快的訓練速度。樣例如圖2-5所示。
3 結論
通過對上述實驗數據的整理分析,結合相關文獻材料,我們以圖像描述為主體,探索了包括卷積神經網絡、循環神經網絡、深度殘差網絡、長短期記憶網絡等多種模型的結構及其參數調整,對圖像描述生成的圖像信息預處理、描述數據預處理和訓練模型等方面進行了簡單優化。同時,本文僅僅是針對網絡中的部分簡單參數和結構進行了小范圍調整,由于作者水平有限資歷尚淺,本項目的研究時間較短,諸如局部最優、多模型效果對比、優化收斂、深度降維等各方面尚未涉獵到,相信能夠在日后的研究中進一步探索深度學習的奧秘。
參考文獻
[1]劉國鈞,陳紹業. 深度學習框架PyTorch:入門與實踐[M].北京:電子工業出版社,2018:260-281.
[2] Mao J , Xu W . Explain Images with Multimodal Recurrent Neural Networks[J]. Computer Science, 2014.
[3] Karpathy A , Li F F . Deep visual-semantic alignments for generating image descriptions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.
[4] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: A Neural Image Caption Generator[J]. 2014.
[5] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016.
作者簡介
岳毅然(2000年8月-),男,中山大學智能工程學院智能科學與技術專業2018級學生,研究方向:智能科學與技術、數據科學。李霆鋒(2000年3月-),男,中山大學智能工程學院智能科學與技術專業2018級學生,研究方向:智能科學與技術。陳鑫銳(2000年7月-),男,中山大學智能工程學院智能科學與技術專業2018級學生,研究方向:智能科學與技術。李煜(2000年3月-),男,中山大學智能工程學院智能科學與技術專業2018級學生,研究方向:智能科學與技術。