魏珺潔


摘要:近幾年,隨著人工智能深度學習的不斷發展,計算機視覺領域也逐漸發展擴大,先后出現了圖像檢索、圖像自動標注等新的研究方向。最初為支持圖像檢索而逐漸興起的圖像自動標注技術,可以在一定程度上跨越“語義鴻溝”,讓計算機自動給圖像加上能夠反映圖像內容的語義描述,從而減少人工標注成本。深度學習作為人工智能領域的新技術,其復雜的神經網絡結構能夠在學習到圖像特征后快速輸出結果,如果將深度學習應用于圖像自動標注,將大大節約人工標注時間,降低人工標注成本。文章為探究深度學習在圖像自動標注上的可行性,將以作者的生活照為樣本數據,使用深度卷積神經網絡與深度循環神經網絡進行圖像處理,最后輸出圖像的文字描述。
關鍵詞: 深度學習; 深度卷積神經網絡; 深度循環神經網絡; 圖像自動標注
【Abstract】 In recent years, with the continuous development of artificial intelligence deep learning, the field of computer vision has gradually developed and expanded, and new research directions such as image retrieval and automatic image annotation have emerged. The automatic image annotation technology, which was originally developed to support image retrieval, can cross the “semantic gap” to a certain extent, allowing the computer to automatically add a textual description of the image content to the image, thereby reducing the cost of manual labeling. As a new technology in the field of artificial intelligence, the complex neural network structure of deep learning can quickly output results after learning image features. If applied to automatic image annotation, deep learning will greatly save manual labeling time and reduce manual labeling cost. In order to explore the feasibility of deep learning in automatic image annotation, the article will take the author's photos of life as sample data, use deep convolutional neural network and deep recurrent neural network for image processing, and output the text description of the image.
【Key words】 ?deep learning; deep convolutional neural network; deep recurrent neural network; automatic image annotation
0 引 言
深度學習是一種試圖使用包含復雜結構或由多重非線性變換構成的多個處理行對數據進行高層抽象的算法,深度神經網絡能夠通過多層網絡進行特征學習,從大量的數據中學習規律,從而實現預測、識別等結果[1]。在計算機視覺領域,深度學習不僅能夠實現圖像分割[2]、圖像分類[3]及圖像識別[4],還可以用于圖像檢索[5]、圖像超分辨率重建[6]、目標檢測[7]等方面。
圖像自動標注就是讓計算機自動地給輸入圖像生成能夠反映圖像內容的語義描述。在此過程中,是利用已經標注的圖像作為訓練數據,將訓練數據輸入模型中,使模型在圖像的高層語義信息和低層特征之間建立一種映射關系,從而使用此模型對未知語義的圖像進行自動標注[8]。文章使用的是Vinyals等人[9]提出的Encoder-Decoder模型,該模型中的Encoder為編碼器,是一個深度卷積神經網絡(Deep CNN),常用于圖像識別,目標檢測等領域;Decoder為解碼器,是一個深度循環神經網絡(Deep RNN),常用于語言模型或機器翻譯等領域。文章將圖像數據輸入深度學習Encoder-Decoder模型后,由編碼器負責提取圖像特征,解碼器負責獲取并輸出圖像的文字描述,從而實現圖像自動標注。
將深度學習應用于圖像自動標注技術,可以有效節約人工標注的成本,減少標注時間,提高圖像標注效率。對此可展開研究論述如下。
1 深度學習基礎
1.1 深度卷積神經網絡
卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋人工神經網絡,由輸入層、卷積層、池化層、全連接層、輸出層組成,主要用于圖像識別。相比于淺層卷積神經網絡,深度卷積神經網絡結構較復雜,一般會有幾十個神經層,每一層又會有數百個神經元。深度卷積神經網絡通過將輸入圖像嵌入到固定長度的向量中生成輸入圖像的豐富表示,具有超強的圖像處理能力。
文章使用的深度卷積神經網絡模型為GooLe Net網絡中的Inception v3模型,GoogLe Net中的Inception v1模型[10]通過采用全局平均池化層取代全連接層,極大地降低了參數量,是非常實用的模型。隨后的Inception v2模型[11]中,引入了Batch Normalization方法,加快了訓練的收斂速度。在Inception v3模型[12]中,通過將二維卷積層拆分成2個一維卷積層,不僅降低了參數數量,同時減輕了過擬合現象。
深度卷積神經網絡在Encoder-Decoder模型中充當“編碼器”,先對其進行訓練以完成圖像分類任務,然后將其作為下一個隱藏層(即用作生成語句的解碼器)的輸入,見圖1,Vinyals等人[9]將此結構稱為NIC模型。
2.2 實驗過程
(1)配置實驗環境:本次實驗工具為Anaconda3,Spyder(Tensorflow),實驗環境為Windows10,Python3.6,Tensorflow1.12.0。
(2)導入模型:本次實驗模型是使用“2015 MSCOCO Image Captioning Challenge”的數據集訓練出來的深度學習模型,即上文提到的Encoder-Decoder模型。該模型分為Encoder編碼器和Decoder解碼器兩部分,編碼器負責圖像特征提取的工作,輸入的圖像在Inception v3網絡中能夠被轉化為一個固定長度的向量。通過NIC模型,在編碼器中得到的固定長度的向量將作為解碼器的輸入,最終通過訓練好的LSTM網絡生成對向量的文字描述。
編碼器是Inception v3模型,共有47層,比以往的CNN網絡計算速度更快,對非線性更魯棒。解碼器是LSTM模型,通過輸入大量已經標注的圖像對其進行訓練形成字典,訓練集中的單詞每個至少出現5次,從而使其具有捕獲語義的能力。
(3)導入數據集:從該模型的訓練集中抽取的圖像數據進行實驗,效果較為客觀,所以文中收集了一些生活照作為輸入進行訓練。
(4)運行:在Tensorflow中使用Encoder-Decoder模型對輸入圖像進行編碼與解碼處理,最終輸出輸入圖像的文字描述。
2.3 實驗結果
實驗結果見表1。表1的第一列為輸入圖像,第二列為輸出的文字描述。具體來說,第一列從上至下可描述為:第一張圖像為一個男人站在石墻旁邊;第二張圖像為一個女人懷里抱著一只泰迪熊;第三張圖像為一個拿著傘的女人站在商店前面;第四張圖像為一個年輕的姑娘坐在板凳上。
對于實驗輸出,即仔細觀察每張圖像的文字描述,分析后可知深度學習模型生成的文字描述能夠表達出圖像的典型特征,但是由于該模型的字典容量有限,也未能準確識別出一些特殊的物體。例如:第三張圖像女生手中的棉花糖由于與傘的形狀相似,該模型識別結果為傘,女生身后的裝飾心愿墻識別為商店。
從實驗結果不難發現,Encoder-Decoder這一深度學習模型,確實能夠實現圖像自動標注。
本次實驗能夠證明深度學習在圖像自動標注上的可行性,只是圖像標注的精確程度還有待提高。
3 結束語
圖像自動標注技術是提高圖像檢索效率的重要突破,同時也是人們快速獲取圖像信息的技術手段,而使用先進的深度學習技術來對圖像進行高效自動標注就能夠推動圖像檢索領域的發展。文章實驗使用深度卷積神經網絡與深度循環神經網絡相結合的Encoder-Decoder模型,證明了深度學習實現圖像自動標注的可行性,因此,深度學習能夠實現圖像的自動標注。
然而,深度學習在圖像自動標注上的應用研究時間尚短,個別圖像特征的標注并不精確,模型的字典也未臻至全面。因此,在今后的研究中,則立足于深入研究如何提高深度學習在圖像自動標注中的精確度問題。
參考文獻
[1] ?程冰. 基于卷積神經網絡的自動標注技術的研究[J]. 電子世界,2019(16):124.
[2]張明月. 基于深度學習的圖像分割研究[D]. 長春:吉林大學,2017.
[3]程國建,郭文惠,范鵬召. 基于卷積神經網絡的巖石圖像分類[J]. 西安石油大學學報(自然科學版),2017,32(4):116.
[4]程國建,周冠武,王瀟瀟. 概率神經網絡方法在巖性識別中的應用[J]. 微計算機信息,2007,23(16):288.
[5]岳清清. 深度學習在巖石薄片圖像檢索中的應用研究[D]. 西安:西安石油大學,2019.
[6]LEDIG C, THEIS L, HUSZAR F , et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. arXiv preprint arXiv:1609.04802v1,2016.
[7]程欣. 基于深度學習的圖像目標定位識別研究[D]. 成都:電子科技大學,2016.
[8]鮑泓,徐光美,馮松鶴,等. 自動圖像標注技術研究進展[J]. 計算機科學,2011,38(7):35.
[9]VINYALS O , TOSHEV A , BENGIO S , et al. Show and tell: Lessons learned from the 2015 MSCOCO image captioning challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):652.
[10]SZEGEDY C , LIU W , JIA Y , et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842,2014.
[11]IOFFE S , SZEGEDY C . Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. OALib Journal, 2015,3:448.
[12]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, Nevada, USA:IEEE,2016: 2818.
[13]楊麗,吳雨茜,王俊麗,等. 循環神經網絡研究綜述[J]. 計算機應用,2018,38(S2):1.