摘要:圖像理解是計算機視覺領域一個非常難的科學問題,傳統的圖像處理方法很難給出比較有效的解決方案。深度學習技術相比于傳統圖像處理分析技術具有獨特的優勢,因此其在圖像理解任務中獲得了比較好的結果。本文對基于深度學習的圖像理解技術的研究現狀進行了分析與對比,并對后續的發展進行了展望。
關鍵詞:圖像理解;深度學習;深度神經網絡;計算機視覺
一、概述
圖像視覺信息是人類感知外部世界的重要信息來源,研究表明人類感知信息80%來源于視覺。視覺信息具有多樣、靈活、多變等特點,包含的信息量大而豐富,人類可以通過發達的大腦快速的處理視覺信息,并給出其語義理解。
然而計算機在圖像理解方面卻很難做到這一點,一方面由于圖像信息量過大,而計算機計算能力有限;另一方面由于早期的視覺信息處理技術不能夠滿足圖像理解的需求[1]。
二、基于深度學習的圖像理解技術
傳統的圖像理解技術只能實現圖像的識別與分類等初級任務,然后利用識別的結果進行分析處理,并未達到利用計算機對圖像進行直接理解的層面。深度學習提出以后,圖像理解技術有了一個質的飛躍,從傳統的簡單識別圖像到能夠讀懂圖像所表達的內容。基于深度學習的圖像理解技術主要有三類:早期主要是采用基于檢索的方法;隨著技術的發展,基于模板技術的圖像理解方法被提出;近年來更加有效的端到端方法,能夠更加有效的實現對圖像內容的理解。
基于檢索的圖像理解方法,通過深度網絡提取圖像的特征信息,然后從已有的圖像信息庫中檢索對應的相似圖像,從而獲得圖像的詞語表達,這就要求圖像數據庫要具有豐富的種子信息[2]。
基于模板的圖像理解方法通過圖像目標識別以及語言模型兩個模塊完成圖像的理解。圖像目標識別算法檢測出圖像中所包含的目標關鍵詞,然后利用語言模板生成完整的句子。這兩部分具有相對的獨立性,目標檢測算法負責圖像內目標的識別,可單獨進行訓練;語言模型利用目標識別結果生成合理的句子,語言模型的訓練同樣可單獨進行。然而在這種方式下,圖像目標的檢測與語言的生成是脫節的,語言模型無法根據圖像的背景信息等,對圖像進行綜合的表達。
基于端到端的圖像理解技術,能夠實現輸入圖像到語言表達的一體化訓練,從而克服了基于模板的圖像理解技術的缺陷,利用深度神經網絡,建立輸入圖像與目的標注之間的映射,基于端到端的圖像理解模型包括NIC模型、基于注意力的圖像理解模型、稠密圖像標準模型等等。在建立輸入圖像與語言模型之間的映射關系時,主要還是利用目標檢測技術實現目標的檢測,并用于語言模型的生成,只是這兩部分被有機的統一在一起,實現網絡的一體化訓練,從而實現網絡對圖像更好的理解。在對圖像進行理解的過程中,圖像內的目標固然很重要,而背景信息有時也起決定性作用,因此背景信息的使用也是不可忽視的[3]。如下圖是所示,如果不根據背景信息判斷所選區域,計算機算法將認為所選部分為個人臺式電腦,而如果采用背景信息,則可判斷所選區域為一座現代大樓。
單個句子或是多個短語往往很難將圖像內的所有信息進行有效的表達,隨著技術的發展,圖像段落化描述技術被提出,通過該模型能夠將圖像內所表達的內容利用多個句子進行描述,包含了圖像內眾多的細節信息,相比與單個句子、多個短語的表達方式,基于段落的表達能夠更好地表達圖像的信息,如下圖2所示為圖像的段落描述[4]。
一個男人在一條街道上駕駛著一輛馬車,兩個人坐在馬車上,馬車是木質的,馬車是黑色的,背景建筑是白色的。
三、發展前景
盡管深度學習技術使計算機圖像理解取得了大幅的進步,但與人眼相比差別還是非常大,并且還有很多待解決的問題,如計算機的表達很僵硬,并且經常會出現重復性的表達;圖像中的小的細節容易被忽略掉,而影響了圖片所表達的內容等等。因此,學者們也都在不斷的改進和提出新的模型,以改善和解決現有模型所出現的問題,從而實現計算機通過視覺理解場景內容。
參考文獻:
[1]鮑泓,徐光美,馮松鶴,等.自動圖像標注技術研究進展[J].計算機科學,2011,38(7):35-40.
[2]霍華,趙剛.基于改進視覺詞袋模型的圖像標注方法[J].計算機工程,2012,38(22):276-278.
[3]邱澤宇,方全,桑基韜,等.基于區域上下文感知的圖像標注[J].計算機學報,2014,37(6):1390-1397.
作者簡介:
張彩霞,機械設計及理論專業碩士,工程師,威海職業學院,機械制造與制造專業,教師。