陳建 許青云 姚宜昌 郭慧林
摘要:隨著大數據時代的到來,一系列深度學習網絡結構已在圖像處理領域展現出巨大的優勢,為了能夠及時跟蹤深度學習在圖像領域的最新發展,文章針對深度學習在圖像處理領域的相關研究。
關鍵詞:深度學習;卷積神經網絡;算法模型;圖像處理
中圖分類號:G4 文獻標識碼:A
一、概述
在當今信息飛速發展,數字圖像已滲透到社會生活的各角落,因此對圖像處理的需求也日益增長。同時身處于大數據時代,數字圖像產生的速度快和規模大,所以針對圖像信息處理任務也相應地被要求具有高效率,高性能和智能化的特點。
深度學習是機器學習研究領域的重要途徑,旨在研究如何從數據中自動地提取多層次特征表示,核心思想是通過數據驅動的方式,采用一系列的非線性變換,從原始數據中提取多層次多角度特征,從而使獲得的特征具有更強的泛化能力和表達能力,滿足了高效圖像處理的需求。
為滿足圖像處理問題的各類需求,以卷積神經網絡為代表的深度學習理論不斷取得突破,本文結合深度學習基本原理,對其在圖像處理領域的算法,模型甚至方法的演化和創新進行重點論述。
二、深度學習
(一)深度學習的背景
神經網絡在二十20世紀50年代被提出,因當時網絡訓練算法理論欠缺、訓練樣本不足和電腦的計算能力不足,神經網絡發展遇到瓶頸。隨著云計算、大數據時代的到來,計算能力的大幅提高可緩解訓練的低效性,訓練數據過擬合的風險降低,再結合無監督逐層訓練策略和BP算法,使得訓練很深層的神經網絡變得可能,深度學習開始被廣泛關注。典型深度學習模型就是深層的神經網絡。多隱層堆疊,每一層都對上一層的輸出進行處理,從而把最初始的輸入與輸出目標之間不太密切的聯系,轉化為更為密切的表示,使得原來僅基于最后一層輸出映射難以完成的任務變為可能,這種學習模式即為自動的“特征學習”。
(二)卷積神經網絡架構
圖像識別是深度學習最早嘗試的領域,其中卷積神經網絡發揮了巨大的作用。一般卷積神經網絡由卷積層,池化層,全連接層這三種類型的層堆疊組成,每個層都有其獨有的特點和作用:
1. 卷積層:提取特征,輸入特征圖 X 與 K 個二位濾波器進行卷積運算輸出 K 個二維特征圖。采用卷積運算有兩點好處:提取相鄰像素之間的局部關系;對圖像上的平移、旋轉和尺度等變換具有一定的魯棒性。
2. 池化層:處理卷積層輸出的結果,對輸入的特征圖進行壓縮,一方面使特征圖變小,簡化網絡計算復雜度;另一方面精簡特征圖,提取主要特征,降低特征表達維度的同時,也對平移和扭曲等較小形變具有魯棒性。
3. 全連接層:連接所有特征,將輸出值送給分類器。
三、深度學習在圖像領域的應用
(一)圖像識別
深度學習技術最先是被應用到圖像識別方向,并取得了引人矚目的效果。Alex 等人提出的 Alex Net 網絡是第一個用于圖像識別的深層卷積神經網絡,后續一系列圖像識別方面的深度學習發展都是以此為基礎,相比于傳統的CNN 結構,Alex Net 網絡變得更深更寬,該網絡由 5 個卷積層和 3 個全連接層依次疊加組成。Alex Net 網絡確立了深度學習(深度卷積網絡)在圖像識別的統治地位,也定義了深度學習模型在圖像處理領域的一般性主體架構———前饋卷積神經網絡:卷積層與池化層多樣化相互堆疊作為特征提取器,隨后連接多層全連接層,作為分類器,信息流方向固定而單一。
(二)圖像取證
圖像的完整周期包含三個部分:圖像獲取、圖像編碼、圖像編輯。
圖像取證的出發點是通過提取圖像在上述三周期中留下的固有痕跡(指紋特性)來分析和理解圖像的操作歷史。
1.深度學習的簡單遷移
目前深度學習在圖像取證方向研究還很少。Baroffio等人直接將圖像識別方向的深度學習模型應用到相機源取證問題中,因為圖像在獲取過程中由不同相機拍攝都會留下相應相機的指紋特性,所以他們采用類 Alex Net 網絡結構的簡單深度學習模型來提取相機的指紋特性并加以分類,取得了 94%以上的相機模式分類的準確率。
2. 網絡輸入
圖像取證不同于圖像識別的地方在于識別是區分圖像內容里的差異,肉眼可以察覺到,而取證則是區分圖像中以微弱信號存在的操作指紋,類間形態的差異微乎其微,所以對于圖像取證問題一般的深度學習模型不能勝任。因此 Chen 等人對深度學習模型做出了一些改變,在類 Alex Net 網絡結構前添加了一個預處理層,放大了取證想要的指紋特征。相比沒有預處理層,實驗結果準確率提升了 7.22%。圖像取證的性質必然決定了網絡輸入的改變,只有放大了想要提取的指紋特征,深度學習模型才能更好地充當一個特征提取和分類器。
3.適應取證的結構
針對一般取證問題,圖像的預處理顯然是必不可少的,但額外添加一個預處理層又顯累贅,所以Ni等人u提出了一種針對隱寫分析取證的深度學習模型,將預處理整合進網絡結構中。Ni等人用30個空間富模型濾波器初始化第一層卷積核,使得第一層卷積操作兼顧預處理功能。僅管取證問題不同于識別問題,但學習模型由繁到簡是個必然的趨勢,相比于圖像識別,深度學習在圖像取證上的研究才剛剛開始,越來越多適應取證的深度學習模型結構將會被提出,簡化圖像取證的流程。
(三)圖像檢測
圖像檢測相比于圖像識別,不僅要識別出圖片中的物體,還要定位物體處于圖片中什么位置。
1.多模塊堆疊
RCNN模型n是利用深度學習進行圖像檢測的第一個深度學習網絡模型,和圖像取證一樣,在研究的初期,單純的深度學習模型并不能實現檢測的目的。RCNN模型由四個模塊組成:Cv用Selective Search算法使每張圖像生成1K}2K個候選區域;C2J對每個候選區域,使用深度學習技術提取特征;C3)將特征送入每一類的SVM分類器,判別是否屬于該類;C4)使用線性回歸器精細修正候選框位置。從中可以看出深度學習模塊只起到了特征提取器的作用,這也是一開始各個領域應用深度學習的出發點,雖然是簡單的運用,但仍然在目標檢測競賽上取得突破性進展。
2.模塊合并
緊接著RCNN模型,Girshick相繼提出了fast RCNN模型和faster? RC NN模型。后續模型充分運用了深度學習知識,將所有模塊逐步整合進深度學習模型中,原本各自單獨的模型整合到一體后可以在網絡訓練時相互約束,共同最小化整個網絡的損失函數,推動整個深度學習網絡朝更好的方向發展。
四、小結
深度學習在圖像領域主要以卷積神經網絡研究為主,但卷積運算注定整個網絡將會有很大的計算量,導致網絡訓練花費時間非常長,改變卷積運算形式簡化計算復雜度也將會成為一大發展方向。
江西教育廳科技項目:大數據時代基于深度學習的車型識別研究與應用(GJJ191193)
參考文獻
[1]丁美昆,徐星琳,蔣財軍.深度信念網絡研究綜述[J].工業控制計算機,2016
[2]常甜甜.支持向量機學習算法若干問題的研究[D].西安:西安電子科技大學,2010.
文章編號:(2021)-16-