屈薇


摘要:深度學習在圖像識別方面的應用方面技術優勢明顯。傳統的方法不能有效滿足當前圖像識別要求,因此,深度學習是圖像識別研究的熱點。基于此,文章論述了深度學習的基本思想,探討了深度學習常用模型,如深度信念網絡、卷積神經網絡算法原理。
關鍵詞:深度學習;圖像識別算法;深度神經網絡;卷積神經網絡
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2019)09-0121-02
0 引言
大數據時代圖像數據規模快速增長,如何從海量圖像數據中快速準確地識別出有價值的圖像數據成為迫切需要解決的問題。基于深度學習借助深度神經網絡構建圖像識別算法,通過分層方式采集圖像的特征信息,自動學習圖像的特征信息,從而高效識別圖像。在此背景下,基于深度學習的圖像識別算法不斷出現,其中具有代表性的算法模型包括深度信念網絡、卷積神經網絡、循環神經網絡這三種。而卷積神經網絡是目前基于深度學習的最為理想的算法模型,文章重點論述了基于深度學習的圖像識別算法。
1 基本思想
作為仿真人腦的計算方式,深度學習的“深度”是其最大特點,這里的深度即包含多個層次的隱含層,深度學習并非傳統的I/O關系而是端對端的關系。如含有n層隱含層的深層網絡S,其各個隱含層可以用表示,其中輸入為I,輸出為O,系統分布式可用,表示,其中表示一種輸入形式,當輸入I為0時,說明輸入I經過逐層變換后,輸入輸出之間的信息沒有丟失,表示每一個隱含層的信息量相等,但這里輸入輸出理論上相等,但在時間中往往更能會丟失,因此需要持續修正系統參數,降輸入輸出之間的誤差降到最低,以獲取I的層次特征表示:。通過多層堆疊將上層輸出設為下層輸入,分級表達數據,通過調節參數減少誤差,這是深度學習的基本思想。
2 基于深度學習的圖像識別算法研究
2.1 通過深度神經網絡重構MNIST數字圖像
MNIST是美國國家標準與技術研究院的大型數據集中的子數據庫,是一個手寫體數字庫,樣本由分辨率為28*28的0到9數字樣本組成。MNIST數據集可以無需做預處理即可應用,因而被作為識別技術研究首選數據庫。
用限制波爾茲曼機建立四層深度信念網絡可以對MNIST樣本進行重新構建。第一步,提取圖像數據的多維特征,通過修正參數降圖像數據I/O之間的信息誤差。第二步,降低圖像維度有效壓縮數據,節約圖像儲存空間。
2.2 通過神經網絡識別MNIST數字圖像
2.2.1 變換層
圖像包含一些固定的特征,且一部分特征與其它圖像的特征相同,卷積神經網絡基于此規律實現權值共享,精簡參數。圖像可以被是為一個平面,保留圖像二維特性,然后采用線性/非線性變換方式對圖像進行處理。
非線性操作即激勵函數,常見的有三種非線性激勵函數。第一:sigmoid函數,當前應用較少,因為神經元激活值在0或1 附近時,區域梯度接近0,在反向傳播時最初幾層權值變化很小,如初始權值過大神經元會快速達到飽和。當神經元處理數據中心非0時對梯度下降動態性將產生負面影響。第二:雙曲正切函數。第三:右一為非線性修正函數,相比前兩個函數非線性修正函數計算更簡潔,因而應用越來越廣泛,但非線性修正函數的大梯度值經過ReLU神經元時ReLU神經元不會被激活,ReLU單元較脆弱。
2.2.2 池化層
卷積提取特征維度高,存在冗余,因此需要降低維度,為實現這個目的可以統計聚合圖像各位置特征。如計算圖像某區域的某特征的最大值、均值,達到降低特征維度的目的,這樣的處理方式成為聚合叫池化。
3 算法分析
文章采用卷積神經網絡自動學習圖像特征,達到識別圖像的目的。傳統圖像識別算法需預處理圖像,有著非常大的不確定性,易受人為因素影響,準確性欠缺,而且需要進行復雜的參數調節。而卷積神經網絡可直接輸入二維圖像在初始圖像中識別出視覺模式,無需太多的預處理,受人為因素影響小。卷積神經網絡時一種端到端學習網絡,識別準確率達99.16%。基于卷積神經網絡的圖像識別算法中計算梯度的值來自于輸入樣本的數目。
根據上個計算公式可知,如樣本數量較少,程序能正常運行,反之則需要消耗大量的計算資源和計算時間,計算速度非常慢,需要大量的硬件空間資源支持。隨機選擇樣本更新參數稱為隨機梯度下降,將造成嚴重的代價損失函數震蕩,帶來較大的數據誤差。
4 softmax回歸
softmax回歸器是logistic回歸拓展形式,logistic回歸通常用來處理二類分類的問題,而softmax回歸器通常用于處理互斥的多類分類任務。訓練集類標簽可以取k個值,輸出一個k維向量,用于表示樣本屬于k個類別的概率值,每一個類別j估算得出的概率值為。
5 深度學習在圖像識別領域的應用趨勢
隨著圖像識別需求的持續增加,深度學習技術的不斷發展,而可以遇見未來,圖像識別中的深度學習應用日益廣泛,朝著智能化方向不斷發展。接下來將論述深度學習在圖像識別領域應用趨勢。
5.1 模型的層次越來越多,模型的結構越來越復雜
基于深度學習應該對圖像特征進行逐層模型構建,假如網絡模型的深度不足將使計算單元快速增加,大幅提高圖像識別的難度,使得需要我們對圖像進行更多的局部區域劃分,導致模型的層次大幅增加。通過對圖像的多層特征進行深度學習,深度學習網絡學習到的特征全局性日益增強,識別還原出來的圖片真實感不斷提升。例如,2012年AlexNet奪得ImageNet圖像識別競賽第一名使用的網模型采用2個全連接層、3個pool層、5個卷積層;2014年GoogLeNet奪得ILSVRC賽事第一名使用的網絡模型采用2個全連接層、16個pool層、59個卷積層。
5.2 深度學習訓練數據規模不斷擴大
當前深度學習模型復雜度呈快速上升趨勢,需要識別的圖像特征大幅增加,這需要深度學習網絡進行規模更多的學習訓練,也就需要更大規模的學習數據來滿足學習訓練要求,從而提高圖像識別準確度。現階段,深度學習算法訓練數據規模主要在幾十萬、上百萬級,Google、百度等大型企業的深度學習模型的訓練數據規模已達千萬級、億級,但還是不能完全滿足快速增加的深度學習訓練需求。
5.3 深度學習模型識別精度不斷提升
隨著深度學習模型的不斷發展,圖像識別精度,識別速度大幅提高。如初期的R-CNN模型處理一張圖像需13秒,準確率53.7%。2015年,Faster R-CNN模型圖像識別速度達17FPS,準確率達78.8%。2016 年YOLO 模型圖像識別速度達45FPS,識別效率、識別精度大幅提升。
6 結語
綜上所述,文章首先針對深度學習的基本思想進行了簡要論述,闡述了基于深度信念網絡對MNIST數據集進行圖像重構的方法,獲得可以表征圖像集最有效的特征。通過構建5層卷積神經網絡識別MNIST圖像。揭示了網絡層次越深代表可以更加準確高效地識別圖像特征。
參考文獻
[1] 楊雄.深度學習在網絡色情圖像識別中的研究與應用[J].佳木斯大學學報(自然科學版),2018,36(06):902-905.
[2] 周宇杰.深度學習在圖像識別領域的應用現狀與優勢[J].中國安防,2016(07):75-78.
[3] 李衛. 深度學習在圖像識別中的研究及應用[D].武漢理工大學,2014.
Abstract:Deep learning has obvious technical advantages in the application of image recognition. Traditional methods can not effectively meet the current requirements of image recognition. Therefore, depth learning is a hotspot in image recognition research. Based on this, the basic idea of deep learning is discussed, and the common models of deep learning, such as deep belief network and convolution neural network, are discussed.
Key words:depth learning; image recognition algorithm; depth neural network; convolution neural network