李航 厲丹 朱晨 姚瑤 張麗娜


摘要:卷積神經網絡是人工神經網絡與深度學習相結合,從而實現深度學習的方法。其具有良好的容錯性、自適應性以及較強的自學習能力,還具有自動提取特征、權值共享以及輸入圖像與網絡結構結合良好等優勢。基于卷積神經網絡和深度學習的圖像識別系統,首先對不同的圖像進行采集,將采集的得到的結果作為訓練集和測試集。通過卷積神經網絡對采集結果的訓練,得到用來識別的各類特征,識別的結果可以得到圖像的類別信息。
關鍵詞:卷積層神經網絡;深度學習;圖像識別;圖像分類;Alexnet構架
中圖分類號:TP183 文獻標識碼:A
文章編號:1009-3044(2020)10-0196-02
隨著科學技術的飛速發展,圖像識別技術在社會各領域得以應用。圖形識別技術可以作為一項基礎技術應用于如工業零件分類、人臉識別以及手勢識別等。當前的圖像識別也是作為一項十分熱門的技術被大眾所廣泛討論。
深度學習是機器學習的一個新的熱門研究方向,其旨在模仿人類的學習模式,通過對輸入樣本的訓練與測試,由簡及深地提取特征來區分樣本。通過深度學習來進行圖像識別也是如此,通過對于圖像樣本的訓練和測試,對樣本進行分類。本文討論深度學習應用在圖像識別這一課題。
1卷積神經網絡
1.1卷積神經網絡結構
卷積神經網絡與普通神經網絡非常的相似也具有可學習的權重和偏置常量的神經元組成,每個神經元都接收一些輸人,并做一些點積計算,輸出是每個分類的分數,普通神經網絡里的一些計算技巧到這里依舊適用,卷積神經網絡由輸出層、卷積層、池化層、全連接層組成。
輸入層是對于整個神經網絡的一個輸入,通常為一張圖片的像素矩陣。其中,在CNN層次結構中,對于黑白圖片的輸入為一張二維神經元,而對于RGB格式的圖片,輸人為一張三維神經元。
卷積層是卷積神經網絡中最為重要和關鍵的一層。卷積神經網絡中的卷積層由若干的卷積單元所組成。卷積層中的輸入只是上一層神經網絡的一小部分,卷積層將輸入分為一個又一個小區域例如3*3、5*5進行特征提取。第一次的卷積是對低層次的、簡單的特征如線條和邊角等進行提取,之后逐層不斷地提取和壓縮,最后以得到較為高層次的特征。換言之,也就是說對于之前所提取出原始的特征進行逐漸地壓縮、提煉。這樣使我們最后提取到的更加有效、可靠。可以將最后提取出的特征用來分類。卷積層的正向傳播映射為:
全連接層在卷積神經網絡中起到了“分類器”的作用,全連接層的每一個節點都與上一層每個節點連接,也就是把前一層的輸局部特征都綜合起來,變成全局特征,最后計算每一類的得分,進行分類。
2基于卷積神經網絡的圖像識別系統
本文的基于卷積神經網絡的圖片識別系統的實驗過程總體上可分為四點:A、數據集的準備:準備數據集,即為對物品進行拍攝整理或者搜集有關圖像的圖樣。B、計算機模擬訓練:將之前所收集的數據集在分作訓練集、測試集,對于數據集輸入進行訓練。C、進行圖像識別:基于卷積層的神經網絡識別系統對于訓練集可生成圖像識別的模型,以此完成對于圖像的識別。D、輸出顯示:將圖像識別的輸出結果進行顯示。
2.1實驗數據集準備
本文將選取幾種常見的物體圖像進行圖片識別實驗。本次的數據集的樣本主要通過搜集圖片的方式來完成。通過搜集不同角度的、不同光線條件下的同一零件的圖片來準備數據集。對于圖片,也可以通過拍照的方式來獲取樣本進行訓練。我們可以通過自己拍的照片來制作圖片數據集文件來完成訓練集和測試集的準備。本文所采集的圖像部分樣本如圖所示:
2.2模型訓練
在本系統中是用的是Mexnet構架,Alexnet一共有八個權重層,分別是由5個卷積層和三個全連接層組成,每個卷積層和全連接層都會受到ReLU激活函數的作用,在第一個卷積層和第二個卷積層后面連接一個局部響應規范化層,最大池化層作用在第一個卷積層、第二個卷積層和第五個卷積層的輸出上。AlexNet在結構總拋棄了以往的“s”形激活函數,傳統的“s”型激活函數有sigmoid函數和tanh函數:
sigmoid函數具有飽和性,當輸人較大或者較小的時候,輸出的曲線接近平緩,此時梯度幾乎為0,會造成消失的梯度的問題,并且它的輸出均值不為0,可能會造成偏置轉移,會使得后一層的神經元將上一層的輸出的非0均值的信號作為輸入,并且它的輸出范圍在0~1,沒有包含負信息,可能會損失一部分有用的信息。
tanh函數的輸出值的范圍為[-1,1],其輸出均值為0,并且包含了負信息,但是由于它也具有飽和特性,所以也會造成消失的梯度問題。
ReLU的形式為:f(x)=max(0,x),當輸入為正時,輸出值取其本身,此時關于輸入x的導數為1,是一個常數,避免了消失的梯度問題,并且當輸入小于0時,輸出為0,引進了稀疏性,能夠加速訓練,但是由于其輸出均值也大于0,所以也會出現偏置轉移現象,并且由于當輸入小于0時,對應的神經元輸出為0,梯度為0,對應的權重也就無法更新。Mexnet網絡結構圖如下:
2.3進行圖像識別
通過模擬訓練,系統得到了一個圖像識別的深度學習模型。部分識別結果如下圖4所示,其中(a)橡皮鴨的識別結果,(b)為招財貓的識別結果,(c)為茶杯的識別結果。本次實驗訓練集為1000,測試集為300,正確率可以穩定在95%左右。
3總結與展望
本文所研討的是基于卷積層神經網絡的圖像識別系統。通過對于圖像拍攝以及圖像搜集,準備數據集來進行模擬訓練進而實現對于圖像的識別。本系統所研討的方向有較大的應用價值,其可以作為一項基礎的技術在社會各領域都有一定的應用前景。但是有關圖像的種類我們所做的測試還不夠,還可以擴大訓練集。其次對于比較復雜特征的圖形識別做的研討還不夠,仍值得進一步研究、實驗。