薛先貴 黎路
【摘 要】本文對卷積神經網絡的圖像特征提取技術進行了綜述,探討了它的原理和發展方向,對于它的存在問題給出了相關的建議。
【關鍵詞】卷積神經網絡;圖像特征;特征提取
中圖分類號: TP183;TP391.41文獻標識碼: A 文章編號: 2095-2457(2019)07-0083-002
DOI:10.19694/j.cnki.issn2095-2457.2019.07.033
【Abstract】In this paper, the image feature extraction technology based on convolutional neural network is summarized, its principle and development direction are discussed, and some suggestions for its problems are given.
【Key words】Convolutional Neural Network; Image features; Feature extraction
0 前言
目前,對于流行全球的深度學習,一般來說有三種基本架構:DBN結構,SAE結構與卷積神經網絡結構(CNN),分別活躍于大數據挖掘,數據分類和圖像處理等領域。其中卷積神經網絡結構( CNN)由于在機器視覺方面的突出表現,使之成為圖像處理的不二人選,本文介紹了CNN技術在圖像特征提取中的應用。
1 卷積神經網絡的原理及其經典的四種結構
卷積神經網絡(CNN)是一種局部連接網絡,相對于典型的BP全連接神經網絡來說,具有局部連接性和權值共享性的的特點。這種神經網絡不僅大量的減少了訓練參數,還符合自然圖像中越近的像素對旁邊的像素影響越大的特點。卷積神經網絡的權重共享構成卷積核,并且它與給定圖像做卷積后就可以提取圖像的某種特征。在圖像處理的過程中,通過許多不同的卷積核參數的訓練,就可以自動提取相同圖像的不同圖像特征。
目前,根據卷積神經網絡的發展歷程,共有四種經典結構用于圖像特征提取:LeNet網絡,AlexNet網絡,VggNet網絡,ResNet網絡。
LeNet網絡是在1994年由Yan LeCun提出,也就是第一代卷積神經網絡。LeNet主要用來進行手寫字符的識別與分類,準確率達到了98 ,已經在美國的銀行中投入了使用,被用于讀取北美約10 的支票。AlexNet網絡由 Hinton的學生 Alex Krizhevsky于2012年提出,是 LeNet的一種更深更寬的版本,通過與其他各種圖像識別算法的比較,確定了卷積神經網絡在計算機視覺中的優勢。VGGNet網絡是由牛津大學計算機視覺組和Google DeepMind進一步開發的深度卷積神經網絡[2]。ResNet(殘差神經網絡)由何華明等人于2015年提出。通過殘差學習,可以做到更深的網絡結構,從而存貯更多圖像特征,識別更加精準。
2 卷積神經網絡提取圖像特征的原理
卷積神經網絡識別圖像是將一個完整的圖片經過多次或者并行的自動特征提取,然后把每個圖像特征匯總到一起,在比較相似性之后,可以從高概率完成圖像識別的過程。從本質上說,這是一個深度的自動學習過程,我們前面所定義的圖像特征可能并不適合卷積神經網絡的特征分類,對于卷積神經網絡的提取特征而言,雖然有很多的還原算法試圖理解機器所提取的特征,但是就目前而言,機器所提取的特征不太適合人腦理解,甚至可能找到了人腦所沒發現的圖像特征。
2.1 圖像特征提取技術構成
2.1.1 建立卷積層提取初步特征
卷積層的作用就是提取圖片中的某個初步特征,類似一個濾波器(其細節不完全相同),經過大量的訓練以后,機器自動調整卷積核的值,然后與圖片矩陣做卷積,可以從圖像中提取一定的特征出來,卷積核的數量對初步特征提取有很大影響,但是時間消耗相應地增加。
2.1.2 建立池化層提取主要特征
匯集層連接到卷積層,因此匯集層的輸入是由卷積層和相應的卷積核輸出的原始數據的輸出矩陣。目前,有很多文章指出,不用池化層也不影響特征提取的質量,但是,池化層的主要作用是可以減少訓練參數的數量,降低卷積層輸出的特征向量的維數[3]和減少過度擬合現象,僅保留最有用的圖像信息,并減少噪聲的傳播。
2.1.3 建立一個完全連接的層來匯總每個部分的功能
卷積層和池化層的共同作用下,不僅可以提取圖像特征,同時大大減少原始圖像帶來的參數。最后,我們應用完全連接的層來生成一個等于我們需要的類數的分類器。將權重矩陣相乘,添加偏移值,然后使用ReLU激活函數使用梯度下降方法優化參數。
最后鑒別圖像的圖像特征都提取出來了,就可以從特征的不同和相同出發,用神經網絡的來識別千萬張圖片中的特定一張了。
3 圖像特征提取的發展方向
目前,對這種神經網絡的改進集中于如上所述將圖像特征提取到神經網絡中的過程。首先,對于卷積層的改進有以下幾種:卷積核小型化,1x1卷積,Network In Network,Inception機制,卷積分解(Factorization),反卷積運算等等。例如,Network In Network的主要思想是用小規模神經網絡替換卷積層的線性濾波器[4]。1x1卷積可用于減少信道維數或用于完整卷積網絡,確保卷積網絡可接受任何大小的輸入圖像。并能做逐像素的預測。其次,對于池化層的改進主要有以下幾種:L-P池化,混合池化,隨機池化,Spatial pyramid pooling,ROI pooling。Spatial pyramid pooling在SPP網絡中提出, ROI pooling在Fast R-CNN算法中提出。然后,還有其他功能可以更改網絡的其他部分,例如激活功能。ReLU,ELU,PReLU等取得了良好的效果,其中ReLU及其改進型廣泛應用于卷積網絡。最后,目前發展最快的是網絡結構的改進,比如殘差網絡和DenseNet等結構等等。
4 總結
目前,基于卷積神經網絡圖像分類的應用很多,識別效果非常好。但是,一些迫切的問題目前都沒有解決:首先,還沒有形成一套完整的結構理論或解釋理論。現在許多識別系統都是根據特定的數據庫,然后設計特別的網絡,通過不斷的訓練,同時結合人工來發現最佳的參數和優化算法,這樣應用的局限性比較大,同時也沒有較系統的理論來糾正后期錯誤。第二,現有的算法和結構尚存在一些缺陷。比如對海量圖像進行分類識別時,初始狀態參數以及圖片算法的選取,會對網絡訓練造成很大影響。但不可否認的是,卷積神經網絡在圖像處理領域的統治地位已經牢不可破,更多的可能是,我們需要更好的理論來解釋和控制神經網絡。
【參考文獻】
[1]何立民,萬躍華.數字圖書館中基于內容的圖像檢索關鍵技術[J].中國圖書館學報,2002,28(6):39-43.
[2]佘鵬,甘健侯,文斌,et al.經典深度卷積神經網絡模型在手繪草圖識別中的應用研究[J].云南師范大學學報:自然科學版,2018.
[3]常祥,楊明.基于改進的卷積神經網絡的圖像分類性能[J].重慶理工大學學報(自然科學版),2017(3).
[4]范青.卷積神經網絡中減少訓練樣本時間方法研究[J]. 電腦知識與技術,2016(33):173-176.