999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的圖像識別算法設計與實現

2015-09-26 01:49:16王振高茂庭
現代計算機 2015年20期
關鍵詞:深度結構

王振,高茂庭

(上海海事大學信息工程學院,上海 201306)

基于卷積神經網絡的圖像識別算法設計與實現

王振,高茂庭

(上海海事大學信息工程學院,上海 201306)

0 引言

讓計算機能夠識別出物體,具有類似人類的視覺一直是人工智能追求的一個目標,經過多年的發展,取得了長足的進步,然而卻始不盡如人意。

為了測試圖像識別算法的性能和準確率,研究者們建立了一個準確、足夠龐大的圖像數據庫ImageNet,以這個數據庫為基礎平臺,每年舉辦大規模視覺挑戰賽 ImageNet Large Scale Visual Recognition Challenge(以下簡稱ILSVRC),這是規模最大的圖像識別比賽,基本可以代表計算機視覺領域的最高水準,在2012年以前,圖像識別的錯誤率一直居高不下(26%左右)。

在ILSVRC-2012比賽中,使用卷積神經網絡的算法[1]取得了非常不錯的成績。從此,卷積神經網絡成為這一比賽的主流算法,幾乎所有的隊伍都或多或少地使用了卷積神經網絡,圖像識別所能夠取得的最好的成績都是由深度卷積網絡相關的算法創造的,這從側面反映深度卷積網絡在計算機視覺方面的良好性能。很快地,在一些相關領域,例如人臉識別、手寫字體識別,深度卷積網絡也取得了世界領先的成果。可以說,深度卷積網絡是現在用于圖像識別的最好的算法,這也是本文決定采用深度卷積網絡算法的原因。

從算法本身的角度考慮,卷積神經網絡在卷積層之間使用了共享的參數,這不僅減少了需要的內存大小,也減少了需要訓練的參數數量,提高了算法的性能。同時也幾乎不需要對圖像進行一些預處理或者特征值提取,這是其他一些機器學習的算法所不具備的優勢。

然而,經典的卷積神經網絡算法[1]并沒有對算法進行深入挖掘,卷積神經層的卷積核較大,而且整體結構的層數略少,算法的優勢并沒有完全發揮。為了提高經典算法的識別率并改進算法性能,本文引入了一種使用較小卷積核的結構,并進行修改使得這種新的結構可以簡單地重復使用,這樣既能夠保證網絡的總體深度,又能夠有效地提高算法的識別率。

1 卷積神經網絡的基本概念

卷積神經網絡是深度學習中的常用算法,最早是受到人體的視覺系統啟發提出的[2],后來不斷加以修正[3-5],最終形成為一個非常適合用于處理并識別圖像的多層神經網絡。作為深度學習算法的一個實例,卷積神經網絡在一些介紹深度學習算法的論文中也有所提及[6]。

經典的卷積神經網絡[1]包括卷積神經層、Rectified Linear Units層 (以下簡稱為ReLU層)、Pooling層和規范化層,其結構如圖1所示。

圖1 經典的卷積神經網絡結構

為了對經典的卷積神經網絡算法進行改進,下面首先對卷積神經網絡的這種結構逐層進行介紹,并在一些需要有所改進的地方進行論述。

1.1卷積神經層

卷積是圖像識別中常用的算法,是指輸出圖像中的每個像素都是由輸入圖像的對應位置的小區域的像素通過加權平均所得,這個區域就叫做卷積核。一般而言,卷積核都是正方形的,所以都是用類似m×m的方式表達,這里的m即為區域的邊長。卷積神經層,其實就是對圖像的每個點進行卷積運算,卷積核都被作為訓練參數。卷積神經層可以看作是對輸入圖像進行“抽象”的操作,經過幾次處理之后,能夠提取出圖像的“特征值”。

一般而言,卷積神經層中,卷積核越大,對圖像“抽象”的效果越好,但需要訓練的參數就越多;卷積核越小,越能夠精細地處理圖像,但需要更多的層數來達到同樣的“抽象”效果。只是,較小的卷積核,就意味著更多的ReLU層,也就意味著整個結構更加具有識別力。

經典的結構中,使用了11×11卷積核這樣的較大的卷積核,這樣的神經層引入了很多的參數,雖然保證了最終的效果,但也降低了算法的性能。因此,在本文引入的結構中,僅使用了3×3和5×5這樣的較小的卷積核。

1.2ReLU非線性函數

在經典的結構中,使用的神經網絡激活函數是Rectified函數,在卷積神經網絡中,這樣的神經層一般叫做ReLU。

在文獻[15]中,有關于ReLU的詳細論證,而在經典的卷積神經網絡算法中,也將ReLU與傳統的激活函數進行比較,得出的結論是ReLU能夠減少訓練時間,提高算法性能。深度卷積網絡一般都需要大量的數據進行訓練,以至于使用傳統的激活函數幾乎不能夠配合卷積神經層完成訓練。在這種情況下,ReLU幾乎就是最好的選擇。

在本文中,如非特指,每個卷積神經層之后都用ReLU處理。

1.3Pooling層

輸入圖像經過卷積神經層和ReLU處理之后,圖像中的每個像素點都包含了周圍一小塊區域的信息,造成了信息冗余。如果繼續使用包含了冗余信息的圖像,不僅會降低算法性能,還會破壞算法的平移不變性。

為了提高算法的性能和魯棒性,這里需要對圖像進行二次采樣(Subsampling)。在深度卷積網絡中,這樣的操作又叫做Pooling,即將圖像分成一小塊一小塊的區域,對每個區域計算出一個值,然后將計算出的值依次排列,輸出為新的圖像。如果劃分的區域之間互不重疊,這樣的算法被稱作Non-overlapping Pooling,否則稱為Overlapping Pooling。對每個區域計算輸出的方法也分為兩種:求平均值(一般叫做Sum Pooling,也可以叫做Avg Pooling)或者取最大值(Max Pooling)。這一神經層比較簡單,不需要訓練。另外,這一算法有時會忽略輸入圖像的邊緣部分,這對于算法整體而言也是可以接受的。如輸入圖像為13×13,而Pooling層選取的區域大小為3×3,則最下方和最右方邊緣的1個像素則會被忽略。

在經典的網絡結構中,使用的是可以重疊的、取最大值的Pooling算法(Overlapping Max-Pooling),原因是可以稍微降低過度擬合。在本文中也使用了相似的算法。

1.4規范化神經層(Normalization Layer)

規范化層是為了讓圖像更加具有對比性而設計的神經層,這一神經層的效果類似于對圖像進行“增加對比度”的操作。顯而易見的是,需要一個計算“平均值”的算法,然后按照一定的規則對圖像的每個像素進行調整,使得圖像的主體部分能夠和背景更加具有區分度。目前常用的算法通常是Local Response Normalization[1](以下簡稱LRN),這一算法可以很有效地提高主題部分與其他部分的區分度。

然而LRN并非必要,對效果的提升并不是很明顯,所以在使用深度卷積網絡時,一般只有當卷積核較大,即處理得比較“粗糙”的時候,才會使用LRN。

2 網絡結構的設計

設計卷積神經網絡的結構時,既需要考慮到深度學習算法的一般性,也要針對卷積神經網絡進行優化。在實際設計中,還需要兼顧到拓展性。在一般的深度學習算法中。

2.1網絡深度很重要

在大多數的深度學習算法里,網絡的深度都是很重要的參數[5,8,10],深度卷積網絡也不例外。在文獻[14]中,VGG甚至專門驗證了深度對于結果的影響,他們使用3×3卷積核,然后分別測試了11層、13層、16層和19層的不同網絡結構所能夠取得的結果。雖然訓練的參數有些許的增加(從133M個到144M個),但與正確率提高的幅度相比較,卻是微乎其微的。這也是深度卷積網絡的一個優勢:增加深度并不會引起訓練時間的爆炸性增長,而是一個相對緩慢的增長;網絡所能夠取得的結果卻往往能夠有明顯的改善。

在經典的卷積神經網絡中,網絡的層數雖然多于普通的神經網絡,但由于使用的是卷積核較大的神經層,所以整體的層數略顯不足。

2.2引入的結構

在文獻[7]中,經典的卷積神經網絡使用了11×11的較大的卷積核,雖然,這能夠有效地對圖像進行“抽象”,但訓練的參數較多,限制了整體算法的性能。為了改進算法性能并增加神經網絡的深度,在新引入的結構中使用了卷積核較小的卷積層。同時,為了能夠方便地調整算法,并兼顧算法的拓展性,引入的結構應當可以直接疊加而不必引入新的神經層。為此,在本文中引入的新的結構如圖2所示:

圖2 本文中引入的結構

在圖2所示的新結構中,每個卷積層之后都包含有一層ReLU。

在該結構的首尾處各有一個1×1卷積核的神經層,可以將其理解為“粘合劑”,即通過使用了1×1卷積核的神經層之后,使得與使用任何卷積核的神經層都可以直接相連。

中間使用了3×3卷積核和5×5卷積核的神經層,既可以有效地提取圖像特征值,又保證了這樣的結構不會像較大的卷積核一樣,引入過多的參數。我們也試過用3層3×3卷積核的神經層,二者效果相差不大,但圖2中的結構更易于調整。

2.3網絡的總體結構

在最開始的試驗階段,我們曾經試過用4次圖2中引入的結構,但訓練的時間過長;使用3次圖2中的結構,訓練時間可以接受,但取得的效果不甚理想,因此,在最后設計的結構中,考慮使用一個7×7卷積核的神經層取代原來的結構,這樣既可以保證訓練的時間不至于過長,又能夠有效地降低錯誤率。為此,網絡的總體結構設計成圖3所示的結構。

卷積神經層之后,使用了傳統的全連接型的神經網絡和Softmax回歸,這也是在文獻[1]中使用的經典結構。另外,Softmax的輸出并不是單一的圖像識別分類,而是輸出概率最高的幾個,如此一來就能夠更方便地衡量算法的準確率。

圖3 網絡的總體結構

相比于經典的卷積神經網絡,圖3這樣的結構更容易調整,只要計算資源允許,就可以在網絡中增加圖2中引入的結構。同時,這樣的結構從卷積神經網絡的出發點——提取圖像的特征值的角度考慮,抽象能力也更強。

3 實驗結果與分析

在實現算法并驗證其有效性時,需要首先選定一個足夠龐大、精細的圖像數據庫,之后在這個數據庫里甄選有代表意義的圖像。同時也需要確定較為精準的算法優劣的判別標準,這樣就能夠與當前的世界先進水平進行對比。

3.1圖像的選取及預處理

深度卷積網絡需要大量整理好的圖像進行訓練,為了有一個通用的圖像數據庫,ImageNet被設計出來并廣泛應用于科研領域。同時ImageNet還會在每年舉辦的ILSVRC中,選取出進一步整理的圖像用來測試算法。

ILSVRC-2014的分類比賽中,共計提供了1000個類別的約120萬幅圖像用作訓練,5萬幅圖像用作校正,10萬幅圖像用作測試。雖然,這對于物體識別這一宏偉目標相距甚遠,但對于實驗,這樣的深度卷積網絡一般就足夠了。實際上,訓練全部圖像需要有不錯的機器設備性能和很長的時間,因此在實際實現中并沒有選取全部的圖像,而是挑選了其中100個類別的共計99858幅圖像訓練(針對每個類別挑選1000幅圖像,但某些類別不足1000幅)和2000幅圖像用作測試。

在使用卷積神經網絡處理之前,需要先對圖像進行預處理。由于圖像的大小直接關系到卷積核的選取,因此不宜太大;如果圖像太小,又會引起圖像關鍵細節的丟失。一般選取256×256像素作為圖像的標準大小。預處理時,可以將圖像的寬或者高之中較小的一個縮放到256像素,之后按比例調節圖像大小,然后裁剪出居中的224×224像素的部分作為算法的輸入。

3.2判別標準

衡量圖像識別算法效果的優劣,一般都是計算錯誤率。在本文中,由于選取的圖像是從ILSVRC中選取,所以為了能夠方便地將算法的結果和國際領先水平相比較,也引入了相同的錯誤率算法。在ILSVRC中,比較不同隊伍間的成績是計算兩種錯誤率:Top-1錯誤率和Top-5錯誤率。Top-5錯誤率是指將算法輸出的結果與圖像的標簽進行比較,如果輸出的前5個結果中有任何一個命中 (不考慮順序),即視為正確。Top-1錯誤率是指將算法的第一個輸出和圖像的標簽作比較,相同則視作正確。

3.3程序框架

實現深度卷積網絡已經有了成熟的框架,本文實驗使用的是Caffe[9]。Caffe是一個可讀性、簡潔性和性能都很優秀的深度學習框架,并且直接集成了卷積神經網絡神經層。由于深度卷積網絡本身的特性,有時候用GPU加速運算可以大大縮短算法訓練時間,Caffe也提供了相應的接口。

使用Caffe實現卷積神經網絡時,需要預處理數據,然后根據設計好的網絡結構配置相應的文件,即可使用Caffe訓練并測試結果。

3.4結果分析

在得出本文算法測試結果后,與ILSVRC一部分具有代表性的算法及其結果[11-12]進行對比,如表1所示。

表1 實驗結果與ILSVRC結果對比

在表1中,除最后一行所示算法(ISI),都使用了深度卷積網絡。可以看出,卷積神經網絡所得到的結果還是相當理想的。其中,排名靠前的算法都使用了卷積核較小的神經層:VGG使用的全是3×3卷積核的神經層,而GoogLeNet設計了一種比本文中的結構更加復雜的模塊,并使用了更深的網絡結構,所取得的結果也是目前所能夠取得的最好的結果。

從錯誤率的角度來看,對比也是相當明顯的。最初將神經網絡應用于ImageNet識別的文獻[1]中所得到的Top-5錯誤率是16.4%,遠遠超過當時沒有使用深度卷積網絡的算法(26.2%)。隨后,經過兩年的研究和完善,現在所取得的最好的成果已經可以達到6.67%的錯誤率。這樣的成果是相當振奮人心的,甚至在文獻[13]中將這一結果和普通人識別ImageNet的結果相比較,結果是普通人識別的錯誤率在5%左右,最好的深度卷積網絡算法的結果已經比較接近人識別的錯誤率水平。

4 結語

本文引入的新的卷積神經網絡結構能夠有效地提高圖像識別的準確度,并具備良好的擴展性。對比經典的卷積神經網絡,不僅在算法的效果上有所提高,而且訓練的參數有所減少,訓練所需的時間更短。雖然距離當前世界先進算法的水平尚有些差距,但算法的準確率依舊比傳統的圖像處理算法高出許多,今后,將繼續在這方面進行深入研究。

[1]Alex Krizhevsky,Ilya Sutskever,Geoff Hinton.Imagenet classification with deep con-volutional neural networks[J].Advances in Neural Information Processing Systems 25,2012:1106-1114

[2]DH Hubel,TN Wiesel.Receptive fields,binocular interaction,and functional architecture in the cat's visual cortex[J].Journal of Physiology(London),1962,160:106-154

[3]K.Fukushima,Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202

[4]Y.Le Cun,L.Bottou,Y.Bengio,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[5]Y.LeCun,B.Boser,J.S.Denker,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.

[6]Yoshua Bengio,Learning Deep Architectures for AI[J].Machine Learning,2009,2(1):1-127.

[7]Glorot X,Bordes A,Bengio,Y.Deep sparse rectifier networks[C].Proceedings of the 14th International Conference on Artificial Intelligence and Statistics.JMLR W&CP Volume,2011,15:315-323.

[8]Yoshua Bengio,Aaron Courville,and Pascal Vincent,representation learning:A review and new rerspectives[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2013,Issue No.08-Aug.(2013 vol.35):1798-1828.

[9]JIA Yang-qing,Shelhamer Evan,Donahue Jeff,et al.caffe:convolutional architecture for Fast feature embedding[EB/OL].2014,arXiv preprint arXiv:1408.5093

[10]Know your meme:We need to go deeper[EB/OL][2014-12-01].http://knowyourmeme.com/memes/we-need-to-go-deeper

[11]Christian Szegedy,Wei Liu,Yangqing Jia,et al.Going deeper with convolutions[EB/OL][2014-09-17]arXiv:1409.4842v1[cs.CV]

[12]Olga Russakovsky,Jia Deng,Hao Su,et al.ImageNet Large Scale Visual Recognition Challenge.?[EB/OL],2014,arXiv:1409.0575

[13]Andrej Karpathy.What I learned from competing against a ConvNet on ImageNet[EB/OL][2015-01-24].URL:http://karpathy.github. io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[14]Karen Simonyan,Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[EB/OL],[2014-11-18]. arXiv:1409.1556v3[cs.CV]

[15]V.Nair,G.E.Hinton.Rectified linear units improve restricted boltzmann machines[C].In Proc.27th International Conference on Machine Learning,2010

Convolutional Neural Networks;Deep Learning;Image Recognition;Machine Learning;Neural Network

Design and Implementation of Image Recognition Algorithm Based on Convolutional Neural Networks

WANG Zhen,GAO Mao-ting
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

國家自然科學基金項目(No.61202022)、上海海事大學科研項目

1007-1423(2015)20-0061-06

10.3969/j.issn.1007-1423.2015.20.014

王振(1990-),男,江蘇沛縣人,碩士研究生,學生,研究方向為機器學習、深度學習,Email:wangzhen@gra.shmtu.edu.cn

高茂庭(1963-),男,江西九江人,博士,教授,研究方向為智能信息處理、數據庫與信息系統

2015-06-19

2015-07-01

卷積神經網絡在圖像識別領域取得很好的效果,但其網絡結構對圖像識別的效果和效率有較大的影響,為改善識別性能,通過重復使用較小卷積核,設計并實現一種新的卷積神經網絡結構,有效地減少訓練參數的數量,并能夠提高識別的準確率。與圖像識別領域當前具有世界先進水平的ILSVRC挑戰賽中取得較好成績的算法對比實驗,驗證這種結構的有效性。

卷積神經網絡;深度學習;圖像識別;機器學習;神經網絡

Convolutional neural networks has achieved a great success in image recognition.The structure of the network has a great impact on the performance and accuracy in image recognition.To improve the performance of this algorithm,designs and implements a new architecture of the convolutional neural network by using convolutional layers with small kernel size repeatedly,which will reduce the number of training parameters effectively and increase the recognition accuracy.Compared with the state-of-art results in ILSVRC,experiments demonstrate the effectiveness of the new network architecture.

猜你喜歡
深度結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
深度理解一元一次方程
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
深度觀察
深度觀察
深度觀察
深度觀察
論《日出》的結構
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
主站蜘蛛池模板: 极品国产在线| 国产乱人免费视频| 国国产a国产片免费麻豆| 亚洲av日韩av制服丝袜| 日本一本在线视频| 国产成人三级在线观看视频| 青青久视频| 日本欧美精品| 久久精品免费国产大片| 中日无码在线观看| 午夜视频www| 日本欧美在线观看| 专干老肥熟女视频网站| 久久国产精品嫖妓| 在线看片国产| www.精品视频| 亚洲一区精品视频在线| 亚洲欧美另类日本| 国产人人射| 国产精品污视频| 日本精品影院| 亚洲aⅴ天堂| 欧美成人午夜影院| 国产69囗曝护士吞精在线视频| 啪啪永久免费av| 午夜成人在线视频| 国产伦片中文免费观看| 精品国产污污免费网站| 亚洲VA中文字幕| 欧美伊人色综合久久天天| 亚洲无线视频| 黄色网站在线观看无码| a级毛片免费播放| 色国产视频| 亚洲中文字幕久久无码精品A| 欧美va亚洲va香蕉在线| 国产欧美自拍视频| 欧美激情伊人| 国内嫩模私拍精品视频| 中文无码精品A∨在线观看不卡| 成年免费在线观看| 欧美一区国产| 广东一级毛片| 久久亚洲国产一区二区| 婷婷午夜天| 国产精品福利社| 欧美一级高清片欧美国产欧美| 久久久久中文字幕精品视频| 一本大道香蕉中文日本不卡高清二区 | 国产偷国产偷在线高清| 国产资源免费观看| 999在线免费视频| www.国产福利| 亚洲bt欧美bt精品| 在线无码九区| 99热这里都是国产精品| 99精品在线看| 日韩成人午夜| 亚洲欧洲日产国产无码AV| 777午夜精品电影免费看| 欧美视频在线观看第一页| 欧美视频免费一区二区三区| 久久久噜噜噜| 久久香蕉国产线看观| 国产人成网线在线播放va| 日韩a级毛片| 国产精品区网红主播在线观看| 一级黄色网站在线免费看| 黄色片中文字幕| 国产毛片高清一级国语| 国产无码网站在线观看| 黄色在线不卡| 99视频在线免费| 中文无码伦av中文字幕| 亚洲男女在线| 久久综合干| 亚洲人成色在线观看| 九色视频线上播放| 国产三级a| 四虎综合网| 久操中文在线| 色婷婷电影网|