999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經網絡及其研究進展

2018-01-05 08:17:32翟俊海張素芳郝璞
河北大學學報(自然科學版) 2017年6期
關鍵詞:方法模型研究

翟俊海,張素芳,郝璞

(1.河北大學 數學與信息科學學院 河北省機器學習與計算智能重點實驗室,河北 保定 071002; 2.中國氣象局氣象干部培訓學院 河北分院,河北 保定 071002)

卷積神經網絡及其研究進展

翟俊海1,張素芳2,郝璞1

(1.河北大學 數學與信息科學學院 河北省機器學習與計算智能重點實驗室,河北 保定 071002; 2.中國氣象局氣象干部培訓學院 河北分院,河北 保定 071002)

深度學習是目前機器學習領域最熱門的研究方向,轟動全球的AlphaGo就是用深度學習算法訓練的.卷積神經網絡是用深度學習算法訓練的一種模型,它在計算機視覺領域應用廣泛,而且獲得了巨大的成功.本文的主要目的有2個:一是幫助讀者深入理解卷積神經網絡,包括網絡結構、核心概念、操作和訓練;二是對卷積神經網絡的近期研究進展進行綜述,重點綜述了激活函數、池化、訓練及應用4個方面的研究進展.另外,還對其面臨的挑戰和熱點研究方向進行了討論.本文將為從事相關研究的人員提供很好的幫助.

機器學習;深度學習;卷積神經網絡;計算機視覺;訓練算法

美國心理學家Mcculloch和Pitts于1943年首次提出了人工神經元模型,即著名的M-P模型[1],開啟了人工神經網絡的研究.在這70多年的時間里,神經網絡研究曾經幾起幾落.Rosenblatt于1958年提出的感知機(Perceptron)模型[2],標志著神經網絡研究迎來了第1次熱潮,這次研究熱潮持續了近10年,直到1969年,Minsky和Papert從數學的角度證明了單層神經網絡逼近能力有限[3],甚至連簡單的異或問題都不能解決,使神經網絡研究陷入了第1次低潮.神經網絡研究迎來第2次熱潮的起點是Werbos在其博士論文中提出了誤差反向傳播的思想[4],但當時并沒有引起研究人員的關注,直到1986年Rumelhart等成功實現了用反向傳播算法[5](即著名的BP算法)訓練多層神經網絡,神經網絡研究才真正迎來第2次研究的熱潮,此后近10年,BP算法始終占據統治地位.但是BP算法也有自身的缺陷,例如容易產生過擬合、梯度消失、局部最優等問題.1995年Vapnik和Cortes提出了支持向量機[6](SVM: support vector machine),由于SVM具有堅實的理論基礎,在應用中也表現出了比神經網絡更好的效果,所以SVM成為熱點研究內容,而神經網絡研究則不冷不熱.人類進入21世紀后,特別是隨著大數據時代的到來,神經網絡研究又迎來了一次研究熱潮,這次研究熱潮的起點是2006年加拿大多倫多大學Hinton教授和他的學生Salakhutdinov提出的深度學習思想[7].這次熱潮的標志就是深度學習,從某種意義上來講,深度學習是訓練深度模型(如深度神經網絡)的算法,這些模型包括:卷積神經網絡、受限波爾茲曼機、信念網絡和自動編碼機[8].文獻[9]對深度學習進行了全面深入的綜述,具有很高的參考價值.

卷積神經網絡(CNN)[10]是一種著名的深度學習模型,其名稱的由來是因為卷積運算被引入到了這種模型中.CNN可以歸類為多層前饋神經網絡模型,但與傳統的多層前饋神經網絡不同,CNN的輸入是二維模式(如圖像),其連接權是二維權矩陣(也稱為卷積核),基本操作是二維離散卷積和池化(Pooling).由于CNN可以直接處理二維模式,所以它在計算機視覺領域得到了非常廣泛的應用.例如,CNN已成功應用于圖像分類、目標檢測和目標跟蹤等許多領域.

實際上,卷積神經網絡模型并不是2006年以后才提出的,早在1998年,LeCun等[10]就提出了一種稱為LeNet的卷積神經網絡模型,并用于手寫數字識別.只是由于當時缺乏大規模的訓練數據,計算機的計算能力也有限,所以LeNet在解決復雜問題(例如大規模的圖像和視頻分類問題)時,效果并不好.2006年以后,特別是隨著大數據時代的到來,在高性能的計算平臺(如高性能的PC機、圖形工作站、云計算平臺等)上用大規模的數據集訓練復雜的模型成為可能.正是在這種背景下,研究人員提出了許多卷積神經網絡模型.下面首先以LeNet為例介紹卷積神經網絡的結構,并綜述相關的研究;然后綜述卷積神經網絡的訓練,包括訓練的加速機制和幾種常用的開源框架;接下來綜述卷積神經網絡的應用;最后總結了未來幾年卷積神經網絡研究的熱點和面臨的挑戰.

1 卷積神經網絡的結構

卷積神經網絡是一種多層前饋神經網絡,其基本構成要素包括卷積層、池化層(也稱為采樣層)和全連接層.圖1是卷積神經網絡LetNet的結構圖,它有3個卷積層,2個采樣層,1個全連接層,加上輸入層和輸出層共包含8層.從圖1可以看出,卷積神經網絡LeNet的輸入層是二維模式(如圖像);隱含層由多個卷積層和采樣層交替構成,卷積層用于提取不同的圖像特征,采樣層用于降維.卷積層和采樣層的輸出都稱為特征映射圖(二維模式);全連接層一般是一個分類器(如單隱含層的神經網絡).

1.1 卷積層

一般地,每一個卷積層都由若干個結點構成.卷積層通過卷積運算提取圖像的不同特征,卷積層結點的結構如圖2所示.

圖1 卷積神經網絡LetNet的結構[10]Fig.1 Architecture of convolutional neural network LetNet[10]

結點的輸出特征圖.卷積層結點的輸出可用下面的公式表示:

(1)

說明:

1)一般地,卷積核(也稱為濾波器矩陣)是3×3或5×5的小矩陣;

2)在做卷積運算時,卷積核(濾波器矩陣)與對應的特征圖(或圖像)的一個局部區域相連接,這個局部區域稱為卷積核的局部感受域.整個特征圖(或整幅圖像)共享卷積核權值,這稱為權值共享.

圖2 第l個卷積層第j個結點的結構Fig.2 Architecture of jth node in lth convolutional layer

關于卷積層,研究的重點主要在激活函數上.激活函數在卷積神經網絡中起著重要作用,它將非線性性質引入到網絡中,非線性性質是保證網絡具有一致逼近能力的重要因素.另外,因為大多數前饋神經網絡(也包括卷積神經網絡)的訓練算法都是基于誤差反向傳播的思想,激活函數的性質對梯度的計算具有很大的影響.例如,激活函數的輸出飽和程度就嚴重影響著網絡的收斂性,輸出飽和程度越高,網絡的收斂性越差.因此激活函數對卷積神經網絡的訓練速度或收斂性具有很大的影響.神經網絡訓練的穩定性一般通過將網絡中的變量(包括網絡結點的輸入和輸出)限定在一定的范圍內.而激活函數就有對網絡變量限界的作用,所以激活函數對網絡訓練的穩定性也有重要的影響.總之,激活函數對網絡的收斂性、穩定性和一致逼近能力都有重要的影響.

卷積神經網絡中的激活函數大致可分為2類:Sigmoid型的和非Sigmoid型的.Sigmoid型的激活函數具有連續性和可微性,它們將輸入變量變換到一個有限區間.最常用的Sigmoid型激活函數包括logistic函數和tanh函數.logistic函數將輸入變量變換到區間[0,1],其定義為

(2)

tanh函數將輸入變量變換到區間[-1,1],其定義為

(3)

與logistic函數相比,tanh函數的梯度具有更好的漸變性,而這在神經網絡的訓練中是更期望的.另外,tanh函數關于原點是奇對稱的,這種性質可使網絡收斂更快.然而,tanh函數在兩側都具有比較大的飽和區域,這樣難以逼近其邊界值.因此研究人員通過在tanh函數中引入幅度參數和傾斜參數,提出了伸縮tanh函數[10],可以克服上述缺點.伸縮tanh函數的定義為

(4)

在LeCun等[10]提出的卷積神經網絡LetNet中,使用的就是這種激活函數,而且LeCun等通過實驗研究發現:α=1.715 9,β=0.666 7時,LetNet的性能最優.

實際上,在2012年以后提出的卷積神經網絡模型中,大多用的都不是Sigmoid型的激活函數.例如,在著名的AlexNet模型中[11],使用的激活函數是ReLU (rectified linear unit).常用的非Sigmoid型的激活函數除ReLU外,還包括LReLU (Leaky ReLU)、BiFire (Bi-firing)等.

ReLU激活函數[11]是近年來最著名的非飽和激活函數之一,ReLU的定義為

ReLU(x)=max(x,0),

(5)

Krizhevsky等的工作顯示,具用ReLU激活函數的卷積神經網絡,即便沒有預訓練也能有效訓練[11].

ReLU的不足之處是當神經元結點沒有激活時,其梯度為0.這樣可能導致初始沒有激活的神經元結點,在梯度優化過程中,它們的權值不會得到調整.另外,由于零梯度還可能降低網絡的訓練速度.針對這一問題,Mass等[12]提出了LReLU (Leaky ReLU).其定義為

LReLU(x)=max(x,0)+λmin(x,0),

(6)

其中,λ∈是用戶預定義的參數.如果將λ改為可學習的參數,則得到PReLU(ParametericReLU)[12-13].

BiFire是Li等提出的另一種新的非Sigmoid型激活函數[14],它能消除梯度擴散現象,其定義為

(7)

其中,A是一個光滑參數.

1.2 池化層

卷積層通過不同的卷積核提取圖像的不同特征,而池化層(也稱為采樣層)通過不同的池化操作對圖像進行降維,并提高圖像特征的變換不變特性[15].常用的池化操作包括最大池化(max pooling)和平均池化(average pooling).池化操作和卷積操作有類似的地方,即池化窗口按著一定規則在輸入特征圖中,按從上到下,從左到右順序的移動.最大池化對窗口所覆蓋的子矩陣求其元素的最大值,作為池化輸出特征圖(一個矩陣)中的一個元素.

近幾年,關于池化層的研究主要集中在新的池化操作及將其他技術(例如,Dropout技術、學習技術、自適應技術等)引入到池化中.在最大池化和平均池化的基礎上,提出的新池化操作包括混合池化、Lp范數池化、空域金字塔池化等.

Yu等[16]將最大池化和平均池化結合起來,提出了混合池化方法.混合池化可用公式(8)描述.

(8)

其中,λ是取值為0和1的隨機變量,Rij是池化區域或池化窗口,|Rij|表示Rij中所含元素個數,αm,n表示窗口中的元素.

Gulcehre等[17]將最大池化和平均池化的思想進行了推廣,提出了Lp范數池化(Lp Pooling),其定義如下:

(9)

在文獻[18]中,Estrach等對Lp范數池化進行了理論分析,得出了結論:“與最大池化和平均池化相比,Lp范數池化能獲得更好的泛化性能”.

He等[19]提出的空域金字塔池化(spatial pyramid pooling)將不同尺度的池化特征圖組合在一起,可以得到固定長度的輸出特征圖,不論輸入特征圖的大小是多少.在空域池化研究中,研究人員還提出了一些新的方法.例如,Xie等[20]提出了異構特征空域池化方法,Lee等[21]提出了沿時間軸的池化方法,Perlaza等[22]對頻域池化和空域池化進行了比較研究.

近幾年,研究人員還將其他一些技術等引入到池化中,提出了相應池化方法.例如,Wu等[23]將Dropout技術引入到池化中,提出了Dropout最大池化方法.Wang等[24]將自適應技術引入到池化中,提出了自適應池化方法.Sun等[25]將學習機制引入到池化運算中,提出了一種基于訓練誤差最小化的學習池化方法.

1.3 新的卷積神經網絡模型

在LetNet模型的基礎上,最近幾年,研究人員提出了許多新的卷積神經網絡模型.代表性的模型包括以下幾種:

1)Krizhevsky等[11]于2012年提出的AlexNet模型.該模型以巨大的優勢獲得了當年ImageNet競賽(也稱為ILSVRC(ImageNet large scale visual recognition challenge)競賽)的冠軍,top-5的錯誤率為16.4%,第2名的top-5的錯誤率為26.2%.從結構上來講,AlexNet和LeNet是類似的,但具有更寬和更深的結構.在AlexNet模型中,Krizhevsky等首次成功地應用了ReLU、Dropout和LRN(local response normalization)等技術,同時還使用了GPU(graphics processing unit)加速技術,并開源了他們在GPU上訓練卷積神經網絡的CUDA(compute unified device architecture)代碼[26-27].AlexNet共有8個需要訓練參數的層,不包括池化層和LRN層,前5層為卷積層,后3層為全連接層,最后一個全連接層是具有1 000個輸出的softmax.AlexNet的成功,確立了其在計算機視覺中的統治地位.

2)Lin等[28]提出的NIN(Network In Network).NIN模型由堆疊在一起的3個MLP(MultiLayer Perceptron)卷積層和一個全局平均池化層構成.MLP卷積層由1×1的卷積層連接一個MLP層,MLP層的作用是增加單個卷積特征的有效性.從NIN的結構可以看出,其思想其實很簡單.然而,其后的許多模型,例如,Google Inception Net和ResNet,都用到了NIN的基本思想.

3)Simonyan等[29]提出的VGGNet.該模型獲得了2014年ILSVRC競賽的亞軍.與AlexNet模型相比,VGGNet除了包含更多的層(19層)之外,所有的卷積層都使用3×3同樣大小的卷積核和2×2同樣大小的池化窗口,池化操作采用最大池化.

5)He等提出的ResNet(Residual Neural Network)[34].該模型在2015年的ILSVRC競賽中獲得了冠軍,top-5的錯誤率為3.57%.ResNet包含152層,是一個很深的網絡,但是其參數量卻比VGGNet低,性能非常優越.ResNet的基本構成模塊是殘差學習單元,包括2種:2層殘差學習單元和3層殘差學習單元.在2層殘差學習單元中,卷積核大小都是3×3的;在3層殘差學習單元中,包括2個大小為1×1的卷積核和一個3×3的卷積核,3×3的卷積核在2個1×1的卷積核之間.ResNet和普通CNN的最大區別在于,ResNet有很多旁路的支線將輸入直接連接到后面的層,使得后面的層可以直接學習殘差,簡化了學習目標和學習難度[26].此外,ResNet通過直接將輸入繞道傳到輸出,保護了信息的完整性,從某種程度上解決了普通CNN的信息丟失問題.

除了上面這些模型外,比較有代表性模型還有Zeiler等提出的ZFNet[35],Iandola等提出的DenseNet[36]和SqueezeNet[37].由于篇幅所限,對于這3種模型不再展開綜述,有興趣的讀者可參考相關論文.

2 卷積神經網絡的訓練

2.1 損失函數

針對具體應用,用卷積神經網絡解決實際問題時,選擇合適的損失函數至關重要.除傳統的均方誤差損失函數外,常用的損失函數包括以下幾種.

1)軟最大化損失函數

給定訓練集,D={(xi,yi)|i=1,2,…,niyi∈{1,2,…,k}},對于第i個樣例,預測為第j類的后驗概率用下面的軟最大化函數進行計算:

軟最大化損失函數定義如下[11]:

2)對比損失函數

3)K-L散度損失函數

K-L散度是2個概率分布p(x)和q(x)之間的距離度量,其定義為

DKL(p‖q)

在文獻[40]中,Kingma等針對自動編碼器的訓練,提出了一種基于K-L散度的損失函數,其定義如下:

L=Ez~qφ(z|x)logpθ(x|z)-DKL(qθ(z|x)‖p(z)),

其中,φ是編碼器參數,θ是解碼器參數.該損失函數也適用于卷積神經網絡.

2.2 卷積神經網絡的訓練方法及加速策略

因為從宏觀上看CNN屬于多層前饋神經網絡,所以可以用反向傳播算法(BP算法)及其各種改進的版本[41](例如,共軛梯度反向傳播算法、遞歸最小二乘反向傳播算法、Levenberg-Marquardt反向傳播算法等)進行訓練.例如,在LetNet中用的是基于隨機梯度下降[42]的隨機對角線Levenberg-Marquardt反向傳播算法[10].權參數更新公式為

其中,w是權參數,Ep是相對于模式p的瞬時均方誤差損失函數,εk是學習率參數.

因為在卷積神經網絡中存在權值共享,所以上面公式中的偏導數用下面的公式計算:

其中,uij是結點j到結點i的連接權,Vk是具有權值共享關系的結點編號對(ij)的集合,即結點i和結點j之間的連接共享權值wk.換句話說,對于任意的結點編號對(i,j),如果(i,j)∈Vk,則uij和wk之間有如下關系:

uij=wk.

一般地,學習速率εk不是一個常數.在LetNet中,εk是損失函數沿方向wk的二階導數

其中,μ是一個常數,hkk是損失函數E關于wk的二階導數的估計.hkk的計算公式如下:

去掉Hessian矩陣中的非對角線上的元素,上式變為

其中,N是訓練集中的樣例個數.

隨著深度學習的發展,現在的卷積神經網絡模型越來越復雜,訓練復雜網絡需要的數據集越來越大.這樣,上述訓練LetNet的反向傳播算法已不能滿足需要.近幾年,研究人員提出了一些新的訓練卷積神經網絡的方法,這些方法都是設法加速網絡的訓練.根據加速機制,這些方法可大致分為2類:基于GPU或CPU(多核和眾核)的硬加速方法和基于加速算法的軟加速方法.

基于GPU或CPU(多核和眾核)的硬加速方法是將訓練卷積神經網絡的算法用GPU編程實現,以提高訓練的深度,其中,基于GPU的加速方法應用最普遍.在深度卷積神經網絡發展中,具有重大影響的AlexNet[11]使用Dropout技術和GPU相結合的方法加速網絡的訓練.Dropout用于有選擇地刪除某些神經元,以避免模型過擬合,使用GPU加速訓練,以減少訓練時間.實際上,其他幾種著名的卷積神經網絡模型,例如VGGNet、GoogleNet、ResNet等,都是用GPU實現加速.其他代表性的工作包括:Li等[43]提出的2種基于GPU的加速卷積神經網絡的訓練方法.一種是用于加速卷積神經網絡前向計算的圖像組合方法,另一種是基于GPU的低內存消耗的訓練卷積神經網絡的方法,該方法可以訓練任意大的網絡.Mathieu等[44]提出的基于傅里葉變換的快速卷積神經網絡訓練方法.該方法對卷積層結點的輸入特征圖首先做二維離散快速傅里葉變換,然后在頻域做卷積運算,并用GPU編程實現.因為相同的特征圖傅里葉變換可以反復使用,所以可以加快卷積神經網絡的訓練.在基于多核和眾核的加速方法中,代表性的工作包括:Rajeswar等[45]提出的多核處理器(Multi-core CPUs)和圖形處理器(GPUs)的可擴展的卷積神經網絡訓練方法,與相應的串行訓練方法相比,基于多核處理器的訓練方法可提高10倍的訓練速度,而基于圖形處理器的訓練方法可提高12倍的訓練速度.Zlateski等[46]提出了2種卷積神經網絡并行化訓練方法,一種是基于多核處理器的并行化訓練方法,另一種是基于眾核處理器的并行化訓練方法.前者能實現與幾乎同等物理處理器核的加速效果,而后者可實現90倍加速比.另外,近幾年研究人員還提出了基于云計算平臺的加速方法.例如,Morcel等[47]提出了一種基于阿帕奇SPARK云計算環境的深度卷積網絡訓練方法,該方法對卷積操作的加速效果明顯,在不同的數據集上可達到40~250倍的加速比.

軟加速通過設計加速算法來提高卷積神經網絡的訓練速度.在這類方法中,除前面Inception V2模型中基于BN的加速方法外[31],研究人員還提出了許多其他的軟加速方法.Girshick等[48-49]提出了一種基于區域的卷積神經網絡快速訓練方法.該方法采用了多任務損失函數,單階段訓練能更新所有網絡層參數,具有很快的訓練速度.Gusmao[50]提出了一種基于核召回的卷積神經網絡快速訓練方法.該方法的基本思想是開始用低分辨率核和輸入特征圖預訓練卷積神經網絡,然后利用卷積運算的空域擴展性質和全分辨率核精細調整網絡參數.與其他方法相比,該方法可減少20%的訓練時間,但沒有任何精度損失.Cong等[51]將Strassen矩陣乘法的思想應用于卷積運算,提出了一種降低卷積神經網絡計算量的快速方法.文獻[51]的實驗結果顯示,計算量能最多減少47%.另外,文獻[52]也是用矩陣快速計算方法加速卷積神經網絡的訓練.Zhang等[53]提出了一種基于響應重構的深度卷積神經網絡加速訓練方法,該方法通過求解一個具有低秩約束的非線性優化問題來加速深度卷積網絡的訓練,設計了求解該優化問題的廣義奇異值分解方法.Korytkowski等[54]提出了一種基于多特征輸入中間緩存技術的卷積神經網絡快速訓練方法.在該方法中,將多特征看作輸入到各個網絡層的n個通道圖像,這樣可加速卷積操作運算,提高網絡的訓練速度.受支持向量機加速計算的壓縮技術和LASSO中篩選技術的啟發,Zheng等[55]提出了一種用壓縮和召回技術加速訓練網絡的方法.該方法不僅適用于加速訓練卷積神經網絡,也適用于其他的深度學習模型,如深度受限波爾茲曼機、深度信念網絡、深度自動編碼器.Kim等[56]將CNN和ELM結合起來,提出了一種卷積神經網絡快速訓練方法.在該方法中,在卷積層和池化層之間加入了一個附加層.在CNN的全連接層之后的附加層參數用ELM算法優化,其他的附加層參數用基于ELM的改進的反向傳播學習規則進行優化.KIM等提出的方法有2個優點:1)在保持高測試精度的前提下,能極大地降低訓練時間;2)用中小型數據集進行訓練,也能得到理想的結果.Grinsven等[57]將樣例選擇的思想引入到卷積神經網絡中,提出了一種用選擇的樣例加速卷積神經網絡訓練的方法.

目前,許多流行的深度學習開源框架,都提供了訓練卷積神經網絡的開源代碼,有興趣的讀者可參考文獻[26]和[27].

3 卷積神經網絡的應用

因為卷積神經網絡能直接處理圖像數據,所以它在計算機視覺領域的應用最廣泛.計算機視覺領域中的各種任務都有卷積神經網絡大量成功的應用,包括圖像分類、目標跟蹤、目標檢測等.另外,卷積神經網絡在語音識別、文本分類中也有成功的應用.

3.1 圖像分類

卷積神經網絡在圖像分類中的應用最有影響的工作是Krizhevsky等提出的AlexNet[11],該模型在2012年的ImageNet[58]大規模圖像分類競賽(ILSVRC)中以超過第二名10個百分點的成績獲得冠軍.在這一工作的激勵下,隨后幾年提出的幾種卷積神經網絡模型在圖像分類中都取得了非常好的成績.例如,在2014年進行的ILSVRC競賽中,VGGNet和GoogLeNet的Top-5精度分別達到了92.7%和93.3%.在2015年,ResNet在1 000類的圖像分類中,Top-5精度達到了96.43%,超過人類的分類能力.近幾年,研究人員還提出了許多圖像分類新方法.例如,Han等[59]針對卷積神經網絡的密集型計算和密集型內存需求問題,提出了一種深度壓縮方法.該方法包括3個階段:剪枝、訓練量化和哈夫曼編碼.在大型圖像數據庫ImageNet上用AlexNet模型進行實驗,在沒有精度損失的前提下,內存需求減低了約35倍.用VGG-16進行實驗,在沒有精度損失的前提下,內存需求減低了約49倍.該論文獲得了著名國際會議ICLR2016的最佳論文獎,它在將基于深度卷積神經網絡的應用移植到嵌入式或移動設備上,具有重要的參考價值.

3.2 目標跟蹤

針對可視對象的在線跟蹤問題,Li等[60]利用單卷積神經網絡,提出了一種魯棒而且有效的跟蹤算法.該算法用截斷結構損失函數作為目標函數,通過魯棒的樣例選擇機制,增強隨機梯度下降算法訓練卷積神經網絡的效率.在文獻[61]中,Fan等將目標跟蹤問題建模為一個機器學習問題.在給定行人前一個位置和步幅的前提下,通過學習來估計行人當前的位置和步幅.在該方法中,卷積神經網絡用于從視頻的相鄰2幀中一起學習行人的空間和時間特征.在文獻[62]中,Ma等研究了用卷積神經網絡進行可視目標跟蹤的相關濾波器的設計與選擇問題.針對不同的網絡,提出了相應的設計與選擇方法.

3.3 目標檢測

目標檢測是一個更加有挑戰性的計算機視覺任務,目標檢測是指在目標圖像中把對象用矩形框框起來.近幾年,研究人員先后提出了R-CNN[63]、Fast R-CNN[64]、Faster R-CNN[49]等代表性的方法.在計算機視覺著名數據集PASCAL VOC上的檢測平均精度分別達到了53.3%、68.4%和75.9%.檢測速度也越來越快,從R-CNN模型處理1張圖片需要2 s多,到Faster R-CNN提高到了198 ms/張.針對目標檢測問題,在這些工作的基礎上,Zhang等[65]系統研究了具有很深的卷積神經網絡的加速問題.Tome等[66]針對行人檢測特定任務,提出了一種性能優于傳統模型的卷積神經網絡結構,能獲得很好的檢測效果,而且計算復雜度低.最近研究人員提出了2種目標檢測的新方法:YOLO[67]和SSD[68],這2種方法能夠通過單一通道檢測直接預測類別.YOLO將目標檢測問題轉化為一個回歸問題,進行求解.而SSD將包圍盒的輸出離散化為一組默認的包圍盒.2種方法都取得了良好的檢測效果.

3.4 其他應用

在計算機視覺領域之外,卷積神經網絡應用較多的是語音識別.卷積神經網絡能夠減少語音信號中的譜變化和譜相關,Sainath等[69]利用這一特性,用卷積神經網絡解決大規模語音識別問題,取得了良好的效果.在文獻[70]中,Qian等研究了基于卷積神經網絡的帶噪聲語音識別問題,通過選擇合適的濾波器、池化,補零機制以及輸入特征圖的大小,來確定適于帶噪聲語音識別的卷積網絡結構,以增加模型的魯棒性.除了上面這些經典的應用之外,研究人員還研究了卷積神經網絡在其他方面的應用,但這些應用相對較少.例如,Dong等[71]將卷積神經網絡應用于從低分率圖像生成高分辨率圖像的方法.

4 結束語

對卷積神經網絡及其研究進展進行了全面的討論.本文可使讀者:1)快速掌握卷積神經網絡的核心概念(如權值共享、局部感受域、池化等),也能快速掌握卷積神經網絡的結構、運算和訓練.2)快速了解卷積神經網絡近幾年的發展現狀、研究熱點和應用情況.作者認為,未來幾年卷積神經網絡研究面臨的挑戰主要在以下3個方面:①卷積神經網絡在多模態大數據(特別是多模態視頻大數據)分類中的應用研究;②卷積神經網絡在非平衡視頻跟蹤大數據中的應用研究;③卷積神經網絡在云平臺上并行化實現研究.熱點研究方向包括:自動確定卷積神經網絡參數的研究;與其他神經網絡如:LSTM、RNN等結合的研究;與強化學習結合的研究;卷積神經網絡非梯度下降訓練研究.

[1] MCCULLOCH W S,PITTS W.A logical calculus of the ideas immanent in nervous activity[J].Bulletin of Mathematical Biology,1943,52(4):99-115.DOI:10.1007/BF02478259.DOI:10.1007/BF02478259.

[2] ROSENBLATT F.The perception: a probabilistic model for information storage and organization in the brain[J].Psychological Review,1958,65(6):386-408.DOI:10.1037/h0042519.

[3] MINSKY M,PAPERT S.Perceptrons[M].Oxford: MIT Press,1969.

[4] WERBOS P.Beyond regression: New tools for prediction and analysis in the behavioral sciences[D].Boston:PhD Thesis,Harvard University,1974.

[5] RUMELHART D E,HINTON G E,WILLIAMS R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.DOI:10.1038/323533a0.

[6] CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.DOI: 10.1007/BF00994018.

[7] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.DOI: 10.1126/science.1127647.

[8] LECUN Y,BENGIO Y,HINTON G E.Deep learning[J].Nature,2015,521:436-444.DOI:10.1038/nature14539.

[9] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(9):1799-1804.DOI:10.7544/issn1000-1239.2013.20131180.

YU K,JIA L,CHEN Y Q,et al.Deep learning: Yesterday,Today and Tomorrow [J].Journal of Computer Research and Development,2013,50(9):1799-1804.DOI:10.7544/issn1000-1239.2013.20131180.)

[10] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.DOI: 10.1109/5.726791.

[11] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks [Z].International Conference on Neural Information Processing Systems,Lake Tahoe,Nevada,USA,2012.DOI: :10.1145/3065386.

[12] MAAS A L,HANNUN A Y,NG A Y.Rectifier nonlinearities improve neural network acoustic models [Z]The 30 th International Conference on Machine Learning,Atlanta,Georgia,USA,2013.

[13] HE K M,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers: surpassing human-level performance on imagenet classification [Z]IEEE International Conference on Computer Vision (ICCV) ,Santiago,Chile,2015.DOI:10.1109/ICCV.2015.123.

[14] LI J C,NG W W Y,YEUNG D S,et al.Bi-firing deep neural networks[J].International Journal of Machine Learning & Cybernetics,2014,5(1):73-83.DOI:10.1007/s13042-013-0198-9.

[15] GOODFELLOW I,BENGIO Y,COURVILLE A.Deep Learning[M].Massachusetts:MIT Press,2016.

[16] YU D,WANG H,CHEN P,et al.Mixed pooling for convolutional neural networks [Z].The 9th international conference on rough sets and knowledge technology,Shanghai,China,2014.

[17] GULCEHRE C,CHO K,PASCANU R,et al.Learned-norm pooling for deep feedforward and recurrent neural networks[Z].European Conference on Machine Learning and Knowledge Discovery in Databases,Nancy,France,2014.DOI:10.1007/978-3-662-44848-9_34.

[18] ESTRACH J B,SZLAM A,LECUN Y.Signal recovery from Pooling Representations [Z].The 31st International Conference on Machine Learning,Beijing,China,2014.

[19] HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1904-16.DOI: 10.1109/TPAMI.2015.2389824.

[20] XIE L,TIAN Q,WANG M,et al.Spatial pooling of heterogeneous features for image classification[J].IEEE Transactions on Image Processing,2014,23(5):1994-2008. DOI: 10.1109/TIP.2014.2310117.

[21] LEE H,KIM G,KIM H G,et al.Deep CNNs along the time axis with intermap pooling for robustness to spectral variations[J].IEEE Signal Processing Letters,2016,23(10):1310-1314.DOI: 10.1109/LSP.2016.2589962.

[22] PERLAZA S M,FAWAZ N,LASAULCE S,et al.From spectrum pooling to space pooling: opportunistic interference alignment in MIMO cognitive networks[J].IEEE Transactions on Signal Processing,2010,58(7):3728-3741.DOI: 10.1109/TSP.2010.2046084.

[23] WU HBB,GU X D.Towards dropout training for convolutional neural networks[J].Neural Networks,2015,71:1-10.DOI:10.1016/j.neunet.2015.07.007.

[24] WANG J Z,WANG W M,WANG R G,et al.CSPS: An adaptive pooling method for image classification[J].IEEE Transactions on Multimedia,2016,18(6):1000-1010.DOI: 10.1109/TMM.2016.2544099.

[25] SUN M L,SONG Z J,JIANG X H,et al.Learning pooling for convolutional neural network[J].Neurocomputing,2017,224:96-104.DOI:10.1016/j.neucom.2016.10.049.

[26] 黃文堅,唐源.TensorFlow實戰[M].北京: 電子工業出版社,2017.

[27] 樂毅,王斌.深度學習-Caffe之經典模型詳解與實戰[M].北京: 電子工業出版社,2017.

[28] LIN M,CHEN Q,YAN .Network in network [J/OL].[2014-03-04].https://arxiv.org/abs/1312.4400v3.

[29] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale Image recognition [J/OL].[2014-09-15].http://arxiv.org/abs/1409.1556v2.

[30] SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[Z].IEEE Conference on Computer Vision and Pattern Recognition (CVPR2015),Boston,MA,USA,2015.DOI:10.1109/CVPR.2015.7298594.

[31] IOFFE S,SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[J/OL].[2015-03-02].https://arxiv.org/abs/1502.03167v3.

[32] SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[Z].IEEE Conference on Computer Vision and Pattern Recognition (CVPR2016),Las Vegas,NV,United States,2016.DOI:10.1109/CVPR.2016.308.

[33] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning [J/OL].[2016-08-23].https://arxiv.org/abs/1602.07261.

[34] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[Z].IEEE Conference on Computer Vision and Pattern Recognition(CVPR2016),Las Vegas,NV,United States,2016.DOI: 10.1109/CVPR.2016.90.

[35] ZEILER M D,FERGUS R.Visualizing and Understanding Convolutional Networks[C]//Computer Vision-ECCV 2014,Lecture Notes in Computer Science,2014,8689:818-833.DOI:10.1007/978-3-319-10590-1_53.

[36] IANDOLA F,MOSKEWICZ M,KARAYEV S,et al.DenseNet: implementing efficient ConvNet descriptor pyramids [J/OL].[2014-04-07]. https://arxiv.org/abs/1404.1869.

[37] IANDOLA F N,HAN S,MOSKEWICZ M W,et al.SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size[J/OL].[2016-09-04].https://arxiv.org/abs/1602.07360v4.

[38] CHOPRA S,HADSELL R,LECUN Y.Learning a similarity metric discriminatively,with application to face verification[Z].IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2005),San Diego,California,2005.DOI:10.1109/CVPR.2005.202.

[39] HADSELL R,CHOPRA S,LECUN Y.Dimensionality reduction by learning an invariant mapping[Z].IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2006),New York,2006.DOI: 10.1109/CVPR.2016.435.

[40] KINGMA D P,WELLING M.Auto-encoding variational Bayes [J/OL].[2014-05-01].https://arxiv.org/abs/1312.6114.

[41] HAYKIN S.神經網絡與機器學習(影印版)[M].北京:機械工業出版社,2009.

[42] BOTTOU L.Large-scale machine learning with stochastic gradient descent [Z].19th International Conference on Computational Statistics,Paris France,2010.DOI:10.1007/978-3-7908-2604-3_16.DOI:10.1016/j.neucom.2016.11.046.

[43] LI S J,DOU Y,NIU X,et al.A fast and memory saved GPU acceleration algorithm of convolutional neural networks for target detection[J].Neurocomputing,2017,230:48-59.

[44] MATHIEU M,HENAFF M,LECUN Y.Fast training of convolutional networks through PPTs [J/OL].[2014-03-06].https://arxiv.org/abs/arXiv:1312.5851v5.

[45] RAJESWAR M S,SANKAR A R,BALASUBRAMANIAM V N,et al.Scaling up the training of deep CNNs for human action recognition [Z].IEEE International Parallel and Distributed Processing Symposium Workshop (IPDPSW2015),Hyderabad,INDIA,2015.DOI: 10.1109/IPDPSW.2015.93.

[46] ZLATESKI A,LEE K,SEUNG H S.ZNN-A fast and scalable algorithm for training 3D convolutional networks on multi-core and many-core shared memory machines [Z].IEEE International Parallel and Distributed Processing Symposium (IPDPS2016),Chicago,IL,USA,2016.DOI:10.1109/IPDPS.2016.119.

[47] MORCEL R,EZZEDDINE M,AKKARY H.FPGA-based accelerator for deep convolutional neural networks for the SPARK environment [Z].IEEE International Conference on Smart Cloud (SMART-CLOUD2016),New York,USA,2016.DOI:10.1109/SmartCloud.2016.31.

[48] GIRSHICK R.Fast R-CNN [Z].2015 IEEE International Conference on Computer Vision(ICCV),Santiago, Chile,2015.

[49] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN: towards real-time object detection with region proposal networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,online first,DOI: 10.1109/TPAMI.2016.2577031.

[51] CONG J S,XIAO B J.Minimizing computation in convolutional neural networks [Z].The 24th International Conference on Artificial Neural Networks,Hamburg,Germany,2014.DOI:10.1007/978-3-319-11179-7_36.

[52] LAVIN A,GRAY S.Fast algorithms for convolutional neural networks [Z].2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,Nevada,USA,2016.DOI: 10.1109/CVPR.2016.435.

[53] ZHANG X Y,ZOU J H,HE K M,et al.Accelerating very deep convolutional networks for classification and detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(10):1943-1955.DOI:10.1109/TPAMI.2015.2502579.

[54] KORYTKOWSKI M,STASZEWSKI P,WOLDAN P.Fast computing framework for convolutional neural networks [Z]. 2016 IEEE International Conferences on Big Data and Cloud Computing (BDCloud),Social Computing and Networking (SocialCom),Sustainable Computing and Communications (SustainCom),Atlanta,GA,USA,2016.DOI:10.1109/BDCloud-SocialCom-SustainCom.2016.28.

[55] ZHENG S,VISHNU A,DING C.Accelerating Deep Learning with Shrinkage and Recall [J/OL].[2016-09-19].http://arxiv.org/abs/1605.01369v2.

[56] KIM J,KIM J,JANG G J,et al.Fast learning method for convolutional neural networks using extreme learning machine and its application to lane detection[J].Neural Networks,2017,87:109-121.DOI: 10.1016/j.neunet.2016.12.002.

[57] GRINSVEN M J J P V,GINNEKEN B V,HOYNG C B,et al.Fast convolutional neural network training using selective data sampling: Application to hemorrhage detection in color fundus images[J].IEEE Transactions on Medical Imaging,2016,35(5):1273-1284.DOI: 10.1109/TMI.2016.2526689.

[58] DENG J,DONG W,SOCHER R,et al.ImageNet: A large-scale hierarchical image database [Z].IEEE Conference on Computer Vision and Pattern Recognition,2009(CVPR 2009),Miami,FL,USA,2009.DOI: 10.1109/CVPR.2009.5206848.

[59] HAN S,MAO H,DALLY W J.Deep compression: compressing deep neural networks with pruning,trained quantization and huffman coding[Z].International Conference on Learning Representations 2016 (ICLR 2016),San Juan,Puerto Ri 2016.DOI: 10.1109/TIP.2015.2510583.

[60] LI H,LI Y,PORIKLI F.DeepTrack: learning discriminative feature representations online for robust visual tracking[J].IEEE Transactions on Image Processing,2016,25(4):1834-1848.DOI: 10.1109/TIP.2015.2510583.

[61] FAN J L,XU W,WU Y,et al.Human tracking using convolutional neural networks[J].IEEE Transactions on Neural Networks,2010,21(10):1610-1623.DOI: 10.1109/TNN.2010.2066286.

[62] MA C,XU Y,NI B B,et al.When correlation filters meet convolutional neural networks for visual tracking[J].IEEE Signal Processing Letters,2016,23(10):1454-1458.DOI: 10.1109/LSP.2016.2601691.

[63] GIRSHICK R,DONAHUE J,DARRELL T,et al.Region-based convolutional networks for accurate object detection and segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(1):142-158.DOI: 10.1109/TPAMI.2015.2439281.

[64] GIRSHICK R.Fast R-CNN [Z].2015 IEEE International Conference on Computer Vision (ICCV2015),Santiago,Chile,2015.DOI: 10.1109/ICCV.2015.169.

[65] ZHANG X Y,ZOU J H,HE K M,et al.Accelerating very deep convolutional networks for classification and detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(10):1943-1955.DOI: 10.1109/TPAMI.2015.2439281.

[66] TOME D,MONTI F,BAROFFIO L,et al.Deep convolutional neural networks for pedestrian detection[J].Signal Processing: Image Communication,2016,47:482-489.DOI:10.1016/j.image.2016.05.007.

[67] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified,real-time object detection[Z].2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Las Vegas,NV,United States,2016.DOI:10.1109/CVPR.2016.91.

[68] LIU W,ANGUELOV D,ERHAN D,et al.SSD: single shot multiBox detector[Z].European Conference on Computer Vision (ECCV 2016),Amsterdam,The Netherlands,2016.DOI: 10.1007/978-3-319-46448-0_2.

[69] SAINATH T N,KINGSBURY B,SAON G,et al.Deep convolutional neural networks for large-scale speech tasks[J].Neural Networks,2015,64:39-48.DOI:10.1016/j.neunet.2014.08.005.

[70] QIAN Y M,BI M X,TAN T,et al.Very deep convolutional neural networks for noise robust speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(2):2263-2276.DOI: 10.1109/TASLP.2016.2602884.

[71] DONG C,LOY C C,HE K M,et al.Image super-resolution using deep convolutional networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295-307.DOI: 10.1109/TPAMI.2015.2439281.

Convolutionalneuralnetworkanditsresearchadvances

ZHAIJunhai1,ZHANGSufang2,HAOPu1

(1.Key Laboratory of Machine Learning and Computational Intelligence,College of Mathematics and Information Science,Hebei University,Baoding 071002,China;2.Hebei Branch of Meteorological Cadres Training Institute,China Meteorological Administration,Baoding 071002,China)

Deep learning is the most popular research topic in the field of machine learning,AlphaGo which overwhelmingly impacts the world is trained with deep learning algorithms.Convolution neural network (CNN) is a model trained with deep learning algorithm,CNN is widely and successfully applied in computer version.The main purpose of this paper includes two aspects:one is to provide readers with some insights into CNN including its architecture,related concepts,operations and its training; the other is to present a comprehensive survey on research advances of CNN,mainly focusing on 4 aspects: activation functions,pooling,training and applications of CNN.Furthermore,the emerging challenges and hot research topics of CNN are also discussed.This paper can be very helpful to researchers in related field.

machine learning; deep learning; convolutional neural network; computer version; training algorithms

10.3969/j.issn.1000-1565.2017.06.012

2017-09-09

國家自然科學基金資助項目(71371063);河北省自然科學基金資助項目(F2017201026);河北大學自然科學研究計劃項目(799207217071)

翟俊海(1964—),男,河北易縣人,河北大學教授,博士,主要從事機器學習和數據挖掘方向研究.

E-mail:mczjh@126.com

張素芳(1966—),女,河北蠡縣人,中國氣象局氣象干部培訓學院河北分院副教授,主要從事機器學習方向研究.

E-mail:mczsf@126.com

TP181

A

1000-1565(2017)06-0640-12

孟素蘭)

猜你喜歡
方法模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 真人免费一级毛片一区二区 | 亚洲国产精品一区二区高清无码久久| 国产高清免费午夜在线视频| 四虎影视国产精品| 亚洲国产精品不卡在线| 狠狠操夜夜爽| 人人看人人鲁狠狠高清| 国产精品短篇二区| 91国内在线视频| 在线日韩一区二区| 国产成人区在线观看视频| 久久无码av三级| 久久免费精品琪琪| 亚洲一区黄色| 亚洲视频一区在线| 久久性妇女精品免费| 91福利免费视频| 国产高颜值露脸在线观看| 国产乱子伦精品视频| 亚洲精品国产成人7777| 亚洲欧洲日产无码AV| 毛片网站在线看| 国产一区二区三区精品久久呦| 欧美第九页| 2021国产在线视频| 99精品高清在线播放| 中文字幕亚洲乱码熟女1区2区| a毛片免费观看| AV不卡无码免费一区二区三区| 国产免费a级片| 99在线视频免费| 久久人午夜亚洲精品无码区| 国产专区综合另类日韩一区| h视频在线播放| 欧美日韩成人在线观看| 精品久久久久久中文字幕女 | 在线a视频免费观看| 狠狠色噜噜狠狠狠狠奇米777| 欧美天堂久久| 国内老司机精品视频在线播出| 亚洲无码视频喷水| 精品国产免费人成在线观看| 国产日韩av在线播放| 亚洲一级无毛片无码在线免费视频| 无码人妻热线精品视频| 国产精品中文免费福利| 久久九九热视频| 国产精品尤物在线| 欧亚日韩Av| 国产乱子伦无码精品小说| 凹凸精品免费精品视频| 欧美成人亚洲综合精品欧美激情| 中文字幕无码av专区久久| 亚洲精品你懂的| 亚洲午夜综合网| JIZZ亚洲国产| 色香蕉影院| 国产午夜看片| 日本手机在线视频| 亚洲AV成人一区国产精品| 亚洲精品成人7777在线观看| 一级香蕉人体视频| 秋霞一区二区三区| 久久国产精品夜色| 欧美精品亚洲精品日韩专| 久久精品这里只有国产中文精品| 成人精品视频一区二区在线| 成人免费午夜视频| 精品丝袜美腿国产一区| 午夜视频日本| 日韩区欧美区| 99偷拍视频精品一区二区| 国产欧美日韩视频怡春院| 午夜不卡视频| 无码免费的亚洲视频| 国产丰满成熟女性性满足视频| 9丨情侣偷在线精品国产| 国产精品55夜色66夜色| 国产91丝袜在线播放动漫| 在线观看国产精美视频| 免费视频在线2021入口| 亚洲无码一区在线观看|