999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經網絡研究綜述

2016-11-01 17:57:12李彥冬郝宗波雷航
計算機應用 2016年9期
關鍵詞:特征研究

李彥冬 郝宗波 雷航

摘要:

近年來,卷積神經網絡在圖像分類、目標檢測、圖像語義分割等領域取得了一系列突破性的研究成果,其強大的特征學習與分類能力引起了廣泛的關注,具有重要的分析與研究價值。首先回顧了卷積神經網絡的發(fā)展歷史,介紹了卷積神經網絡的基本結構和運行原理,重點針對網絡過擬合、網絡結構、遷移學習、原理分析四個方面對卷積神經網絡在近期的研究進行了歸納與分析,總結并討論了基于卷積神經網絡的相關應用領域取得的最新研究成果,最后指出了卷積神經網絡目前存在的不足以及未來的發(fā)展方向。

關鍵詞:

卷積神經網絡;深度學習;特征表達;神經網絡;遷移學習

中圖分類號:

TP181

文獻標志碼:A

Abstract:

In recent years, Convolutional Neural Network (CNN) has made a series of breakthrough research results in the fields of image classification, object detection, semantic segmentation and so on. The powerful ability of CNN for feature learning and classification attracts wide attention, it is of great value to review the works in this research field. A brief history and basic framework of CNN were introduced. Recent researches on CNN were thoroughly summarized and analyzed in four aspects: overfitting problem, network structure, transfer learning and theoretic analysis. Stateoftheart CNN based methods for various applications were concluded and discussed. At last, some shortcomings of the current research on CNN were pointed out and some new insights for the future research of CNN were presented.

英文關鍵詞Key words:

Convolutional Neural Network (CNN); deep learning; feature representation; neural network; transfer learning

0引言

圖像特征的提取與分類一直是計算機視覺領域的一個基礎而重要的研究方向。卷積神經網絡(Convolutional Neural Network, CNN)提供了一種端到端的學習模型,模型中的參數可以通過傳統(tǒng)的梯度下降方法進行訓練,經過訓練的卷積神經網絡能夠學習到圖像中的特征,并且完成對圖像特征的提取和分類。作為神經網絡領域的一個重要研究分支,卷積神經網絡的特點在于其每一層的特征都由上一層的局部區(qū)域通過共享權值的卷積核激勵得到。這一特點使得卷積神經網絡相比于其他神經網絡方法更適合應用于圖像特征的學習與表達。

早期的卷積神經網絡結構相對簡單,如經典的LeNet5模型[1],主要應用在手寫字符識別、圖像分類等一些相對單一的計算機視覺應用領域中。隨著研究的不斷深入,卷積神經網絡的結構不斷優(yōu)化,其應用領域也逐漸得到延伸。例如,卷積神經網絡與深信度網絡(Deep Belief Network, DBN)[2]相結合產生的卷積深信度網絡(Convolutional Deep Belief Network, CDBN)[3]作為一種非監(jiān)督的生成模型,被成功地應用于人臉特征提取[4];AlexNet[5]在海量圖像分類領域取得了突破性的成果;基于區(qū)域特征提取的 RCNN(Regions with CNN)[6]在目標檢測領域取得了成功;全卷積網絡(Fully Convolutional Network, FCN)[7]實現了端到端的圖像語義分割,并且在準確率上大幅超越了傳統(tǒng)的語義分割算法。近年來,卷積神經網絡的結構研究仍然有著很高的熱度,一些具有優(yōu)秀性能的網絡結構被提出[8-10]。并且,隨著遷移學習理論[11]在卷積神經網絡上的成功應用,卷積神經網絡的應用領域得到了進一步的擴展[12-13]。卷積神經網絡在各個領域不斷涌現出來的研究成果,使其成為了當前最受關注的研究熱點之一。

1卷積神經網絡的研究歷史與意義

1.1卷積神經網絡的研究歷史

卷積神經網絡的研究歷史大致可以分為三個階段:理論提出階段、模型實現階段以及廣泛研究階段。

1)理論提出階段。20世紀60年代,Hubel和Wiesel的等[14]的生物學研究表明,視覺信息從視網膜傳遞到大腦中是通過多個層次的感受野(Receptive Field)激發(fā)完成的。1980年,Fukushima第一次提出了一個基于感受野的理論模型Neocognitron[15]。Neocognitron是一個自組織的多層神經網絡模型,每一層的響應都由上一層的局部感受野激發(fā)得到,對于模式的識別不受位置、較小形狀變化以及尺度大小的影響。Neocognitron采用的無監(jiān)督學習也是卷積神經網絡早期研究中占據主導地位的學習方式。

2)模型實現階段。1998年,Lecun等[1]提出的LeNet5采用了基于梯度的反向傳播算法對網絡進行有監(jiān)督的訓練。經過訓練的網絡通過交替連接的卷積層和下采樣層將原始圖像轉換成一系列的特征圖,最后,通過全連接的神經網絡針對圖像的特征表達進行分類。卷積層的卷積核完成了感受野的功能,可以將低層的局部區(qū)域信息通過卷積核激發(fā)到更高的層次。LeNet5在手寫字符識別領域的成功應用引起了學術界對于卷積神經網絡的關注。同一時期,卷積神經網絡在語音識別[16]、物體檢測[17]、人臉識別[18]等方面的研究也逐漸開展起來。

3)廣泛研究階段。2012年,Krizhevsky等[5]提出的AlexNet在大型圖像數據庫ImageNet[19]的圖像分類競賽中以準確度超越第二名11%的巨大優(yōu)勢奪得了冠軍,使得卷積神經網絡成為了學術界的焦點。AlexNet之后,不斷有新的卷積神經網絡模型被提出,比如牛津大學的VGG(Visual Geometry Group)[8]、Google的GoogLeNet[9]、微軟的ResNet[10]等,這些網絡刷新了AlexNet在ImageNet上創(chuàng)造的紀錄。并且,卷積神經網絡不斷與一些傳統(tǒng)算法相融合,加上遷移學習方法的引入,使得卷積神經網絡的應用領域獲得了快速的擴展。一些典型的應用包括:卷積神經網絡與遞歸神經網絡(Recurrent Neural Network, RNN)結合用于圖像的摘要生成[20-21]以及圖像內容的問答[22-23];通過遷移學習的卷積神經網絡在小樣本圖像識別數據庫上取得了大幅度準確度提升[24];以及面向視頻的行為識別模型——3D卷積神經網絡[25],等。

1.2卷積神經網絡的研究意義

卷積神經網絡領域目前已經取得了許多令人矚目的研究成果,但是隨之而來的是更多的挑戰(zhàn),其研究意義主要體現在三個方面:理論研究挑戰(zhàn)、特征表達研究、應用價值。

1)理論研究挑戰(zhàn)。卷積神經網絡作為一種受到生物學研究啟發(fā)的經驗方法,學術界普遍采用的是以實驗效果為導向的研究方式。比如GoogLeNet的Inception模塊設計、VGG的深層網絡以及ResNet的short connection等方法都通過實驗證實了其對于網絡性能改善的有效性;但是,這些方法都存在缺乏嚴謹的數學驗證問題。造成這一問題的根本原因是卷積神經網絡本身的數學模型沒有得到完善的數學驗證與解釋。從學術研究的角度來說,卷積神經網絡的發(fā)展沒有理論研究的支持是不夠嚴謹和不可持續(xù)的。因此,卷積神經網絡的相關理論研究是當前最為匱乏也是最有價值的部分。

2)特征表達。圖像的特征設計一直是計算機視覺領域的一個基礎而重要的課題。在以往的研究中,一些典型的人工設計特征被證明取得了良好的特征表達效果,如SIFT (ScaleInvariant Feature Transform)[26]、HOG(Histogram of Oriented Gradient)[27]等。但是,這些人工設計特征也存在缺乏良好的泛化性能問題。卷積神經網絡作為一種深度學習[28-29]模型,具有分層學習特征的能力[24]。研究[30-31]表明,通過卷積神經網絡學習得到的特征相對于人工設計特征具有更強的判別能力和泛化能力。特征表達作為計算機視覺的研究基礎,如何利用卷積神經網絡學習、提取、分析信息的特征表達,從而獲得判別性能更強,泛化性能更好的通用特征,將對整個計算機視覺乃至更廣泛的領域產生積極的影響。

3)應用價值。卷積神經網絡經過多年的發(fā)展,從最初較為簡單的手寫字符識別[1]應用,逐漸擴展到一些更加復雜的領域,如:行人檢測[32]、行為識別[25,33]、人體姿勢識別[34],等。

近期,卷積神經網絡的應用進一步向更深層次的人工智能發(fā)展,如:自然語言處理[35-36]、語音識別[37],等。最近,由Google開發(fā)的人工智能圍棋程序Alphago[38]成功利用了卷積神經網絡分析圍棋盤面信息,并且在挑戰(zhàn)賽中接連戰(zhàn)勝了圍棋歐洲冠軍和世界冠軍,引起了廣泛的關注。從當前的研究趨勢來看,卷積神經網絡的應用前景充滿了可能性,但同時也面臨著一些研究難題,比如:如何改進卷積神經網絡的結構,以提高網絡對于特征的學習能力;如何將卷積神經網絡以合理的形式融入新的應用模型中。

2卷積神經網絡基本原理

2.1卷積神經網絡的基本結構

如圖1所示,典型的卷積神經網絡主要由輸入層、卷積層、下采樣層(池化層)、全連接層和輸出層組成。

卷積神經網絡的輸入通常為原始圖像X。本文用Hi表示卷積神經網絡第i層的特征圖(H0=X)。假設Hi是卷積層,Hi的產生過程可以描述為:

Hi=f(Hi-1Wi+bi)(1)

其中:Wi表示第i層卷積核的權值向量;運算符號“”代表卷積核與第i-1層圖像或者特征圖進行卷積操作,卷積的輸出與第i層的偏移向量bi相加,最終通過非線性的激勵函數f(x)得到第i層的特征圖Hi。

下采樣層通常跟隨在卷積層之后,依據一定的下采樣規(guī)則[39]對特征圖進行下采樣。下采樣層的功能主要有兩點:1)對特征圖進行降維;2)在一定程度上保持特征的尺度不變特性。假設Hi是下采樣層:

Hi=subsampling(Hi-1)(2)

經過多個卷積層和下采樣層的交替?zhèn)鬟f,卷積神經網絡依靠全連接網絡對針對提取的特征進行分類,得到基于輸入的概率分布Y(li表示第i個標簽類別)。如式(3)所示,卷積神經網絡本質上是使原始矩陣(H0)經過多個層次的數據變換或降維,映射到一個新的特征表達(Y)的數學模型。

Y(i)=P(L=li|H0;(W,b))(3)

卷積神經網絡的訓練目標是最小化網絡的損失函數L(W,b)。輸入H0經過前向傳導后通過損失函數計算出與期望值之間的差異,稱為“殘差”。常見損失函數有均方誤差(Mean Squared Error, MSE)函數,負對數似然(Negative Log Likelihood, NLL)函數等[40]:

MSE(W,b)=1|Y|∑|Y|i=1(Y(i)-(i))2(4)

NLL(W,b)=-∑|Y|i=1log Y(i)(5)

為了減輕過擬合的問題,最終的損失函數通常會通過增加L2范數以控制權值的過擬合,并且通過參數λ(weight decay)控制過擬合作用的強度:

E(W,b)=L(W,b)+λ2WTW(6)

訓練過程中,卷積神經網絡常用的優(yōu)化方法是梯度下降方法。殘差通過梯度下降進行反向傳播,逐層更新卷積神經網絡的各個層的可訓練參數(W和b)。學習速率參數(η)用于控制殘差反向傳播的強度:

Wi=Wi-ηE(W,b)Wi(7)

bi=bi-ηE(W,b)bi(8)

2.2卷積神經網絡的工作原理

基于2.1節(jié)的定義,卷積神經網絡的工作原理可以分為網絡模型定義、網絡訓練以及網絡的預測三個部分:

1)網絡模型定義。網絡模型的定義需要根據具體應用的數據量以及數據本身的特點,設計網絡深度、網絡每一層的功能,以及設定網絡中的超參數,如:λ、η等。針對卷積神經網絡的模型設計有不少的研究,比如模型深度方面[8,10]、卷積的步長方面[24,41]、激勵函數方面[42-43]等。此外,針對網絡中的超參數選擇,也存在一些有效的經驗總結[44]。但是,目前針對網絡模型的理論分析和量化研究相對還比較匱乏。

2)網絡訓練。卷積神經網絡可以通過殘差的反向傳播對網絡中的參數進行訓練。但是,網絡訓練中的過擬合以及梯度的消逝與爆炸等問題[45]極大影響了訓練的收斂性能。針對網絡訓練的問題,一些有效的改善方法被提出,包括:基于高斯分布的隨機初始化網絡參數[5];利用經過預訓練的網絡參數進行初始化[8];對卷積神經網絡不同層的參數進行相互獨立同分布的初始化[46]。根據近期的研究趨勢,卷積神經網絡的模型規(guī)模正在迅速增大,而更加復雜的網絡模型也對相應的訓練策略提出了更高的要求。

3)網絡的預測。卷積神經網絡的預測過程就是通過對輸入數據進行前向傳導,在各個層次上輸出特征圖,最后利用全連接網絡輸出基于輸入數據的條件概率分布的過程。近期的研究表明,經過前向傳導的卷積神經網絡高層特征具有很強的判別能力和泛化性能[30-31];而且,通過遷移學習,這些特征可以被應用到更加廣泛的領域。這一研究成果對于擴展卷積神經網絡的應用領域具有重要的意義。

3卷積神經網絡研究進展

經過數十年的發(fā)展,卷積神經網絡從最初的理論原型,到能夠完成一些簡單的任務,再到近期取得大量研究成果,成為了一個受到廣泛關注的研究方向,其發(fā)展的推動力量主要來源于以下四個方面的基礎研究:1)卷積神經網絡過擬合問題的相關研究提高了網絡的泛化性能;2)卷積神經網絡結構的相關研究提高了網絡擬合海量數據的能力;3)卷積神經網絡的原理分析指導著網絡結構的發(fā)展,同時也提出了全新的具有挑戰(zhàn)性的問題;4)基于遷移學習的卷積神經網絡相關研究拓展了卷積神經網絡的應用領域。

3.1卷積神經網絡的過擬合問題

過擬合(overfitting)[40]是指學習模型在訓練過程中參數過度擬合訓練數據集,從而影響到模型在測試數據集上的泛化性能的現象。卷積神經網絡的結構層次比較復雜,目前的研究針對卷積神經網絡的卷積層、下采樣層以及全連接層的過擬合問題均有涉及。當前主要的研究思路是通過增加網絡

的稀疏性以及隨機性,以改善網絡的泛化性能。

Hinton等[47]提出的Dropout通過在訓練過程中隨機地忽略一定比例的節(jié)點響應,減輕了傳統(tǒng)全連接神經網絡的過擬合問題,有效地提高了網絡的泛化性能。但是,Dropout對于卷積神經網絡的性能改善并不明顯,其主要原因是卷積神經網絡由于卷積核的權值共享特性,相比于全連接的網絡大大減少了訓練參數的數量,本身就避免了較為嚴重的過擬合現象。因此,作用于全連接層的Dropout方法對于卷積神經網絡整體的去過擬合效果不夠理想。

基于Dropout的思想,Wan等[48]提出了DropConnect的方法。與Dropout忽略全連接層的部分節(jié)點響應不同,DropConnect隨機地將神經網絡卷積層一定比例的連接斷開。對于卷積神經網絡,作用于卷積層的DropConnect相比作用于全連接層的Dropout具有更強的去過擬合能力。

與DropConnect類似,Goodfellow等[42]提出了作用于卷積層的Maxout激勵函數。不同于DropConnect的是,Maxout只保留神經網絡的上一層節(jié)點往下一層的激勵最大值。并且,Goodfellow等[42]證明了Maxout函數可以擬合任意凸函數,在減輕過擬合問題的基礎上還具有強大的函數擬合能力。

如圖2所示,Dropout、DropConnect和Maxout三種方法雖然具體實現機制有所差別,但是其根本原理都是通過增加網絡連接的稀疏性或者隨機性以達到消除過擬合,提高網絡泛化能力的目的。

Lin等[43]指出了卷積神經網絡中的全連接網絡易過擬合的問題以及Maxout激活函數只能夠擬合凸函數的局限,提出了一種NIN(Network in Network)的網絡結構。一方面,NIN放棄了利用全連接網絡進行特征圖到概率分布的映射,采用了直接針對特征圖進行Global average pooling的方法獲取到最終的概率分布,在減少網絡中的參數數量的同時也避免了全連接網絡的過擬合問題;另一方面,NIN使用“微神經網絡”(micro neural network)取代傳統(tǒng)的激勵函數(如:Maxout)。理論上,微神經網絡突破了傳統(tǒng)激勵函數的局限,可以擬合任意的函數,使網絡具有了更好的擬合性能。

此外,針對卷積神經網絡的下采樣層,Zeiler和Fergus等[39]提出了一種隨機下采樣的方法(Stochastic pooling)來改善下采樣層的過擬合問題。與傳統(tǒng)的Average pooling和Max pooling分別指定了下采樣區(qū)域的均值和最大值進行下采樣的方式不同,Stochastic pooling依據概率分布進行隨機的下采樣操作,給下采樣的過程引入了隨機性。實驗表明,這種隨機性能夠有效提高卷積神經網絡的泛化性能。

目前針對卷積神經網絡過擬合問題的研究,主要還存在以下問題:1)針對過擬合現象的量化研究和評價標準的缺

失,使得當前的研究都只能通過實驗對比來證明新的方法對于過擬合問題的改善,而這種改善的程度和通用性都需要更為統(tǒng)一且通用的評價標準來進行衡量;2)針對卷積神經網絡,過擬合問題在各種層次(如:卷積層、下采樣層、全連接層)中的嚴重程度、改善空間及改進方法還有待進一步的探索。

3.2卷積神經網絡的結構

Lecun等[1]提出的LeNet5模型采用了交替連接的卷積層和下采樣層對輸入圖像進行前向傳導,并且最終通過全連接層輸出概率分布的結構是當前普遍采用的卷積神經網絡結構的原型。LeNet5雖然在手寫字符識別領域取得了成功,但是其存在的缺點也比較明顯,包括:1)難以尋找到合適的大型訓練集對網絡進行訓練以適應更為復雜的應用需求;2)過擬合問題使得LeNet5的泛化能力較弱;3)網絡的訓練開銷非常大,硬件性能支持的不足使得網絡結構的研究非常困難。以上三大制約卷積神經網絡發(fā)展的重要因素在近期的研究中取得了突破性的進展是卷積神經網絡成為一個新的研究熱點的重要原因。并且,近期針對卷積神經網絡的深度和結構優(yōu)化方面的研究進一步提升了網絡的數據擬合能力。

針對LeNet5的缺陷,Krizhevsky等[5]提出了AlexNet。AlexNet有5層卷積網絡,約65萬個神經元以及6000萬個可訓練參數,從網絡規(guī)模上大大超越了LeNet5。另外,AlexNet選擇了大型圖像分類數據庫ImageNet[19]作為訓練數據集。ImageNet提供了1000個類別共120萬張圖片進行訓練,圖片的數量和類別都大幅度超越了以往的數據集。在去過擬合方面,AlexNet引了dropout,一定程度上減輕了網絡過擬合問題。在硬件支持方面,AlexNet使用了GPU進行訓練,相比傳統(tǒng)的CPU運算,GPU使網絡的訓練速度提高了十倍以上。AlexNet在ImageNet的2012圖像分類競賽中奪得冠軍,并且相比于第二名的方法在準確度上取得了高出11%的巨大優(yōu)勢。AlexNet的成功使得卷積神經網絡的研究再次引起了學術界的關注。

Simonyan等[8]在AlexNet的基礎上,針對卷積神經網絡的深度進行了研究,提出了VGG網絡。VGG由3×3的卷積核構建而成,通過對比不同深度的網絡在圖像分類應用中的性能,Simonyan等證明了網絡深度的提升有助于提高圖像分類的準確度。然而,這種深度的增加并非沒有限制,在恰當的網絡深度基礎上繼續(xù)增加網絡的層數,會帶來訓練誤差增大的網絡退化問題[49]。因此,VGG的最佳網絡深度被設定在了16~19層。

針對深度網絡的退化問題,He等[10]分析認為如果網絡中增加的每一個層次都能夠得到優(yōu)化的訓練,那么誤差是不應該會在網絡深度加大的情況下提高的。因此,網絡退化問題說明了深度網絡中并不是每一個層次都得到了完善的訓練。He等提出了一種ResNet網絡結構。ResNet通過short connections將低層的特征圖x直接映射到高層的網絡中。假設原本網絡的非線性映射為F(x),那么通過short connection連接之后的映射關系就變?yōu)榱薋(x)+x。He等提出這一方法的依據是F(x)+x的優(yōu)化相比F(x)會更加容易。因為,從極端角度考慮,如果x已經是一個優(yōu)化的映射,那么short connection之間的網絡映射經過訓練后就會更趨近于0。這就意味著數據的前向傳導可以在一定程度上通過short connection跳過一些沒有經過完善訓練的層次,從而提高網絡的性能。實驗證明,ResNet雖然使用了和VGG同樣大小的卷積核,但是網絡退化問題的解決使其可以構建成為一個152層的網絡,并且ResNet相比VGG有更低訓練誤差和更高的測試準確度。雖然ResNet在一定程度上解決了深層網絡退化的問題,但是關于深層網絡的研究仍然存在一些疑問:1)如何判斷深度網絡中哪些層次未能得到完善的訓練;2)是什么原因導致深度網絡中部分層次訓練的不完善;3)如何處理深層網絡中訓練不完善的層次。

在卷積神經網絡深度的研究以外,Szegedy等[9]更關注通過優(yōu)化網絡結構從而降低網絡的復雜程度。他們提出了一種卷積神經網絡的基本模塊稱為Inception。如圖3所示,Inception模塊由1×1,3×3,5×5的卷積核組成,小尺度卷積核的使用主要有兩大優(yōu)點:1)控制了整個網絡中的訓練參數數量,降低了網絡的復雜度;2)不同大小的卷積核在多尺度上針對同一圖像或者特征圖進行了特征提取。實驗表明,使用Inception模塊構建的GoogLeNet的訓練參數數量只有AlexNet的1/12,但是在ImageNet上的圖像分類準確度卻高出AlexNet大約10%。

此外,Springenberg等[50]對卷積神經網絡下采樣層存在的必要性提出了質疑,并設計了不含下采樣層的“完全卷積網絡”。“完全卷積網絡”在結構上相比于傳統(tǒng)的卷積神經網絡結構更加簡單,但是其網絡性能卻不低于帶有下采樣層的傳統(tǒng)模型。

卷積神經網絡結構方面的研究是一個開放的問題,基于當前的研究狀況,目前的研究主要形成了兩大趨勢:1)增加卷積神經網絡的深度;2)優(yōu)化卷積神經網絡的結構,降低網絡的復雜度。在卷積神經網絡的深度研究方面,主要依賴于進一步分析深層次網絡存在的潛在隱患(如:網絡退化),以解決深層網絡的訓練問題(如:VGG、ResNet)。而在優(yōu)化網絡結構方面,目前的研究趨勢是進一步加強對于當前網絡結構的理解和分析,以更簡潔高效的網絡結構取代當前的結構,進一步地降低網絡復雜度并且提升網絡的性能(如:GoogLeNet、完全卷積網絡)。

3.3卷積神經網絡的原理分析

卷積神經網絡雖然在眾多應用領域已經取得了成功,但其原理的分析和解釋一直都是備受質疑的一個弱點。近期的一些研究開始采用可視化的方法對卷積神經網絡的原理進行了分析,直觀地比較了卷積神經網絡的學習特征與傳統(tǒng)人工設計特征的差異,展現了網絡從低層到高層的特征表達過程。

Donahue等[30]提出了利用tSNE[51]的方法來分析卷積神經網絡提取的特征。tSNE的原理是將高維特征降低到二維,然后在二維空間直觀地展示特征。利用tSNE,Donahue等將卷積神經網絡特征與傳統(tǒng)的人工設計特征GIST(GIST的含義是能夠激發(fā)記憶中場景類別的抽象場景)[52]和LLC(Localityconstrained Linear Coding)[53]進行了比較,發(fā)現判別能力更強的卷積神經網絡特征在tSNE的可視化結果中表現出了更好的區(qū)分度,證明了特征判別能力與tSNE可視化結果的一致性。但是,Donahue等的研究仍然遺留下來了以下問題:1)未能解釋卷積神經網絡提取的特征到底是什么;2)Donahue等挑選了卷積神經網絡部分層次的特征進行可視化,但是對于這些層次之間的關系并沒有進行分析;3)tSNE算法本身存在一定的局限性,對于特征類別過多的情況并不能很好地反映類別間的差異。

Zeiler和Fergus等[24]的研究較好地解決了tSNE的遺留問題。他們通過構建DeConvNet[54],對卷積神經網絡中不同層次的特征進行反卷積,展示了各個層次提取的特征狀況。圖4選取了卷積神經網絡各個層次的部分較強特征可視化結果,并且與像素空間的原始圖像的對應像素塊進行了對比。可以發(fā)現:卷積神經網絡較低的第一和第二層主要提取了邊緣、顏色等低層特征,第三層開始出現了較為復雜的紋理特征,而第四層和第五層開始出現了較為完整的個體輪廓和形狀特征。通過可視化各個層次的特征,Zeiler和Fergus等改進了AlexNet的卷積核大小和步長,提升了網絡性能。并且,他們還利用可視化特征對卷積神經網絡的圖像遮擋敏感性、物體部件相關性以及特征不變性進行了分析。Zeiler和Fergus等的研究體現了卷積神經網絡的原理研究對于改進卷積神經網絡的結構與性能具有重大的指導意義。

Nguyen等[55]對卷積神經網絡提取特征的完備性提出了質疑。如圖5所示,Nguyen等通過進化算法[56]將原始圖像處理成在人類看來根本無法識別和解釋的一種形式,但是卷積神經網絡對于這些轉換后的圖像形式卻給出了非常確切的物體類別判斷。Nguyen等的研究并沒有針對出現這一現象的原因作出明確的解釋,只是證明了卷積神經網絡雖然具有分層的特征提取能力,但在圖像的識別機理上并不是與人類完全一致。這一現象表明了當前的研究對于卷積神經網絡的原理認知與分析還存在很大的不足。

總體來說,目前針對卷積神經網絡原理的研究與分析還相當地不足,主要存在的問題包括:1)與傳統(tǒng)的人工設計特征不同,卷積神經網絡的特征受到特定的網絡結構、學習算法以及訓練集等多種因素影響,其原理的分析與解釋相比人工設計特征更加地抽象和困難;2)Nguyen等[55]的研究展示了卷積神經網絡出現的被“欺騙”現象引起了人們對于其完備性的關注。雖然卷積神經網絡是基于仿生學的研究而來,但是如何解釋卷積神經網絡與人類視覺的差異,如何使卷積神經網絡的識別機制更加完備,仍然是有待解決的問題。

3.4卷積神經網絡的遷移學習

遷移學習的定義是:“運用已存有的知識對不同但相關領域問題進行求解的一種機器學習方法”[57],其目標是完成知識在相關領域之間的遷移[11]。對于卷積神經網絡而言,遷移學習就是要把在特定數據集上訓練得到的“知識”成功運用到新的領域之中。如圖6所示,卷積神經網絡的遷移學習的一般流程是:1)在特定應用之前,先利用相關領域大型數據集(如ImageNet)對網絡中的隨機初始化參數進行訓練;2)利用訓練好的卷積神經網絡,針對特定應用領域的數據(如Caltech)進行特征提取;3)利用提取后的特征,針對特定應用領域的數據訓練卷積神經網絡或者分類器。

相比直接在目標數據集上訓練網絡的傳統(tǒng)方法,Zeiler和Fergus等[24]讓卷積神經網絡在ImageNet數據集上進行預訓練,然后再將網絡分別在圖像分類數據集Caltech101[58]和Caltech256[59]上進行遷移訓練和測試,其圖像分類準確度提高了約40%。但是,ImageNet和Caltech都屬于物體識別數據庫,其遷移學習的領域相對比較接近,對于跨度更大領域的研究還存在不足。于是,Donahue等[30]采用了與Zeiler類似的策略,通過基于ImageNet的卷積神經網絡預訓練,成功地將卷積神經網絡的遷移學習應用到了與物體識別差異更大的領域,包括:domain adaption、subcategory recognition以及scene recognition等。

除了卷積神經網絡在各個領域的遷移學習研究,Razavian等[31]還對卷積神經網絡不同層次特征的遷移學習效果進行了探索,發(fā)現卷積神經網絡的高層特征相對于低層特征具有更好的遷移學習能力。

Zhou等[60]利用了大型的圖像分類數據庫(ImageNet)和場景識別數據庫(Places[60])分別對兩個相同結構的卷積神經網絡進行了預訓練,并且在一系列的圖像分類和場景識別數據庫上進行了遷移學習效果的驗證。實驗結果顯示,經過ImageNet和Places預訓練的網絡分別在各自領域的數據庫上取得的遷移學習效果更好,這一事實說明了領域的相關性對于卷積神經網絡的遷移學習具有一定的影響。

關于卷積神經網絡遷移學習的研究,其意義包括:1)解決卷積神經網絡在小樣本條件下的訓練樣本不足問題;2)對于卷積神經網絡的遷移利用,能大幅度減少網絡的訓練開銷;3)利用遷移學習能進一步擴大卷積神經網絡的應用領域。

卷積神經網絡遷移學習還有待進一步研究的內容包括:1)訓練樣本的數量對于遷移學習效果的影響,以及遷移學習對于擁有不同訓練樣本數量的應用的效果還有待進一步的研究;2)基于卷積神經網絡本身的結構,進一步分析卷積神經網絡體系中各個層次的遷移學習能力;3)分析領域間相關性對于遷移學習的作用,尋找優(yōu)化的跨領域遷移學習策略。

4卷積神經網絡的應用分析

隨著網絡性能的提升和遷移學習方法的使用,卷積神經網絡的相關應用也逐漸向復雜化和多元化發(fā)展。總體來說,卷積神經網絡的應用主要呈現出以下四大發(fā)展趨勢:

1)隨著卷積神經網絡相關研究的不斷推進,其相關應用領域的精度也得到了迅速的提高。以圖像分類領域的研究為例,在AlexNet將ImagNet的圖像分類準確度大幅提升到84.7%之后,不斷有改進的卷積神經網絡模型被提出并刷新了AlexNet的紀錄,具有代表性的網絡包括:VGG[8]、GoogLeNet[9]、PReLUnet[46]和BNinception[61]等。最近,由微軟提出的ResNet[10]已經將ImageNet的圖像分類準確度提高到了96.4%,而ResNet距離AlexNet的提出,也僅過去了四年的時間。卷積神經網絡在圖像分類領域的迅速發(fā)展,不斷提升已有數據集的準確度,也給更加大型的圖像應用相關數據庫的設計帶來了迫切的需求。

2)實時應用領域的發(fā)展。計算開銷一直是卷積神經網絡在實時應用領域發(fā)展的阻礙。但是,近期的一些研究展現了卷積神經網絡在實時應用中的潛力。Gishick等[6,62]和Ren等[63]在基于卷積神經網絡的物體檢測領域進行了深入的研究,先后提出了RCNN[6]、Fast RCNN[62]和Faster RCNN[63]模型,突破了卷積神經網絡的實時應用瓶頸。RCNN成功地提出了利用CNN在region proposals[64]的基礎上進行物體檢測。RCNN雖然取得了很高的物體檢測準確度,但是過多的region proposals使得物體檢測的速度非常緩慢。Fast RCNN通過在region proposals之間共享卷積特征,大幅減少了大量region proposals帶來的計算開銷,在忽略產生region proposals的時間情況下,Fast RCNN取得了接近實時的物體檢測速度。而Faster RCNN則是通過利用端到端的卷積神經網絡[7]提取region proposals取代了傳統(tǒng)的效率較低的方法[64],實現了卷積神經網絡對于物體的實時檢測。隨著硬件性能的不斷提高,以及通過改進網絡結構帶來的網絡復雜度的降低,卷積神經網絡在實時圖像處理任務領域逐漸展現出了應用前景。

3)隨著卷積神經網絡性能的提升,相關應用的復雜程度也隨之提高。一些具有代表性的研究包括:Khan等[65]通過利用兩個卷積神經網絡分別學習圖像中的區(qū)域特征和輪廓特征,完成了陰影檢測任務;卷積神經網絡在人臉檢測和識別的應用中也取得了巨大的進步,取得了接近人類的人臉識別效果[66-67];Levi等[68]利用卷積神經網路學習到的人臉細微特征,進一步實現了對人的性別和年齡進行預測;Long等[7]提出的FCN結構實現了圖像與語義的端到端映射;Zhou等[60]研究了利用卷積神經網絡進行圖像識別與更為復雜的場景識別任務之間的相互聯系;Ji等[25]利用了3D卷積神經網絡實現了行為識別。目前,卷積神經網絡的性能和結構仍然處于高速的發(fā)展階段,其相關的復雜應用在接下來的一段時間內都將保持其研究熱度。

4)基于遷移學習以及網絡結構的改進,卷積神經網絡逐漸成為了一種通用的特征提取與模式識別工具,其應用范圍已經逐漸超越了傳統(tǒng)的計算機視覺領域。比如,AlphaGo成功地利用了卷積神經網絡對圍棋的盤面形勢進行判斷[38],證明了卷積神經網絡在人工智能領域的成功應用;AbdelHamid等[37]通過將語音信息建模成符合卷積神經網絡的輸入模式,并結合隱馬爾可夫模型(Hidden Markov Model, HMM),將卷積神經網絡成功地應用到了語音識別領域;Kalchbrenner等[35]利用卷積神經網絡提取了詞匯和句子層面的信息,成功地將卷積神經網絡應用于自然語言處理;Donahue等[20]結合了卷積神經網絡和遞歸神經網絡,提出了LRCN(Longterm Recurrent Convolutional Network)模型,實現了圖像摘要的自動生成。卷積神經網絡作為一種通用的特征表達工具,逐漸表現出了在更加廣泛的應用領域中的研究價值。

從目前的研究形勢來看,一方面,卷積神經網絡在其傳統(tǒng)應用領域的研究熱度不減,如何改善網絡的性能仍有很大的研究空間;另一方面,卷積神經網絡良好的通用性能使其應用領域逐漸擴大,應用的范圍不再局限于傳統(tǒng)的計算機視覺領域,并且向應用的復雜化、智能化和實時化發(fā)展。

5卷積神經網絡的缺陷與發(fā)展方向

目前,卷積神經網絡正處于研究熱度非常高的階段,該領域仍然存在的一些問題以及發(fā)展方向,包括:

1)完備的數學解釋和理論指導是卷積神經網絡進一步發(fā)展過程中無法回避的問題。作為一個基于實證的研究領域,卷積神經網絡的理論研究目前還相對比較滯后。卷積神經網絡的相關理論研究對卷積神經網絡的進一步發(fā)展具有非常重要的意義。

2)卷積神經網絡的結構研究還具有很大的空間。目前的研究表明,僅僅通過簡單地增加網絡的復雜程度,會遇到一系列的瓶頸,如:過擬合問題,網絡退化問題等。卷積神經網絡性能的提升需要依靠更加合理的網絡結構設計。

3)卷積神經網絡的參數眾多,但是目前的相關設置大多基于經驗和實踐,參數的量化分析與研究是卷積神經網絡的一個有待解決的問題。

4)卷積神經網絡的模型結構不斷改進,舊有的數據集已經不能滿足當前的需求。數據集對于卷積神經網絡的結構研究和遷移學習研究等都具有重要意義。數量和類別更多、數據形式更為復雜是當前相關研究數據集的發(fā)展趨勢。

5)遷移學習理論的應用,有助于進一步拓展卷積神經網絡向更為廣闊的應用領域發(fā)展;并且,基于任務的端到端卷積神經網絡的設計(如:Faster RCNN, FCN等)有助于提升網絡的實時性,是目前的發(fā)展趨勢之一。

6)雖然卷積神經網絡在眾多應用領域取得了優(yōu)異的成績,但是關于其完備性的相關研究與證明仍然是目前較為匱乏的部分。卷積神經網絡的完備性研究有助于進一步理解卷積神經網絡與人類視覺系統(tǒng)之間的原理差異,并且?guī)椭l(fā)現和解決當前網絡結構存在的認知缺陷。

6結語

本文對卷積神經網絡的歷史、原理進行了簡要的介紹,重點從卷積神經網絡的過擬合問題、結構研究、原理分析、遷移學習共四個方面對卷積神經網絡當前的發(fā)展狀況進行了綜述。另外,本文還對于目前卷積神經網絡已經取得的一些應用成果進行了分析,指出了當前卷積神經網絡相關研究的一些缺陷及發(fā)展方向。卷積神經網絡是當下一個具有很高熱度的研究領域,具有廣闊的研究前景。本文希望通過對卷積神經網絡已有的研究成果進行總結分析,能夠對從事本領域研究的科研人員有所幫助,推動這一領域相關研究的發(fā)展。

參考文獻:

[1]

LECUN Y, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[2]

HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.

[3]

LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations [C]// ICML 09: Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 609-616.

[4]

HUANG G B, LEE H, ERIK G. Learning hierarchical representations for face verification with convolutional deep belief networks [C]// CVPR 12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2518-2525.

[5]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1106-1114.

[6]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.

[7]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440.

[8]

SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for LargeScale Image Recognition [C]// International Conference on Learning Representations. San Diego: CoRR, 2015.

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition [EB/OL]. [20151104]. http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.

[9]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-8.

[10]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Press, 2016.

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [EB/OL]. [20160104]. https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.

[11]

PAN S J, YANG Q. A survey on transfer learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

[12]

COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.

[13]

OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring midlevel image representations using convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1717-1724.

[14]

HUBEL D H, WIESEL T N. Receptive fields, binocular interaction, and functional architecture in the cats visual cortex [J]. Journal of Physiology, 1962, 160(1): 106-154.

[15]

FUKUSHIMA K. Neocognitron: a selforganizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological Cybernetics, 1980, 36(4): 193-202.

[16]

WAIBEL A, HANAZAWA T, HINTON G, et al. Phoneme recognition using timedelay neural networks [M]// Readings in Speech Recognition. Amsterdam: Elsvier, 1990: 393-404. IEEE Transactions on Acoustics Speech Signal Process, 1989, 37(3): 328-339.

[17]

VAILLANT R, MONROCQ C, LECUN Y. Original approach for the localization of objects in images [C]// In Proceedings of Vision, Image, and Signal Processing. 1994, 141(4): 245-250.

VAILLANT R, MONROCQ C, LE CUN Y. Original approach for the localization of objects in images [J]. IEE Proceedings—Vision, Image and Signal Processing, 1994, 141(4): 245-250.

[18]

LAWRENCE S, GILES C L, TSOI A C, et al. Face recognition: a convolutional neuralnetwork approach [J]. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.

[19]

DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009:248-255.

[20]

DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Longterm recurrent convolutional networks for visual recognition and description [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.

[21]

VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3156-3164.

[22]

MALINOWSKI M, ROHRBACH M, FRITZ M. Ask your neurons: a neuralbased approach to answering questions about images [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1-9.

[23]

ANTOL S, AGRAWAL A, LU J, et al. VQA: visual question answering [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 2425-2433.

[24]

ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// Proceedings of European Conference on Computer Vision, LNCS 8689. Berlin: Springer, 2014: 818-833.

[25]

JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

[26]

LOWE D G. Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[27]

DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 886-893.

[28]

LECUN Y, BENGIO Y, HINTON G E. Deep learning [J]. Nature, 2015, 521(7553): 436-444.

[29]

孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.(SUN Z J, XUE L, XU Y M, et al. Overview of deep learning [J]. Application Research of Computers, 2012, 29(8): 2806-2810)

[30]

DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition [C]// Proceedings of International Conference on Machine Learning. Beijing: ACM Press, 2014: 647-655.

DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition [J]. Computer Science, 2013, 50(1): 815-830.

[31]

RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features offtheshelf: an astounding baseline for recognition [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE Press, 2014: 512-519.

RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features offtheshelf: an astounding baseline for recognition [EB/OL]. [20151122]. http://www.csc.kth.se/~azizpour/papers/ha_cvpr14w.pdf.

[32]

SERMANET P, KAVUKCUOGLU K, CHINTALA S, et al. Pedestrian detection with unsupervised multistage feature learning [C]// CVPR 13: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3626-3633.

[33]

KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks [C]// CVPR 14: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.

[34]

TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1653-1660.

[35]

KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [C]// Proceedings of Annual Meeting of the Association for Computational Linguistics. Baltimore: ACL Press, 2014: 655-665.

KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [EB/OL]. [20160107]. http://anthology.aclweb.org/P/P14/P141062.pdf.

[36]

KIM Y. Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL Press, 2014: 1746–1751.

KIM Y. Convolutional neural networks for sentence classification [EB/OL]. [20160107]. http://anthology.aclweb.org/D/D14/D141181.pdf.

[37]

ABDELHAMID O, MOHAMMED A, JIANG H, et al. Convolutional neural networks for speech recognition [J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2014, 22(10): 1533-1545.

[38]

SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-489.

[39]

ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [C]// Proceedings of International Conference on Learning Representations. Scottsdale: CoRR, 2013.

ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [20160111].

[40]

MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge, MA: MIT Press, 2012: 82-92.

[41]

CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [C]// British Machine Vision Conference. Nottingham: BMVA, 2014.

CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [EB/OL]. [20160112]. http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/chatfield14return.pdf.

[42]

GOODFELLOW I J, WARDEFARLEY D, MIRZA M, et al. Maxout networks [C]// Proceedings of the 2013 International Conference on Machine Learning. New York: ACM, 2013:1319-1327.

GOODFELLOW I J, WARDEFARLEY D, MIRZA M, et al. Maxout networks [EB/OL]. [20160112]. http://wwwetud.iro.umontreal.ca/~goodfeli/maxout.pdf.

[43]

LIN M, CHEN Q, YAN S. Network in network [C]// Proceedings of International Conference on Learning Representations. Banff: CoRR, 2014.

LIN M, CHEN Q, YAN S. Network in network [EB/OL]. [20160112]. http://arxiv.org/pdf/1312.4400v3.pdf.

[44]

MONTAVON G, ORR G, MLLER K R. Neural Networks: Tricks of the Trade [M]. 2nd ed. London: Springer, 2012: 49-131.

[45]

BENGIO Y, SIMARD P, FRASCONI P. Learning longterm dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.

[46]

HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing humanlevel performance on ImageNet classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1026-1034.

[47]

HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing coadaption of feature detectors [R/OL]. [20151026]. http://arxiv.org/pdf/1207.0580v1.pdf.

[48]

WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect [C]// Proceedings of the 2013 International Conference on Machine Learning. New York: ACM Press, 2013: 1058-1066.

http://cs.nyu.edu/~wanli/dropc/dropc_slides.pdf

[49]

HE K, SUN J. Convolutional neural networks at constrained time cost [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5353-5360.

[50]

SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: the all convolutional net [C]// International Conference on Learning Representations Workshop. San Diego: CoRR, 2015.

SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: the all convolutional net [EB/OL]. [20151224]. http://arxiv.org/pdf/1412.6806.pdf.

[51]

VAN DER MAATEN L, HINTON G. Visualizing data using tSNE [J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

VAN DER MAATEN L, HINTON G. Visualizing data using tSNE [EB/OL]. [20151224]. http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf.

[52]

OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope [J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[53]

WANG J, YANG J, YU K. Localityconstrained linear coding for image classification [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 3360-3367.

[54]

ZEILER M D, TAYLOR G W, FERGUS R. Adaptive deconvolutional networks for mid and high level feature learning [C]// ICCV 11: Proceedings of the 2011 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 2018-2025.

[55]

NGUYEN A, YOSINSKI J, CLUNE J, et al. Deep neural networks are easily fooled: high confidence predictions for unrecognizable images [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 427-436.

[56]

FLOREANO D, MATTIUSSI C. Bioinspired Artificial Intelligence: Theories Methods and Technologies [M]. Cambridge, MA: MIT Press, 2008: 1-97.

[57]

莊福振,羅平,何清,等.遷移學習研究進展[J].軟件學報,2015,26(1):26-39.(ZHUANG F Z, LUO P, HE Q, et al. Survey on transfer learning research [J]. Journal of Software, 2015, 26(1): 26-39.)

[58]

LI F, FERGUS R, PERONA P. Oneshot learning of object categories [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4):594-611.

[59]

GRIFFIN B G, HOLUB A, PERONA P. The Caltech256, caltech technical report [R]. In Caltech Technical Report, 2006.

GRIFFIN B G, HOLUB A, PERONA P. The Caltech256 [R/OL]. [20160103]. http://xueshu.baidu.com/s?wd=paperuri%3A%28699092e99ad6f96f8696507d539a51c8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseer.ist.psu.edu%2Fshowciting%3Fcid%3D11093943&ie=utf8&sc_us=16824823650146432853.

[60]

ZHOU B, LAPEDRIZA A, XIAO J, et al. Learning deep features for scene recognition using places database [C]// Proceedings of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press. 2014:487-495.

[61]

LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of International Conference on Machine Learning. New York: ACM Press, 2015: 448-456.

LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [20160106]. http://jmlr.org/proceedings/papers/v37/ioffe15.pdf.

[62]

GIRSHICK R B. Fast RCNN [C]// Proceedings of the International Conference on Computer Vision. Santiago: IEEE Press, 2015: 1440-1448.

GIRSHICK R B. Fast RCNN [EB/OL]. [20160106].

猜你喜歡
特征研究
抓住特征巧觀察
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
新型冠狀病毒及其流行病學特征認識
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
EMA伺服控制系統(tǒng)研究
抓住特征巧觀察
主站蜘蛛池模板: 免费毛片网站在线观看| 成人综合在线观看| 日韩精品久久无码中文字幕色欲| 少妇高潮惨叫久久久久久| 在线a网站| 国产日韩久久久久无码精品| 欧美第九页| 欧美精品1区| 一级不卡毛片| 色婷婷电影网| 欧美在线导航| 一级一毛片a级毛片| 亚洲视频在线网| 三上悠亚一区二区| 成人国内精品久久久久影院| 九九久久精品免费观看| 国产真实乱子伦视频播放| 亚洲永久色| 国产精品永久不卡免费视频| 国产91熟女高潮一区二区| 无码国内精品人妻少妇蜜桃视频| 欧美日本激情| 香蕉在线视频网站| 色色中文字幕| 性色在线视频精品| 欧美在线视频不卡| 国产真实乱了在线播放| 精品国产三级在线观看| 九九热这里只有国产精品| 亚洲一级色| 国产成人在线小视频| 中文字幕乱妇无码AV在线| 亚洲精品成人片在线播放| 一本视频精品中文字幕| 国内精品久久久久久久久久影视| 无码粉嫩虎白一线天在线观看| 四虎国产永久在线观看| 在线精品自拍| 狠狠色狠狠综合久久| 福利视频久久| 国产美女视频黄a视频全免费网站| 一级毛片免费高清视频| 亚洲精品福利视频| 亚洲中文字幕无码mv| 亚洲欧美人成人让影院| 激情综合五月网| 欧美一区中文字幕| 手机精品福利在线观看| 99激情网| 精品国产中文一级毛片在线看 | 熟女成人国产精品视频| 国产成人欧美| 天天摸天天操免费播放小视频| 亚洲av日韩综合一区尤物| 91精品视频在线播放| www欧美在线观看| 久草视频一区| 精品国产成人三级在线观看| 99九九成人免费视频精品| 美女无遮挡拍拍拍免费视频| 免费中文字幕一级毛片| 五月婷婷激情四射| 午夜激情福利视频| 亚洲欧州色色免费AV| 韩日午夜在线资源一区二区| 91无码人妻精品一区| 亚洲swag精品自拍一区| 成年人福利视频| 亚洲婷婷六月| 国产精品极品美女自在线看免费一区二区| 亚洲浓毛av| 免费中文字幕在在线不卡 | 国产精品国产主播在线观看| 国产成人喷潮在线观看| 日韩国产无码一区| 在线看片中文字幕| 国产国产人成免费视频77777| 亚洲无码不卡网| 一本大道香蕉久中文在线播放| 尤物特级无码毛片免费| 手机精品福利在线观看| 国产网站在线看|