侯宇昆
一、引言
目前,卷積神經網絡(Convolutional Neural Networks,CNN)已成為圖像、文本、語音識別等領域的研究熱點之一。20世紀60年代,Hubel和Wiesel在研究貓腦皮層中發現了用于局部敏感和方向選擇的神經元結構,卷積神經網絡就是在此生物學的基礎上發展而來的。
二、卷積神經網絡的發展歷程
按照時間順序,可以將卷積神經網絡的發展可以分為三個階段:初步探索階段;全面興起階段;躍進試發展階段。
2.1初步探索階段
這一階段只是在初步探索卷積神經網絡的結構。197開始,福島邦彥成功開發出了一種淺層自組織神經網絡認知機[1]。隨后,更多的科研工作者對該網絡進行了改進。認知機及其變種并不是真正意義上的深度學習模型,因為的網絡層數少,并不能進行深度學習特征。
2.2全面興起階段
這一階段以LeNet-5的出現為開始。1Lecun等[2]提出的LeNet-5采用了基于梯度的反向傳播算法對網絡進行有監督的訓練,LeNet-5在手寫字符識別領域的成功應用引起了學術界對于卷積神經網絡的關注。同一時期,卷積神經網絡在語音識別、物體檢測、人臉識別等方面的研究也逐漸開展起來。
2.3躍進試發展階段
這一階段以AlexNet的出現為起點,它的出現是卷積神經網絡的一個歷史性的時刻,在此后卷積神經網絡在AlexNet的基礎上衍生出許多變種。2012年,Krizhevsky等[3]提出了AlexNet,使得卷積神經網絡成為了學術界的焦點。AlexNet之后,不斷有新的卷積神經網絡模型被提出,。并且,卷積神經網絡不斷與一些傳統算法相融合,加上遷移學習方法的引入,使得卷積神經網絡的應用領域獲得了快速的擴展。
三、卷積神經網絡的結構
CNN基礎的結構是卷積層,池化層,最后為全連接層,所有的卷積神經網絡模型都是在此結構上搭建而來。
3.1卷積層
圖像經過卷積層及提取出其輸入特征。卷積層的運算由特征提取階段和特征映射階段構成。
(1)特征提取階段。在特征提取階段,每個神經元的輸入與前一層的局部接受域相連,使用卷積濾波器做卷積操作,提取出該局部的特征。設一個n*n的局部區域內第i個像素的輸入值是Xi(i=1,2,..n*n),與n*n大小濾波器相對應的值為wi,這個濾波器的有個固定的偏置量為b,這個區域最后經過卷積操作變成了一個值y,卷積操作如公式(3-1)
全連接層一般放在最后,經過全連接層后得到特征向量,可將這個特征向量用于分類或者檢索。全連接層其實就是一個卷積層,只不過最后得到的是一個向量。當選擇的卷積核大小與輸入的大小一樣大時,經過征提取和特征映射階段后。輸出大小為1*1的區域。這樣不同的卷積核卷積進過此層得到的是向量,1*1的區域值即是向量的一個值。
四、結語
卷積神經網絡經過這些年的發展,對圖像、語言、文本等二維數據的識別可以達到90%,遠遠高于傳統的淺層特征學習的方法。目前,有學者將此方法遷移到了三維模型檢索領域,并且取得了不錯的結果。未來的卷積神經網絡這一深層學習結構一定大有可為。
參 考 文 獻
[1]K.福島(Fukushima).Neocognitron:一個自組織的神經網絡模型為了一個不受位置平移影響的模式識別的機能.生物控制論,36,193-202,1980
[2]LECUN Y,BOTTOU L,BENGIO Y.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324
[3]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Image Net classification with deep convolutional neural networks[C]. Proceedings of Advances in Neural Information Processing Systems,Cambridge,MA:MIT Press,2012:1106-1114.