夏瑜潞

摘要:人工神經網絡(ANN)是人工智能領域中十分重要的運算模型,ANN通過模擬人類大腦的結構和邏輯,來處理復雜的問題。本文首先介紹了ANN的起源和發展,其次描述了全連接神經網絡和深度神經網絡的結構,其中具體介紹了卷積神經網絡及其應用,最后探討了ANN的未來發展目標,并提出了對未來工作的期望。
關鍵詞:人工智能;神經網絡;卷積神經網絡;圖像識別
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)20-0227-03
開放科學(資源服務)標識碼(OSID):
Abstract: Artificial neural networks (ANNs) are important computational models in the field of artificial intelligence. ANNs deal with complex problems by simulating the structure and logic of the human brain. This paper first introduces the origin and development of ANN, and secondly describes the structure of fully connected neural network and deep neural network. The convolutional neural network and its application are introduced in detail. Finally, it discusses the future development goals of ANN and puts forward expectations for future work.
Key words: Artificial Intelligence; Neural Network; Convolutional Neural Networks; Image Recognition
1引言
實現人工智能(Artificial Intelligence,AI)是人類長期以來共同追求的目標。隨著現代計算機技術的迅速發展,人類在AI領域中取得了巨大的進步。2017年5月,由谷歌旗下公司開發的AI機器人AlphaGo1對戰世界圍棋冠軍柯潔,并以3比0的總比分大獲全勝。AlphaGo的成功展現了AI在博弈中獲得的重大突破,但是在其他領域,AI離實現真正意義上的以“機”代“腦”仍有差距。作為AI的一個重要分支,神經網絡可以代替人腦有效地處理一些復雜問題,從而推動AI的發展。
人工神經網絡(Artificial Neural Networks, ANN)又稱為人工神經元的連接單元的集合,是許多不同的基于機器學習的算法的框架。其通過模擬人腦的處理方式,希望可以按照人類大腦的邏輯運行。ANN受形成動物大腦的生物神經網絡的啟發,模擬生物大腦中的神經元。每個連接如生物學中大腦的突觸,可以在神經元之間傳遞信號。接收信號的神經元對其進行處理,然后發信號通知與之相連的其他神經元。ANN的提出最初是為了能使其以與人腦相同的方式來解決問題。然而,隨著時間的推移,ANN的研究重點從生物學轉移到了如何使ANN完成特定任務。隨著現代科學技術和硬件設備的蓬勃發展,ANN在處理數據量大且復雜的問題中有著越來越重要的作用。
本文將重點介紹ANN的研究歷史及其應用領域,總結了ANN目前存在的問題和局限性,以及對未來發展的期望,旨在為ANN的深入研究提供參考價值,也為剛進入該領域的初學者提供參考資料。
本文的組織結構如下:第2節介紹ANN的發展歷史和兩種應用較廣的ANN模型,包括模型的相關工作和算法優化;第3節介紹了ANN的應用領域;最后,給出了本文的總結與展望。
2神經網絡綜述
2.1發展歷史
ANN的概念起源于1943年,Warren McCulloch和Walter Pitts[1]首次創建了一種基于數學和算法的ANN計算模型,稱為M-P模型。該模型通過模擬生物學上的神經細胞的原理和過程,描述了人工神經元的數學理論與網絡結構,并證明了單個神經元可以實現邏輯功能,從而開啟了ANN研究的時代。M-P模型的結構如圖1所示。
ANN的概念提出后,引起了學者們的廣泛關注,越來越多的人投入到對ANN的研究中。然而,在1969年Minsky和Papert[2]發現了處理ANN計算的兩個關鍵問題后,ANN的研究遇到瓶頸。兩個關鍵問題分別是:單層感知器不能處理異或問題與計算機處理大型ANN的計算能力有限問題。在此之后,由于感知器的邏輯推理局限性無法解決,使得ANN研究停滯不前。
重新引起人們對ANN的學習興趣的一個關鍵因素是1974年Paul Werbos[3]提出的反向傳播算法,該算法有效地解決了計算機處理能力不足的問題,提高了訓練多層網絡的可行性。
2006年,Hinton[4]通過使用預訓練的方法緩解了ANN的局部最優解問題,并且設置了7層隱藏層,使ANN有了真正意義上的“深度”,從而掀起了深度學習的浪潮。2016年,AlphaGo的出現使人們對深度學習的研究熱情達到了一個新的高度。
現在ANN已經被廣泛應用于各個領域,如人臉識別,醫學診斷,語音識別,機器翻譯等。
2.2 結構
一個最基本的ANN的結構包含三個組成部分:輸入層,隱藏層,輸出層,并且通常為全連接神經網絡(Full Connected Neural Networks, FCNN)。全連接的含義是當前層的每個神經元都與前一層的所有神經元相連,即前一層神經元的輸出作為當前層神經元的輸入,每個連接都有一個權值,位于同一層的神經元之間沒有連接。FCNN結構如圖2所示。
深度神經網絡(Deep Neural Network,DNN)是指隱藏層的數目大于1的ANN。DNN容易引發梯度消失問題,即當前面隱藏層的參數更新速率低于后面隱藏層的速率時,表現出隨著隱藏層數目的增加,模型準確率下降的現象。為了解決梯度消失問題,可以使用ReLU等函數代替Sigmoid函數來作為激活函數。當前DNN的基本結構正是以ReLU函數作為激活函數。
然而,全連接DNN的結構特性容易引發參數數量膨脹的問題,導致訓練會出現局部最優解現象。另外,圖像中的局部特征可以用來識別整張圖像,比如鳥的嘴巴可以用來識別鳥。因此,如果能提取圖像中的局部特征來完成整張圖像的識別的話,參數將大大減少。而卷積神經網絡(Convolutional Neural Networks, CNN)[5]的提出可以有效緩解參數膨脹的問題。
2.3 卷積神經網絡
2.3.1介紹
CNN相較于FCNN,采用了局部連接的方式,即每個神經元只和前一層的部分神經元相連,而不再是和所有神經元相連。同時,連接到同一個神經元的一組連接可以共享同一個權值。這樣將大大減少參數的數量,提高了模型的訓練效率。CNN結構如圖3所示。
2.3.2 相關工作
較為經典的CNN模型有LeNet-5[6]、AlexNet[7]、ZF-Net[8]、VGGNet[9]、GoogLeNet[10]、ResNet[11]以及DenseNet[12],上述CNN模型均是LeNet的改進模型。
LeNet-5[6]是一種用于識別手寫字符的高效的CNN,其中的5代表模型的網絡層數為五層。作者提出一種稱為圖形變壓器網絡(Graph Transformer Networks,GTN)的模型,該模型允許在全局范圍內使用基于梯度的方法訓練這種多模塊系統,以使得整體性能測量達到最小值。實驗證明了全局訓練的優勢和GTN的靈活性。
Krizhevsky等[7]訓練了一個大型深度CNN,并將LSVRC-2010 ImageNet訓練集中的120萬個高清圖像分類為1000個不同的類別。深度CNN由五個卷積層和兩個全連接層組成,其中部分卷積層還伴有池化層。整個網絡包含了6000萬個參數和500,000個神經元。為了減少全連接層中的過擬合現象,作者使用了一種新的正則化方法,并證實了該方法的有效性。
Zeiler 等[8]提出了一種新穎的可視化技術,該技術可以幫助人們深入研究中間特征映射的功能和分類器的操作,并且該技術在ImageNet分類基準上優于Krizhevsky等[7]的模型。
Simonyan等[9]研究了CNN的深度對其在大規模圖像識別設置中的準確度的影響。作者使用了具有非常小的卷積濾波器的模型對深度增加的網絡進行評估,結果表明,通過將深度增加到16-19權層可以顯著改進現有技術的配置。
Szegedy等[10]提出了一種深度CNN模型,該模型在2014年ImageNet大規模視覺識別挑戰賽(ILSVRC2014)中展示了分類和檢測的最新技術水平,提高了神經網絡內計算資源的利用率,并獲得了冠軍。GoogLeNet是該模型的一個重要變體,其網絡深度為22層,用于評估物體在檢測和分類的情況下的質量。
Kaiming He等[11]通過使用殘留的學習框架成功訓練出了ResNet(Residual Neural Network)。ResNet具有152層,比VGGNet深八倍,而參數量卻比VGGNet低,其在ILSVRC2015比賽中獲得了第一名,錯誤率為3.57%,達到錯誤率最低排名的前五名,效果十分顯著。
DenseNet等[12]提出了密集卷積網絡(DenseNet),其在ResNet結構的基礎上進一步擴展了網絡連接。實驗表明,該模型在大多數測試集中取得了相對于最新技術的顯著改進,減少了需要的計算量,實現了更高的性能。
2.3.3 應用
圖像識別在日常生活中被廣泛應用,尤其是在人臉識別、遙感圖像識別、醫學圖像識別等領域有著顯著的重要性。CNN由于權值共享、神經元局部連接的特性,大大減少了參數的數量,從而能有效地處理高維數據,因而更多地被應用在圖像識別領域中。
Fu[13]等人為了解決匹配具有不同分辨率的人臉圖像的問題,提出了一種新型的CNN結構——引導卷積神經網絡(Guided-CNN),該結構應用并行的子CNN模型作為指導和學習者。作者還引入了新的損失函數,可以作為分辨率內和分辨率之間圖像的聯合監督。該結構驗證了其在識別具有不同遮擋程度的人臉圖像時的適用性。
Mohamed等人[14]構建了一個基于CNN的模型,用于協助放射科醫生對乳腺密度進行分類,以預測乳腺癌發生的風險。實驗表明該模型的ROC曲線下面積高達0.988,證明了該模型良好的分類效果,有助于對目前乳腺密度的臨床評估。
3總結與展望
本文簡述了ANN的發展歷史,并著重介紹了CNN模型及其變形與應用。本文指出,ANN對于解決數據量大且復雜的問題具有重大意義,其也被廣泛應用于醫學、工業等各個領域。但是ANN還不具有普適性,即針對不同的問題,需要通過調整參數、權值、隱藏層的數量等方法來訓練出新的適用于該問題的模型。在未來工作中,可根據具體問題的需求來改進ANN模型,甚至是提出新的模型,以真正實現以“機”代“腦”的宏偉目標。
注釋:
1.AlphaGo使用的算法主要為蒙特卡洛樹搜索(MCTS)算法,同時訓練了兩個卷積神經網絡來幫助MCTS算法制定策略。
參考文獻:
[1] McCulloch, W.S. & Pitts, W. Bulletin of Mathematical Biophysics (1943) 5: 115. https://doi.org/10.1007/BF02478259
[2] Minsky M, Papert S. Perceptron: an introduction to computational geometry[J]. The MIT Press, Cambridge, expanded edition, 1969, 19(88): 2.
[3] Werbos, P.Beyond Regression: New Tools for Prediction and Analysis in the Behavior Science, Unpublished Doctoral Dissertation, Harvard University, 1974.
[4] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504.
[5] HUBEL D. H. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. J. Physiol 195, 215-244, 1968.
[6]LeCun, Y., Bottou, L., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
[7] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[8] Zeiler M.D., Fergus R. (2014) Visualizing and Understanding Convolutional Networks. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8689. Springer, Cham
[9] Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1556.
[10] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1-9
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778
[12] G. Huang Z L L V. Densely Connected Convolutional Networks[C]// The Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu: IEEE,2017: 2261-2269.
[13] T. F, W. C, Y. F W. Learning guided convolutional neural networks for cross-resolution face recognition[C]// The Proceedings of 27th International Workshop on Machine Learning for Signal Processing (MLSP). Tokyo: IEEE, 2017,1-5.
[14] Mohamed A A, Berg W A, Peng H, et al. A deep learning method for classifying mammographic breast density categories[J]. Medical Physics, 2018,45(1):314-321.
【通聯編輯:梁書】