周晟頤
摘 要 隨著人工智能的不斷發(fā)展和廣泛應用,深度學習技術目前受到了業(yè)界的高度重視。文章將對深度學習技術的發(fā)展歷史、常用算法及典型應用場景進行簡要介紹。
關鍵詞 深度學習;卷積神經網絡;循環(huán)神經網絡;語音識別;自然語言處理
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2018)221-0116-03
2016年,AlphaGo的橫空出世掀起了人工智能發(fā)展和應用的浪潮,其底層所使用的深度學習算法也受到了業(yè)界的廣泛關注。深度學習算法通過計算機的方法對人類大腦神經元的思考過程進行模擬,進而實現(xiàn)計算機自動學習數(shù)據特征,完成復雜數(shù)據分析任務的功能。近幾年,以深度學習為算法基礎的人工智能產品層出不窮,為我們的工作和生活帶來了許多的便利。文章通過文獻調研的方法,對深度學習的發(fā)展歷史、常見算法及應用場景進行簡要概述,旨在幫助大家對深度學習的相關概念有所了解與掌握。
1 深度學習發(fā)展歷史
深度學習算法屬于機器學習范疇。機器學習是人工智能應用的重要分支之一,是通過算法提取數(shù)據隱藏特征,進而實現(xiàn)數(shù)據分類及回歸,以完成智能識別及預測等功能。機器學習算法的發(fā)展歷史根據不同人的理解有著不同的劃分方法,文章引用余凱、賈磊等人的歷史階段劃分方法,將整個機器學習算法的發(fā)展大概劃分為兩個階段,第一個階段為淺層學習(shallow learning)階段,第二個階段為深度學習(deep learning)階段。下面對這兩個階段的發(fā)展成果進行簡要的介紹。
1.1 淺層學習階段
利用計算機來模擬人腦思考過程的算法最早起源于MCP人工神經元模型,其算法思想誕生于1943年,由神經科學家麥卡洛克(W.S.McCilloch)和數(shù)學家皮茲(W.Pitts)共同提出。MCP的算法的主要思想為對輸入的數(shù)據進行加權求和及非線性函數(shù)激活操作,旨在擬合數(shù)據的內部規(guī)律。1958年,由Rosenblatt發(fā)明的感知器算法(perceptron)將MCP的算法思想具體化,應用到了數(shù)據分類問題之中,進而引起了第一次神經網絡發(fā)展的熱潮。但好景不長,感知器后來被證明只能處理線性分類問題,應用范圍局限,人工神經網絡的研究也就此陷入了長達20年的停滯狀態(tài)。
直到20世紀80年代,著名人工智能專家Hinton教授發(fā)明了BP神經網絡算法,采用逆向傳播的思想進行網絡參數(shù)的學習,解決了數(shù)據的非線性分類問題,進而掀起了第二次人工神經網絡的研究熱潮。但沒過多久,BP神經網絡算法被發(fā)現(xiàn)存在梯度消失問題,即誤差反饋隨著神經網絡層數(shù)的增加逐漸消失,無法對位于前面層次的神經元參數(shù)進行學習調整。
這樣的發(fā)現(xiàn)無疑對BP神經網絡的發(fā)展雪上加霜,人工神經網絡的研究再次陷入停滯。而在這個過程中,基于統(tǒng)計思想的機器學習方法漸漸獲得了業(yè)界的主流支持,決策樹、SVM、隨機森林等算法紛紛誕生,在數(shù)據分類和回歸問題上取得了良好的效果,成為了機器學習的主流算法。
1.2 深度學習階段
直到2006年,Hinton教授解決了BP神經網絡算法梯度消失的問題,深度學習的思想再次回到了大眾的視野之中,也正因為如此,2006年被稱為是深度學習發(fā)展的元年。深度學習的發(fā)展階段又可以大概分為兩個階段,第一個階段為快速發(fā)展階段,第二個階段為爆發(fā)階段。
1.2.1 快速發(fā)展階段
正如前文所說,Hinton教授提出了解決梯度消失的方案,首先通過無監(jiān)督方法對神經網絡進行初始化,然后使用有標記的數(shù)據進行有監(jiān)督訓練學習,進而對網絡參數(shù)進行微調。2011年,微軟公司首次將深度學習方法應用在語音識別領域中,取得了較好的效果。
1.2.2 爆發(fā)階段
2012年,Hinton教授帶領團隊參加ImageNet圖像識別比賽。在比賽中,Hinton團隊所使用的深度學習算法一舉奪魁,其性能達到了碾壓第二名SVM算法的效果,自此深度學習的算法思想受到了業(yè)界研究者的廣泛關注。深度學習的算法也漸漸在許多領域代替了傳統(tǒng)的統(tǒng)計學機器學習方法,成為人工智能中最熱門的研究領域。
2016年,谷歌旗下的DeepMind公司基于深度學習的算法開發(fā)研制了AlphaGo程序。從2006年到2007年,AlphaGo先后戰(zhàn)勝了中日韓各大圍棋高手,令世界矚目與震驚。基于深度學習算法,機器的圍棋水平已經能夠超過人類的頂尖水平。自此之后,人工智能成為了IT互聯(lián)網領域最熱門的研究領域。許多公司紛紛運用深度學習算法來提高自己的產品性能,為工作和生活帶來了許多的便利。
2 深度學習算法介紹
隨著深度學習算法的不斷發(fā)展與改進,深度學習研究人員已經提出了許多成熟的神經網絡模型,并已經廣泛應用到了許多領域之中。在這其中,卷積神經網絡和循環(huán)神經網絡是最常用的兩種神經網絡結構,下面的章節(jié)將對這兩種神經網絡的典型結構及工作原理進行簡要的介紹。
2.1 卷積神經網絡
卷積神經網絡本質上是一個多層次結構的神經網絡,包括卷積運算層、池化運算層、全連接層及識別運算層,其網絡結構圖見圖1。
其中的具體過程如下:
1)卷積運算:數(shù)據在卷積層中進行卷積運算,經過激活函數(shù)運算后輸出到下一層。通過卷積運算,神經網絡能夠提取數(shù)據每一部分的局部特征,并能夠記錄特征之間的位置關系;
2)池化運算:池化運算將前一層輸出的特征進行區(qū)域劃分,并通過采樣操作來降低特征數(shù)量,進而避免過擬合的現(xiàn)象出現(xiàn),將數(shù)據的特征進行更好的聚合;
3)全連接運算:進行吃化操作后的數(shù)據特征為多組信號數(shù)據,全連接運算將多組信號數(shù)據組合為一組信號數(shù)據;
4)識別運算:在特征信號數(shù)據整合為一組之后,根據數(shù)據分析的需求對特征進行識別運算,以實現(xiàn)分類或回歸問題。
由于卷積神經網絡具有良好的數(shù)據特征提取能力,因此目前已經廣泛用于圖像識別和視頻處理等領域,并取得了較好的效果。
2.2 循環(huán)神經網絡
雖然深度神經網絡和卷積神經網絡能夠對數(shù)據特征進行較好的提取和學習,但面對隨時間變化的數(shù)據時,傳統(tǒng)的神經網絡結構無法對時間序列的變化進行特征保存,存在著許多弊端。在自然語言處理、語音識別等應用領域中,樣本的時間先后順序十分關鍵。為了滿足這樣的業(yè)務需求,循環(huán)神經網絡應運而生,循環(huán)神經網絡的結構圖見圖2。
與傳統(tǒng)神經網絡最大的不同之處在于,循環(huán)神經網絡的隱藏層會將自己的輸出數(shù)據作為自己下一次輸入數(shù)據的一部分,通過這樣的方式,神經網絡便具有了記憶能力。目前,循環(huán)神經網絡已經在中文分詞、詞性標注、命名實體識別、語言翻譯等領域有著廣泛的應用。
3 深度學習應用
深度學習經過不斷的發(fā)展與改進,目前已經成為了人工智能領域最重要的技術之一,在許多應用領域都有著出色和優(yōu)異的表現(xiàn)。在這一章節(jié),本文對深度學習在圖像識別、語音識別、自然語言處理領域的應用進行介紹。
3.1 圖像識別
目前,深度學習在圖像和視覺領域的應用已經迅速普及,其主要應用場景有人臉識別、人臉跟蹤、物體場景識別等。例如:目前市面上發(fā)售的智能手機許多都有人臉解鎖功能,只需要簡單的錄入過程,便可以采用面部識別進行手機解鎖操作,其速度和準確率都能夠達到不錯的效果。隨著科技的不斷進步,基于深度學習的圖像識別技術也會不斷發(fā)展,其準確率將會越來越接近于人類。在未來,圖像識別技術也會為我們的信息智能化生活發(fā)揮更為重要的作用。
3.2 語音識別
通過計算機技術來進行語音識別的研究已有很長時間的歷史,最開始的研究集中在基于隱馬爾可夫模型的算法,在實際應用過程中,無論是識別速度還是準確率都不能夠令用戶達到滿意的效果。從2010年開始,深度學習的思想被引入到了語音識別問題中,取得了一系列的突破。現(xiàn)在,語音識別技術已經廣泛應用在了日常的生活中,蘋果、三星、華為、小米等公司都退出了自己的智能語音助手,為人機交互帶來了極大的便利。
3.3 自然語言處理
自然語言處理任務包括中文分詞、詞性標注、語言翻譯、信息檢索、推薦系統(tǒng)等。在深度學習技術之前,自然語言處理的研究主要采用字典匹配、正則表達式、條件隨機場及隱馬爾可夫模型等方法,取得了一定的成果,但還未能達到令人滿意的程度。在循環(huán)神經網絡誕生之后,由于其對時間序列處理的優(yōu)勢,因而其算法被迅速應用到了自然語言處理領域,取得了極大的突破。目前,谷歌、百度等搜索引擎,谷歌翻譯、有道詞典等語言翻譯工具、以及在各個領域出現(xiàn)的智能問答系統(tǒng),都有深度學習算法在其中發(fā)揮著重要的作用。
4 結論
隨著深度學習技術的不斷發(fā)展和應用領域的不斷增加,深度學習已經在我們日常的生產和生活中正扮演著不可缺少的角色。目前,人工智能處于發(fā)展熱潮之中,深度學習的算法也會進一步有所突破改進,為我們享受智能化生活帶來幫助。
參考文獻
[1]Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature,2015,521(7553):436.
[2]李超波,李洪均,徐晨.深度學習在圖像識別中的應用[J].南通大學學報(自然科學版),2018(1).
[3]余凱,賈磊,陳雨強.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013(9):5-10.
[4]黃子良.深度學習應用前景分析[J].通信與信息技術,2017(3):54-56.
[5]深度學習的發(fā)展歷史[EB/OL].https://blog.csdn.net/ u012177034/article/details/52252851.
[6]深度學習(deep learning)發(fā)展史[EB/OL].https:// zhuanlan.zhihu.com/p/29096536.
[7]深度學習常見算法的介紹和比較[EB/OL].https://blog. csdn.net/abc200941410128/article/details/79269386.
[8]深度學習應用場景整理[EB/OL].https://blog.csdn.net/ lwplwf/article/details/72818919.
[9]圖像識別的原理、過程、應用前景,精華篇![EB/OL]. http://imgtec.eetrend.com/blog/10807.
[10]自然語言處理深度學習的7個應用[EB/OL].https://blog. csdn.net/qiansg123/article/details/80131950.