摘 要:深度學習是機器學習的一種,而機器學習在人工智能發展史上有著舉重若輕的地位。深度學習通過模仿人腦運行機制,建立與人腦相似的神經網絡來處理來自外界的各種信息。深度學習的發展史可以追溯到1943年麥卡洛克與皮茨共同研究出的M-P模型,經歷了三段蓬勃發展與蕭條時期,最終在現代人類生活中扮演了不可或缺的角色。現如今在計算機視覺、自然語言處理和其他分支領域都有著極大的發展和運用。ChatGPT已成為其不斷突破發展的結果,在未來仍舊充滿機遇和挑戰。
關鍵詞:科技哲學;深度學習;卷積神經網絡;人工智能
自圖靈發表《Computing Machinery and Intelli-
gence》以來,科學界就發展人工智能模擬人腦有兩種不同的探索路徑,一部分學者從功能主義的角度出發,用機器來直接模擬人類心靈的性能,而沒有追求與人類相同的思維過程;另一部分學者主要研究人腦神經網絡結構,主張用一種生物結構方法,允許機器在發展智能之前先模擬出人類大腦的構建。這就分別是符號主義與聯結主義。符號主義很難解釋大腦如何用神經元實現思考,而聯結主義科學家一直在致力于研究人工神經網絡實現思考的途徑。
一、20世紀40-60年代第一次興起
1943年,神經學家沃倫·麥卡洛克(Warren McCulloch)與數學家沃爾特·皮茨(Walter Pitts)在羅素、圖靈等人的研究基礎上,通過對不同學科知識的溝通與運用,首次提出M-P模型[1]。他們認為神經元為人腦信息處理的最小單元,交互的神經元建立起了神經網絡,進而可以產生智能。他們在共同發表的論文中概括了人腦神經元的基本特征,將生物神經元簡化為三個數學過程,以此來建立神經網絡與數學之間的連接[2]。M-P模型用計算機模擬生物神經元的反應過程,為人工智能深度學習的發展打下了堅實的基礎,激勵了眾多科學家前赴后繼地投身于神經網絡的研究之中,但它同時也存在著被眾人詬病的缺陷——M-P模型缺乏自主學習的功能。
后來,在20世紀五十年代,美國神經學家、心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)提出了感知器(Perceptron)這一概念[3]。感知器即為模擬人類感官認知的機器。在感知器的研究過程中,他設立了單層的感知器模型,運用M-P模型進行機器學習分類任務,對輸入的多維度數據進行二分類,通過梯度向下算法,訓練樣本自動學習更新權重,這第一次使神經網絡有了學習功能。四年后感知器模型被用于實踐,這使得深度學習的發展不再是純理論的探究,在數理邏輯上能夠被驗算真偽和反復運行。感知器的誕生彌補了M-P模型的缺陷,點燃了人們探索人工神經網絡的熱情[4]。
但在1969年,人工智能之父馬文·明斯基(Marvin Lee Minsky)和西蒙· 派珀特(Seymour Papert)發表論文《Perceptrons》對單層感知器進行了詳盡的分析,文中指出單層感知器只能處理線性分類問題,無法學習到異或函數關系[5]。面對多模式下的數據,單層感知器顯得無能為力。由于他們在研究學界具有強大的影響力,他們指出單層感知器的缺陷引起了軒然大波。而弗蘭克及其團隊并沒有將單層感知器模型推廣到多層感知器模型,異或問題無法解決,因而學界眾人對感知器產生誤解,大多放棄了研究。人工智能深度學習的研究陷入低谷時期,迎來了將近二十年的沉寂。
二、20世紀80-90年代第二次回春
1980年,日本博士福島邦彥(Kunihiko Fuku-
shima)在其論文《Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position》中提出了神經認知機模型(Neocognitron),這是現代卷積神經網絡(CNN)的最初范例及靈感來源[6]。神經認知機模型致力于構建一種模擬人體視覺系統運行模式的人工神經網絡,它擁有學習能力,能夠較為準確地識別一個物體,即使是在物體發生位移或者輕微變形的條件之下。神經認知機模型采用無監督的競爭性學習機制,通過輸入數據讓神經元競爭,對輸出響應最多的神經元將獲勝,自我更新并趨近輸入數據[7]。通過這種方式,如果各種各樣的東西被展示給多層神經元網絡,神經網絡受到刺激,適當的反應神經元就會自動生成。當一個神經元學習時,它周圍的所有其他神經元都會成長為具有類似特性的神經元。神經認知機模型針對因輸入信息位置變化導致無法識別的情況做出應對,向著模仿人類大腦運行機制更進一步,為現代人工智能技術打下良好的基礎,后被運用到自動駕駛、面部識別、醫療檢測等方方面面。
1982年,美國物理學家約翰·約瑟夫·霍普菲爾德(John Joseph Hopfield)從物理學的動力學中汲取靈感,創造了Hopfield神經網絡模型(HNN)[8]。這是一種遞歸神經網絡,在該模型中,每一個神經元都能夠與其他神經元相互連接。其最大的特點就是從輸入到輸出環環相扣,每一次傳導都會產生相應的反饋,反饋會在運算的過程中持續反復進行,這個模型使計算機能夠利用以往的經驗來學習。
1986年,以美國認知心理學家大衛·魯姆哈特(David Rumelhart)為代表的研究學者們提出了反向傳播算法(Back-propagation Algorithm),即著名的BP算法[9]。反向傳播算法的學習過程包括一個正向傳播過程和一個反向傳播過程。在正向傳播過程中,輸入信息一層一層地處理通過隱藏層傳輸到輸出層。如果輸出層的輸出值達不到目標期望,之后就會重新轉入反向傳播。人工神經網絡因此能夠通過無數次數據迭代糾正錯誤與偏差,使得預測更為準確。而人工神經網絡在輸出值的反復修改之中學習,當誤差達到預期值時,人工神經網絡學習結束。從BP算法誕生之日起,連接主義迅速發展,深度學習領域不斷壯大。從模型到算法,從理論分析到技術實現,反向傳播算法為神經網絡的未來發展奠定了重要基礎。同年,分布式表示(Distributed representation)產生,這是一種文本表現形式,它能夠利用盡可能少的元素來簡潔地體現輸入信息,準確高效地將詞語的特性表現在各個維度中,它的誕生輔助式地促進了人工神經網絡的發展。
同樣還是1986年,美國科學家邁克爾·喬丹(Michael I. Jordan)在霍普菲爾德的基礎上提出了Jordan網絡;1990年,另一位美國科學家杰弗里·艾爾曼(Jeffrey L. Elman)又對喬丹的Jordan網絡進行改進,運用反向傳播算法去訓練改進后的神經網絡,從此,循環神經網絡(Recurrent Neural Networks)初具雛形。
在1991年,德國科學家賽普·懷海特(Sepp Hochreiter)提出循環神經網絡存在著長期依賴問題。當它正在學習長序列之時,循環神經網絡會出現梯度消失和梯度爆炸的問題。1997年,為解決他提出的梯度消失和梯度爆炸的問題,長短期記憶網絡模型(Long Short-Term Memory)和神經歷史壓縮器(Neural History Compressor)橫空出世。尤其長短期記憶網絡模型作為遞歸神經網絡,能夠充分與每個時刻上獲得的信息結合起來,使用它可以在很長一段時間內有效地傳遞和表達信息,而不會導致有用的關聯信息被忽視。長短期記憶網絡模型在臺風眼運動預測等方面頗有成效,為人類生活帶來飛躍般的進步。
1998年,法國教授楊立昆(Yann Lecun)在他的論文《Gradient-Based Learning Applied to Document Recognition》中提出了LeNet-5[10]。他將反向傳播算法用于卷積神經網絡之上,成功催生了人工神經網絡對于文本語言和數字圖像的識別能力,造就了當代卷積神經網絡的最初形態。LeNet-5成熟化后被運用到銀行系統支票識別上來,提高了當時金融行業的運轉效率。
但這一時期,神經網絡的訓練出現各種問題,這些導致學界一致認為機器是無法進行深度學習的。首先是神經網絡的結構中只能存在一或兩個隱藏層,否則增加了神經網絡訓練的負擔;其次是神經網絡層數增加導致需要數據較多的樣本,訓練受限;最后是神經網絡層數增加導致梯度的誤差逐漸趨于零,神經網絡模型無法繼續學習。此外,資本市場投資者的幻想太過不切實際,由于對人工神經網絡的期望與現實產生巨大落差,他們減少甚至停止支持該領域的繼續研究。后來,機器學習的其他領域不斷發展。隨著支持向量機(SVM)算法等一系列機器學習模型被提出,學界的研究方向逐漸轉向泛機器學習,深度學習的研究領域再次陷入低迷時期。
三、21世紀的第三次熱潮
2006年,學界泰斗杰弗里·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉胡季諾夫(Ruslan Salakhu-
tdinov)基于神經網絡模型由于網絡層數不斷增加而產生的梯度消失問題,他們在《A Fast Learning Algorithm for Deep Belief Nets》和《Reducing the Dimensionality of Data with Neural Networks》兩篇公開發表的論文中提出無監督權值初始化加上有監督訓練微調的訓練模式[11~12]。其中,他們首次提出深度信念網絡(Deep Belief Network),通過貪婪逐層預訓練(Layerwise Greedy Pretraining),即沿著逐層訓練的思路,每次一層一層地訓練神經網絡,并不斷固定上一層參數再繼續訓練下一層,當所有層的神經網絡訓練結束以后,再通過監督式學習方法微調參數,這成為解決梯度消失的一個方案。深度信念網絡的產生,克服了前人創造出的人工神經網絡計算時間長以及結果不準確、容易陷入局部最優解的缺陷,喚起了深度學習領域的新一輪熱潮[13]。
同在2006年,中國科學家李飛飛創造了ImageNet圖像數據庫。起初,她發現機器學習在圖像識別領域存在短板,她在算法方面不斷改進但仍無所收獲。后因人類幼兒視覺學習過程受到啟發,決心創造大量圖像數據庫來對機器造成一定數量的訓練。機器通過訓練后,能夠提高對圖片上物體的識別能力。ImageNet圖像數據庫后來不斷發展壯大,包含了1500萬張照片,為機器學習的圖像訓練事業貢獻巨大。此外,李飛飛還發起了ImageNet視覺識別挑戰賽,促進全世界關注機器學習的視覺識別領域[14]。
2011年,Alex提出ReLU激活函數,同樣能夠有效抑制梯度消失的問題。ReLU激活函數首次使用了GPU的并行能力來加速深度學習的過程,簡化計算過程,加快學習效率。同時從神經元的輸入輸出著手,增強神經網絡的稀疏性,減少了過擬合問題的發生。由于ReLU激活函數能夠使模型更具稀疏性,ReLU實現稀疏后的模型能夠更好地挖掘相關特征,擬合訓練數據。
在2012年,Hinton組參與了Imagenet圖像識別挑戰賽,并在其發表的論文《ImageNet Classification with Deep Convolutional Neural Networks》中介紹了AlexNet[15]。他們引入了全新的深層結構和dropout方法,顛覆了圖像識別領域。構建的CNN網絡AlexNet一舉奪得冠軍,且碾壓使用SVM方法的第二名。至此,CNN在研究界嶄露頭角。
2016年3月,谷歌(Google)旗下DeepMind公司基于深度學習開發了AlphaGo。在人機圍棋比賽中,它與世界圍棋冠軍李世石較量,總分4比1;2016年底至2017年初,它以注冊賬號“大師”的名義在中國國際象棋網站上與數十名亞洲頂級圍棋選手對決,連續60場比賽未曾輸過;2017年5月,在中國烏鎮舉行的圍棋峰會上,它與世界排名第一的圍棋世界冠軍柯杰進行了較量,總分為3比0。國際圍棋界承認AlphaGo圍棋已經超越了人類最好的職業圍棋選手。
同年11月GOOGLE機器翻譯橫空出世,他們使用人工神經網絡來提高谷歌翻譯的流暢性和準確性。GOOGLE機器翻譯系統通過應用基于實例的機器翻譯方法來提高翻譯質量。系統從數以百萬計的例子中吸取了教訓。隨著大型端到端框架的發展,系統會隨著時間的推移而學習,以實現更好、更自然的翻譯,實現一次翻譯整個句子,而不是逐字逐句。
為了改善循環神經網絡的長程依賴問題,長短期記憶網絡(LSTM)和門控循環單元(GRU)神經網絡應運而生。LSTM門控網絡結構過于復雜與冗余。為此,Cho、Merrienboer、Bahdanau和Bengio在2014年提出了門控循環單元(GRU),這個結構是對LSTM的一種改進。它將遺忘門和輸入門合并成更新門,同時將記憶單元與隱藏層合并成了重置門,進而讓整個結構運算變得更加簡化且性能得以增強。
2014年誕生的神經圖靈機(NTM)是利用神經網絡構改造傳統的圖靈機,使得圖靈機變得可微分,也就意味著可以利用訓練數據進行學習。神經圖靈機能夠接受輸入和輸出,并且學習得到能夠從輸入映射到輸出的算法。這本質上是在嘗試著取代程序員。雖然還未實現,但意味著一旦習得了算法,它們可以接受輸入并且外推到基于該算法的任何變量輸出[16]。
四、當下的熱潮
目前,深度學習在計算機視覺、自然語言處理和其他分支領域都有著極大的發展和運用。人類不斷訓練計算機,通過攝像頭與深度學習算法的結合,來使計算機對圖像、視頻擁有分辨和處理的功能[17]。現在市面上的智能手機都可以對圖像和視頻進行識別、分類和分割,根據拍攝的時間地點和人物來自動歸類,自動將人物從背景中摳圖。這樣一來,當人們使用社交軟件時,可以更好地根據這些要素來挑選排列和編輯素材。
深度學習在自然語言處理方面也有相當廣泛的運用。各大通信軟件及輸入法的語音轉文字功能,能夠迅速將語音轉化為文本方便了日常辦公;智能手機配備的語音助手,如蘋果手機的siri和華為手機的小藝,不需要屏幕操作也能和手機輕松交互;一種語言的文字可以任意轉化翻譯為其他國家的文字,人們能夠自如地瀏覽網頁和觀看外國影視作品;計算機能夠從大段的篇章中自動識別出文字的中心內容和關鍵句,幫助人們更好地瀏覽和篩選相關的信息;還有輿情監測,人機溝通問答等多種日常運用。
美國公司OpenAI于2022年11月推出ChatGPT,這是一種基于深度學習模型GPT-3開發的一款聊天機器人軟件。ChatGPT已成為深度學習發展過程中當下的熱潮和代表。目前,ChatGPT已經能把人類語言運用得爐火純青,ChatGPT除了知道很多事實性知識,還掌握了一定程度的常識。與此同時,它還擁有了思維鏈,能理解上下文,多輪對話之后還可以記住前面的內容。研究人員采用了道德層面的培訓,根據預先設計好的道德準則,拒絕惡意的問題和要求。一旦發現用戶提供的短信包含惡意意圖,包括但不限于暴力、歧視、犯罪等,它將不會回復。ChatGPT吸引關注的一個重要原因是引入了基于人類反饋的強化學習技術。這項技術解決了生成模型的一個核心問題,即如何將人工智能模型的結果與人類的常識、認知、需求和價值觀相一致。該模型能夠促進利用人工智能進行內容創作、提升內容生產效率與豐富度。目前ChatGPT用途廣泛,風靡全球,它引爆了人們對于深度學習領域的熱情。
但它也擁有著顯而易見的諸多缺陷。事實上這個模型非常善于文字寫作,但是對邏輯推理和計算卻不擅長,有時候會給出許多看似正確的錯誤答案。因此可能會出現創造不存在的知識,或者主觀猜測提問者的意圖等問題。而且,由于它被大量運用到學習領域,可能會產生學術擔憂、版權和著作問題等。此外,ChatGPT使得詐騙成本變低,甚至只需要和它對話復制粘貼給受害者,就能使受害者上當受騙,危害社會穩定。最后,ChatGPT的盈利模式尚處于探索階段,后續商業化進展仍有待觀察。
五、結論與展望
總之,深度學習是一種機器學習方法,它在很大程度上受到了我們在過去幾十年里發展起來的關于人類大腦在數學、計算機等方面的統計使用的啟發。目前,深度學習有三大典型模型:卷積神經網絡模型、深度信任網絡模型、堆棧自編碼網絡模型。隨著神經元數量的增加、數據量的增加和網絡模型的擴展,深度學習的算法性能也在提高,神經網絡的普及和效用顯著提高。
自20世紀80年代以來,深度學習的預測能力和準確性在各個領域都有所提高。同時,其在語音識別、圖像分割等領域取得了重要進展。直到2014年,隨著神經圖靈機的發明,神經網絡開始學習如何為自己編程,這種自編程技術在未來幾乎可以應用于所有領域。近年來,ChatGPT的誕生讓人類看到了深度學習未來發展的光明前景,但它的缺陷有待解決,相關的法律法規有待完善,其商業化運行模式還有待進一步開發。未來深度學習的發展將充滿機遇和挑戰。
參考文獻:
[1] WARREN S. MCCULLOCH and WALTER PITTS. A logical calculus of the ideas immanent in nervous activity[J].Bulletin of Mathematical Biology, 1990,52(1-2) : 99-115.
[2] 李源浩.M-P模型的背景探究[J].計算機時代,2022(2):8-11.
[3] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychol Rev,1958,65(6):386-408.
[4] 何立群,占永平.感知器神經網絡模型研究[J].九江學院學報(自然科學版),2014,29(04):37-39+43.
[5] MINSKY ML,Papert SA (1987) Perceptrons–expanded edition: an introduction to computational geometry. MIT press, Boston
[6] FUKUSHIMA, K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybernetics,36, 193–202 (1980).
[7] 石大明,劉海濤,舒文豪.結合進化計算的神經認知機[J].計算機學報,2001,24(5):468-473
[8] J. J. HOPFIELD,D. W. TANK. “Neural” computation of decisions in optimization problems[J] 1985,Biological Cybernetics(3):141~152
[9] RUMELHART, D., HINTON, G., WILLIAMS, R. Learning representations by back-propagating errors.Nature 323, 533-536 (1986).
[10] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998, 86(11):2278-2324.
[11] GEOFFREY E. Hinton, Simon Osindero, Yee-Whye Teh; A Fast Learning Algorithm for Deep Belief Nets. Neural Comput 2006; 18 (7): 1527–1554.
[12] G. E. HINTON R. R. Salakhutdinov ,Reducing the Dimensionality of Data with Neural Networks.Science313,504-507(2006).
[13] 王功明,喬俊飛,關麗娜,等.深度信念網絡研究現狀與展望[J].自動化學報,2021,47(1):35-49.
[14] 劉京運,李飛飛.推動人工智能普世化[J].機器人產業,2019,(1):20-25.
[15] ALEX KRIZHEVSKY, ILYA SUTSKEVER,GEOFFREY E. Hinton. 2017. ImageNet classification with deep convolutional neural networks. Commun. ACM 60,6 (June 2017), 84–90.
[16] 解笑,史有群.長期記憶神經圖靈機[J].計算機科學與應用,2018,8(1):49-58
[17] 辛效威,張定康.人工智能發展史及其標準化現狀[J].中國標準化,2018(19):69-73.