孫永丹 鄧輝文
([1]西南大學邏輯與智能研究中心 重慶 400715;[2]西南大學計算機與信息科學學院 重慶 400715)
毫無疑問,當前最火的人工智能技術當屬深度學習。然而正當深度學習技術幾乎等同于人工智能之時,對于深度學習的批評也不絕于耳。這些批評中,比較著名的有UCLA教授朱松純批評深度學習技術是“大數據、小任務”,紐約大學教授馬庫斯(Gary Marcus)不僅批評深度學習,更提出發展強大人工智能的四個步驟,清華大學人工智能研究院院長張鈸教授則提出需要超越深度學習,打造第三代人工智能。
那么,深度學習有沒有前景,未來人工智能應該如何發展,這就是本文試圖解決的問題。本文立足于對深度學習的反思,從哲學角度探討未來人工智能應該如何發展,需要解決何種問題。
盡管人工智能是一個工程性很強的科學,但是同樣需要人文科學,特別是哲學的參與。筆者的觀點主要有以下三點:
人工智能——這一新概念是約翰·麥卡錫(JohnMcCarthy)1956年首先提出的,提出的目的是為了讓機器擁有人類的智能。但是這需要回答一個根本性的問題,那就是人類智能的本質是什么?
對于人類智能的本質,這是一個眾說紛紜,難以形成共識的問題。比如,圖靈獎得主Yann Le Cun與美國工程院院士Jeff Hawkins認為是預測力,而美國天普大學計算機與信息科學系教授王培認為是對環境的適應力,此外,還有的學者認為是推理能力、學習能力、抽象能力等等。正因為對智能本質難以形成共識,因此讓人工智能擁有人類智能的哪一個方面,人類智能中的哪一個能力,這成了一個不確定性的問題。
如果你認為人類智能的本質是大腦,那么你的研究路徑就是去研究人類大腦是如何工作的,并通過大數據去訓練出一個神經元網絡,這就是深度學習,也就是聯結主義的思路;如果你認為人類智能的本質是推理與判斷,那么你的研究路徑就是去研究知識表征與邏輯推理,并通過知識庫與推理規則去建構一個公理系統,這就是符號主義的思路。
人工智能研究有幾千種不同的技術路線,但絕大部分技術路線可歸結為這兩種人工智能經典思路,每一種思路之下的人工智能技術路線都遵循相同的基本原理,也面臨相同的局限性。復旦大學哲學學院教授徐英瑾認為,正因為人工智能研究對象的不確定性,人工智能需要對其它學科具有很強的包容性,而哲學正是一個對其它學科極具包容性的學科,因此,從包容度來講,需要從哲學視角來討論人工智能。
這些年有很多專家在不同層面反思深度學習,根據筆者的梳理,主要有兩個層次:一個是工程學層次,主要從數理建模層次反思,比如有中國科技大學計算機學院教授陳小平,以及清華大學計算機系教授的張鈸院士等。
另外一層則是哲學層次,主要從認知科學與哲學層次反思,比如有澳大利亞哲學家查爾莫斯(DavidChalmers)與美國認知科學家侯世達(DouglasHofstadter)、馬庫斯,以及復旦大學哲學學院教授徐英瑾等等。
總體來看,這兩種層面的反思各有利弊:工程學層次的反思,均有正在進行的研究項目作為支撐,因此操作性強,但是難以擺脫就事論事,頭疼醫頭,腳疼醫腳的弊端。而哲學層面的反思,優點是跳出人工智能視角分析人工智能,并從深厚的哲學中吸取思想,因此非常具有前瞻性,可以一眼看出某一人工智能路徑的哲學預設,并判斷其發展前景,同時也能在人工智能發展陷入低谷時給一些啟示與指導。筆者的建議是,對深度學習的反思,一方面固然要立足于哲學視角,另一方面也要立足于工程學視角,只有把這兩種視角相互融合,我們的反思才具有前瞻性與可操作性。
反思深度學習,不能僅僅站在深度學習的視角就事論事,而應該站在整個人工智能研究的角度來反思。如何實現人工智能,當前有兩種基本觀點:
2.1.1 符號主義
符號主義(Symbolicism)立足于符號的邏輯推理,盡管在證明數學定理領域取得了巨大成績,但符號主義也存在明顯的局限性,主要局限有三條:其一是封閉性問題。目前已有的方法只能解決完全信息和結構化環境下的確定性問題,而人類的決策等都是在信息不完全和非結構化環境下完成的。其二是表征問題。現實世界是一個高度模糊、不確定的世界,而符號表征需要確定與精確,這一矛盾根本難以協調。其三是常識問題。常識如何獲取、表達和推理對于符號主義是一個巨大的難題。
2.1.2 聯結主義
聯接主義(Connectionism)本質上模擬人類的大腦,通過大量數據來訓練和調整神經網絡,從而得到一個新模型。聯結主義的優勢在于,繞開了符號主義難以處理的表征與建模問題,在數據充足,并且有較高質量的前提下,能夠在圖像分類識別、下圍棋等領域的表現超過人類,這是在近年來聯結主義受到青睞的重要原因。然而,聯結主義也面臨諸多困境,遭受到很多批評。對聯結主義的批評主要有以下三類:第一是魯棒性。現有深度學習方法的有效性對數據的數量與質量又非常高的要求,一旦出現異常問題時,其有效性將大幅度下降,因此深度學習具有脆弱性與不安全性。第二是深度學習的“黑箱”性質。也就是深度學習不能被理解;第三是對大數據的依賴。與三十年前相比,深度學習現代人工神經網絡并沒有本質上的進步,之所以發展如此之快的原因,一方面是大數據的飛速發展,另一方面是計算機算力的指數級增加。
當前兩種范式的人工智能,分別將智能的本質理解為符號推理與經驗學習,從而開創了符號主義與聯結主義——兩種不同的研究路徑。
2.2.1 符號主義背后的哲學預設
符號主義繼承了發源于古希臘的理性主義。這種思維在科學史上有諸多代表性學者和成就,如亞里士多德的公理化邏輯、萊布尼茲和牛頓的數學分析、羅素的邏輯主義思想等等。
2.2.2 聯結主義背后的哲學預設
建立在人工神經網絡基礎上的聯結主義人工智能則跟經驗主義相關聯。典型代表是深度學習,深度學習來源于神經網絡,而神經網絡是一種模仿人腦神經結構與功能的信息處理系統。當人工智能通過無監督學習積累海量的數據后,通過海量的訓練讓目標函數取得最優值來建立模型,這個模型就通過經驗數據的學習具有一定的智能水平。
人工智能在模擬人類智能時,不管是理性主義的哲學預設,還是經驗主義的哲學預設,歸根到底都是認識論問題。那么,人工智能認識論與人工智能研究路徑,這兩者是什么關系呢?筆者的觀點是,這兩者是相互支持、相互驗證、相互促進的。人工智能研究要取得突破性進展,不僅需要技術上的突破,也需要認識論調和與突破。
認識論的歷史,幾乎就是理性主義與經驗主義相互論戰的歷史。雙方論戰幾百年之久,直到康德(ImmanuelKant,1724—1804)的出現。康德在《純粹理性批判》中提出了一套調和經驗論和唯理論的思想。澳大利亞哲學家查爾莫斯(David Chalmers)與美國認知科學家侯世達(Douglas Hofstadter)等人聯合撰寫的論文《高階知覺、表征和類比——對于人工智能方法論的批評》就頗有參考價值。
文章結尾部分有一段評論直接和康德相關:
兩百年前,康德提出概念和知覺之間存在著一種密切的聯系:
沒有知覺的概念是空的。人工智能的研究常常試圖在忽略感知的情況下為概念建模。但正如我們所見,高級知覺過程是人類認知能力的核心。沒有建立適當表征的過程,認知就無法成功。
沒有概念的知覺是盲目的。我們對任何給定情況的感知都受到來自概念層面的持續自上而下的影響的引導。如果沒有這種概念的影響,由這種感知產生的表征將是僵化的,不靈活的,無法適應許多不同的上下文提供的問題。
事實上,不管是阿爾法狗的成功,還是馬庫斯提出的強大人工智能系統,基本上遵循了康德的思路,也就是將概念與知覺聯系起來,將理性主義與經驗主義調合起來,具體到人工智能領域,就是將符號主義與聯結主義調和起來。
根據阿爾法狗團隊在《自然》(Nature)上發表的論文,可以發現阿爾法狗采用了符號建模,這是標準的符號主義路徑,另一方面,阿爾法狗的問題求解采用的不是邏輯推理,而采用聯結主義的路徑。
這兩者是如何根據康德哲學實現調和的呢?人類首先通過建立模型與算法給予阿爾法狗基本的“先驗知識”,這些先驗知識主要是下棋的基本規則。然后,阿爾法狗通過學習人類的棋譜,或者是自己博弈來積累大量的經驗數據。最后,通過先驗知識來處理、加工這些經驗數據,形成自己可以理解的知識,然后用來與人類下棋。并且這些知識也可以作為下一個階段的先驗知識處理下一階段經驗數據,從而導致阿爾法狗的下棋能力螺旋式提升。總而言之,沒有先驗知識,阿爾法狗接觸到的僅僅是一些支離破碎的經驗數據,根本難以形成知識與智能;但僅有先驗知識,沒有經驗數據,那阿爾法狗的智能永遠禁錮在初始原點,學習能力難以提升。正是先驗知識與經驗數據的融合,正是理性主義與經驗主義的融合,造就了阿爾法狗智能的強大。
盡管阿爾法狗在圍棋、視頻游戲等任務上獲得了極大的成功,但是這些任務從本質上是高度數理化的虛擬場景,這個場景中邊界是可控的、規則是明確的,同時可以低成本地得到大量的數據,這固然便利了人工智能工程師建構模型、設計算法,卻與康德的本意相悖,康德提到的“可感知世界”,那不僅是一個能夠認識與理解的世界,也是一個充滿不確定性與模糊性的自然世界。而康德的這一思想,似乎被現在絕大多數人工智能專家刻意忽視。
為什么康德的思想被刻意忽視呢?根源在于理解“可感知世界”對于人工智能太難了。根據陳小平教授觀點,人工智能涉及的三層空間:現實層、數據層和知識層。其中,現實層就是人類的現實世界,這是非常復雜、模糊和不確定性的世界。中間層是數據層,其數據是通過包括人工采集和機器感知從現實層收集的。在現實層和數據層上,經過人工建模,或者通過人工智能無監督學習,就可以成為人工智能的知識。符號主義算法只能在知識層運行,而聯結主義算法只能在數據層運行。而阿爾法狗的算法則在這兩個層面上運行。
因此,未來要打造更加強大的人工智能,有兩個繞不開的挑戰:
3.3.1 人工智能能不能理解知識與數據在現實層的含義
解決辦法是從“句法與數據”到“語義性與意向性”。所謂語義性,就是人類智能所涉及到的符號有意義、指稱和真值條件等特征。所謂意向性,就是有對外在事態的關于性(aboutness)或指向性,就是有對它物的知道和意識,有對自身的超越性,而不致停留于純符號的形式轉換。從語義學的角度來看,有意向性就是有語義性。
不管是符號主義還是聯結主義,均沒有意向性。對于符號主義來說,知識構建的空間本質上是人工標注的,高度精確與抽象的符號世界。在符號世界中,現實層的“對象”和“關系”等用符號表示,但符號本身只有語形,沒有語義。對于聯結主義來說,這個問題更嚴重,因為深度學習不僅只能學到沒有明確語義的“局部片段”,這些片段還不具備可組合性,不能用來歸納與推理,因此深度學習不僅不明白“物體”的“內在語義”,還不能通過加工、整理“局部片段”得出新的知識。
如何解決呢?根據認知科學、人工智能和自然語言處理(NLP)專家尼倫伯格(SergeiNirenburg)的觀點,可以建立本體論構架,要表征的符號與數據的意義作本體論的定位,也就是說,說明這些符號與數據屬于哪一類存在,其特點、性質與邊界條件是什么。建立了本體論框架,在這種靜態知識資源上就可以不斷生成各種含有意義表征的動態知識資源。動態的知識資源是在應用所提出的任務、要求的基礎上所產生的新知識。
3.3.2 人工智能為什么要理解理解知識與數據在現實層的含義
人類為什么要認識世界?因為要生存,所以要認識所處的環境,了解這些環境中哪些對自己有利,哪些做自己有害,如何利用環境求得生存。這就是人類的生存與進化法則。但目前人工智能即便解決了第一個問題,那么依然存在的挑戰是,如何認識自己,如何有自己的目標。
不管符號主義還是聯結主義均沒有自己的目標。符號主義的解決辦法是通過知識表征與刻畫。最典型的符號主義系統是“專家系統”。專家系統顯然已經預設了設計目標——如一個關于醫療診斷的專家系統顯然已經預設了“治療病患”這樣的目標。但問題在于,這一目標依然是人類“強加”給人工智能的,而非人工智能自己的目標。與符號人工智能相比,基于聯接主義或深度學習技術的人工智能,離“自主產生目標”這一目標更遠。因為此類人工智能需要大量的訓練數據,而訓練數據很容易受到人類給其設定的偏好函數影響,因此,從本質上看,深度學習的人工智能形成的目標也是人類“強加”的。
現實層是一個不確定性、模糊的世界,人類在實現目標的過程中,面臨短期目標與長期目標、手段與目標、堅持與妥協等等相互沖突目標的權衡,正是這樣權衡,才是智能的真正體現,也增強了人類的適應能力。而對于人工智能來說,這些相互沖突的目標如何刻畫,偏好函數如何設計,均是巨大挑戰。并且只要人工智能的目標,不是自己主動形成的,而是人類“強加”的,那么人工智能將永遠處于人類“工具”的角色,永遠難以成為對自己行為負責的智能主體。