編譯 夏冰
按照學習能力排名的人工智能計算機分級制度體現了這些機器的能力和局限。

如今,人工智能項目[圖中用的這個項目叫作“亞倫”(ARRON)]也用于藝術創作,但人工智能是否可以在完全脫離人類幫助的情況下展現創造力仍舊沒有定論
人工智能領域的終極目標是建造在特定任務上至少與人類同樣聰慧的機器。目前,人工智能已經成功開發了各類機器,它們可以學習如何識別語音、在巡天項目中尋找新種類恒星、在國際象棋比賽中戰勝特級大師、識別人臉、分類圖像、診斷疾病、打車、開車、導航繞過障礙物,等等。然而,現在的這些機器一點都不聰明。并不聰明的它們要怎么做“聰明事”呢?這些機器在面對從沒見過的新數據時,表現會可靠嗎?如今,企業和政府越來越多地在敏感和重要領域應用人工智能,卻沒有很好地了解這類人工智能項目在何種情況下才值得信賴。
回答這些問題的一種方法是,檢測決定每類機器是否值得信賴的核心功能,并按照相對能力給這些人工智能機器分類。相比目前更常見的以從事活動和應用領域為基礎的人工智能機器分類方法而言,這種分類方法能讓我們對機器可靠度問題有更深入的了解。

這張時間表展示了人們對贊助人工智能研究的興趣變化。對人工智能發展期望的幻滅導致了兩段蕭條期。如今的第三段繁榮期則很是不同,因為人工智能的背后現在是一個蓬勃發展的巨大產業。然而,如果公眾的巨大期望沒有得到滿足,那么仍可能出現第三段蕭條期
人工智能這門學科自20世紀50年代正式誕生以來,共經歷了三段“繁榮”期和兩段“蕭條”期(常常稱作“人工智能寒冬”)。第一段繁榮期大約始于1950年前后,也就是這門學科剛剛誕生的時候。當時,人工智能領域產生了不少有用機器的原型,如語音識別器、語言翻譯機、游戲機、數學字問題運算機和簡易機器人。然而,研究者們沒能兌現他們的豪言壯語,贊助人也在20世紀70年代中期撤回了贊助資金。贊助于20世紀80年代初回歸。當時,日本的“第五代計劃”(Fifth Generation Project)在人工智能研究和高性能邏輯機器領域傾注了大量資金。這段繁榮期一直持續到20世紀80年代末贊助機構又一次因進展乏善可陳而撤資為止。第三段繁榮期則始于20世紀90年代初機器學習技術的興起。自那之后,人工智能領域產生了大量具有重大意義、頗有實用價值且常常令人驚喜的成果——以及鋪天蓋地的有關人工智能未來的炒作。機器學習指的是,程序通過學習大量案例自行開發功能,而不是學習程序員預設的規則。部分人工智能研究人員在這個及其他實現一般人工智能的方法上下了巨大賭注——而這或許超越了機器的能力范圍。如果事實的確如此,那么就可能出現又一段“蕭條期”。
這番炒作的一個方面尤其令我們感到困擾,那就是宣稱所有計算機信息處理技術(computing,以下簡稱“計算技術”)方面的進步都來自人工智能。實際上,在過去半個世紀里,計算技術自身的功能和可靠性也一直在穩步提升。2000年的時候,可用的計算機平臺就已經強大到可以支撐人工智能項目的程度了:正是因為計算技術的進步,現代人工智能才得以存在,而不是相反。然而,經濟合作與發展組織(OECD)最近的一份報告卻極不合理地大大拓展了人工智能的定義范圍,囊括了所有軟件,并且錯誤地將計算技術的所有進步都歸功于人工智能。雖然這種說法顯然是無稽之談,但它表明,鋪天蓋地的炒作之后聚集著許多政治力量。
在我們給自己布置的任務(對這些機器進行分類并定義它們的局限性)中,必須竭力克服兩大障礙。第一大障礙是,“智能”目前還沒有科學定義。亞瑟·克拉克(Arthur C.Clarke)的警告——“任何足夠先進的技術都與魔術無異”——很好地說明了人工智能領域大家熟知的一個現象:一旦我們成功地建造了某種智能機器,就不再認為它智能了。這就像是魔術一旦拆穿就不再好看了一樣。
第二大障礙是,我們的擬人化傾向——我們總會不自覺地把對于人類智能的信念和希望投射到機器上。例如,我們認為聰慧的人思維敏捷,卻不認為運算速度比人類快上十億倍的超級計算機具有智能。
我們馬上要討論的分級制度不依賴對智能的任何定義。等級之間的差別在于:低等級的機器無法學習高等級機器的功能。這種分類方法可以科學量化,不需要任何擬人化過程,且并不必然與計算能力相關。由此得到的機器分級表表明,到目前為止,還沒有任何機器擁有智能。

機器智能分級表
這個分級制度的最低級是基本自動化——能夠在極少甚至完全沒有人為干預的條件下實施或控制任務過程的設計類或應用類自動裝置。自動化的目的是用自動裝置代替人類完成工作。自動化常常包括簡單的反饋控制過程,目的是調整并適應傳感器讀數以保持操作過程的穩定——例如,用來調節建筑物溫度的計算機控制的恒溫器、航空自動駕駛儀、工廠組裝機器人。然而,這種自動化學不了任何新動作,因為它的反饋系統不允許它擁有除了設計目的之外的其他任何功能,因此,這類自動化顯然不是某種形式的機器智能。
幾個世紀以來,哲學家始終把推理能力視作人類智能的最高體現。人工智能研究者也為有能力模仿人類理性推理過程的程序所深深吸引。這些程序展開邏輯推導的方式是將預設的邏輯規則應用于輸入和中間結果,因此,我們稱其為“基于規則的程序”。
基于規則的程序最早的一大應用對象是棋類運動。1952年,IBM的電子工程師和計算機技術先驅亞瑟·薩繆爾(Arthur Samuel)向人們展示了一種功能頗為強大的跳棋程序。其后,人工智能研究者們就把注意力轉向了難度更大的國際象棋領域。他們認為,可以通過暴力算法窮舉棋盤未來的成千上萬種變化并挑選出最佳方案,以此實現機器“下棋”的目標。這番努力在1997年迎來了巔峰。當時,一臺名為“深藍”的IBM計算機搭載的高級國際象棋程序擊敗了國際象棋特級大師加里·卡斯帕羅夫(Gary Kasparov)。計算速度是這次勝利的最大功臣——同樣的時間,計算機可以搜索數十億種變化,而人類或許只能想到幾百種變化。
基于規則的程序設計的早期目標是專業系統,也即能夠解決某個領域中專家級問題的一系列程序。它們遵循的邏輯規則脫胎于相關專家的知識。1980年,卡內基梅隆大學的約翰·麥克德莫特(John McDermott)為數字設備公司開發了一個專業系統(叫作XCON)。根據客戶的需求,XCON推薦了VAX計算機系統的配置。據評估,截至1986年,XCON每年為數字設備公司節省了2 500萬美元的人力成本和設備成本。
然而,專業系統的創造者們很快就發現,讓專家系統化解釋他們的專業知識常常是一個不可能完成的任務:專家們掌握的很多專業知識都不可能以規則的形式表達出來。雖然他們的確構建了幾個功能頗為強大的系統,但真正的專業系統從來沒有出現。
在這個等級上,機器的計算方式并不是將邏輯規則應用于輸入以獲得輸出,而是由訓練師向它們展示每一種輸入對應的正確輸出,機器則把這些結果記憶在自己的運算結構中。人工神經網絡(Artificial neural network,ANN)就是監督學習的一個常見例子。之所以叫這個名字,是因為這個網絡的設計大體上模仿了人類大腦結構,也就是眾多神經元通過軸突和樹突相互連接在一起。人工神經網絡有許多稱為“結點”的電子元件構成,這些結點將加權后的輸入轉換成數字值。結點之間的互聯性(或稱“權重”)由訓練過程決定。19世紀末,生物學家就開始研究大腦中的自然神經網絡了;人工神經網絡的研究則始于20世紀40年代,當時有一些工程師提出,結構與大腦類似的計算機或許就能像大腦那樣工作。
人工神經網絡訓練師的工作對象是由輸入-輸出對組成的一大組數據。這些輸入-輸出對就反映了訓練師希望機器學會的各種功能。我們常常稱輸出為“標簽”,因為我們給神經網絡布置的任務就是識別輸入端的數據并給它貼上標簽。例如,如果輸入是人臉照片位圖,那么對應的輸出就會是照片中人的名字。訓練師不僅希望人工神經網絡在接受訓練后能夠正確識別訓練過程中出現的所有人臉,還希望它們能正確識別并沒有在訓練過程中出現的照片中的人臉。
神經網絡訓練師運用一種名為“反向傳播”的算法設置結點間的連接權重,以便最大限度地減少輸出中的差錯。不過,即便經過了這個過程,實際得到的輸出與預想中的也不會百分之百一致。也就是說,神經網絡可能會產生一些錯誤輸出。由于涉及的結點和連接數量極其龐大,訓練神經網絡通常需要數天之久。不過,一旦訓練完成,神經網絡就能在幾毫秒的時間內快速得出輸出結果。

人工神經網絡是一種由電子結點構成的網絡。這些結點以層狀結構排布,每一層結構都為下一層提供輸入。輸入層至少驅動一個隱藏的層級結構,最后一層則驅動輸出層。當來自前一層的加權總和超過閾值時,結點就會“失火”。而權重則是一些可以根據訓練算法調整的參數,以便讓給定輸入的輸出與我們想要的輸出匹配
目前的人工神經網絡主要有兩大局限性。一大局限性是太過脆弱。如果輸入是全新的(也就是沒有訓練過的),那么人工神經網絡的輸出可能會顯著偏離我們想要的結果。此外,只要有一點點噪聲干擾了有效輸入,人工神經網絡就可能給它貼上錯誤的標簽。例如,只要在停車標志的關鍵位置上貼上一些帶有斑點的膠帶,無人駕駛汽車上的路標識別器就會錯誤地把這個停車標志看成限速標志。另外,如果從同一個總體中抽出不同數據樣本分別訓練兩個人工神經網絡,訓練結束后,這兩個人工神經網絡對同樣的輸入可能會產生極為不同的輸出。
人工神經網絡的另一大局限性是其結果不可預測。我們很難“解釋”人工神經網絡得到結論的方式。訓練人工神經網絡唯一可見的結果就是一個由結點間連接權重構成的幾十億字節大小的矩陣,因此,對這個問題的“解釋”就分散到了成千上萬個權重之上。
最后,由于訓練過程較長,所需的訓練數據集往往代價不菲,人工神經網絡的訓練成本也十分高昂。
這個等級的機器能夠在沒有外部主體幫助的環境下學習通過內部修正提升自身性能。目前,這類機器獲得的研究關注日益上升,因為它們擁有削減訓練數據集高昂成本的潛力。
無監督學習的一個早期案例是1988年由美國宇航局埃姆斯研究中心的彼得·奇斯曼(Peter Cheeseman)及其同事建造的“AutoClass”(意為“自動分類”)。AutoClass通過計算,分類了美國宇航局紅外望遠鏡觀測到的5 425個天體。分類結果與天文學家已經得到的結果一致——只有一個例外,但天文學家認為這個例外是一項新發現。
無監督學習最近的一個成功案例是AlphaGo。圍棋是一項在亞洲頗為流行的古老棋類運動。一般認為,圍棋的復雜性要比國際象棋高幾個數量級。而AlphaGo則在大約6年的成長之后于2016年的首次公開亮相上就擊敗了韓國圍棋大師李世石。AlphaGo的訓練方式是同另一部AlphaGo對弈。這兩部機器進行了海量的對局,并且記錄了所有對局中的每一步。無論哪部AlphaGo贏下對局,它都會贏得一份獎勵,然后再回溯出所有對最終勝利做出貢獻的下法,這些下法在下一次對局中會得到加強并更多使用。訓練剛開始的時候,兩部機器遵循的唯一信息就是圍棋的規則,而不是圍棋對局案例。
AlphaGo的建造者是谷歌子公司深度思維(Deepmind)。在圍棋領域取得成功之后,這個團隊開始考慮修改AlphaGo平臺,令其學習國際象棋和另一項稱為“將棋”的兩人對弈棋類運動。他們將AlphaGo改名為AlphaZero,以示這部機器更為廣闊的用途。AlphaZero采用同樣的兩機訓練模式,在9小時內達到了國際象棋特級大師水平,12小時內達到了將棋特級大師水平,而圍棋則花了13天。這是一項極有意義的重大突破。AlphaZero的圍棋機器在不到兩周的時間內就達到了前所未有的高度。
只要有描述獎勵功能、可行操作和禁止操作的完善規則集,AlphaZero就能應用于商業博弈、市場博弈、軍事演習等領域。不過,AlphaZero系統不適用于社交系統,因為在社會領域展開博弈的前提是觀察對方的行動。
在這個等級上,機器智能來源于上萬甚至上百萬個具有特定功能的主體的相互作用。這些主體既可以是自主機器,也可以是代碼片段。這類機器的學習能力就源于這些主體的總和。20世紀60年代,人工智能研究人員就開始討論多主體交互的想法了。20世紀70年代的語音識別系統HEARSAY就以多主體交互的思想為基礎。20世紀80年代,多主體交互的思想演變成了黑板系統,已故人工智能先驅馬爾文·明斯基(Marvin Minsky)1986年的著作《心智社會》(The Society of Mind)就簡要介紹了這種思想。黑板系統中的黑板就是一種共享的知識空間,由各主體不斷讀取并更新,直到它們找到某個問題的集體解決方案為止。
到目前為止,如果交互主體都是機器,那么整個系統都還和人類智能差得很遠。不過,當人類充當某些主體的時候,情況就大為不同了。卡斯帕羅夫在1997年與IBM深藍的交鋒中落敗之后發明了一種新型國際象棋,并命名為“進階國際象棋”,對弈雙方分別是一個人機團隊——由計算機輔助人類。大家很快就發現,高水平棋手和國際象棋程序的組合能夠擊敗性能最強的機器。
高中機器人競賽則是另一個能夠證明人機團隊優越性的例子。在這類比賽中勝出的往往是人類導航者和自主功能程序主體的組合。
人機團隊的成功暴露了人工智能研究人員的內部分歧。部分研究人員希望機器脫離人類幫助,獨立走向智能。另一部分研究人員則認為,人機合作的團隊機制要比同種機器單打獨斗更加強大。
這個等級的人工智能介于創造性人工團隊中居于輔助地位的機器與能獨立展現一般智能的機器之間。問題在于:有沒有一種機器能夠在不借助團隊的前提下獨立展現創造性?就現階段的技術水平來說,目前的機器都沒有達到等級5或等級6的水準。
部分人工智能研究人員認為,創造力是已有思想的重新組合,并且已經著手開發擁有此類功能的機器。一個例子就是密歇根大學的約翰·霍蘭德(John H.Holland)在1975年前后大力推廣的遺傳算法,也即通過模擬遺傳突變和交叉組合尋找問題的近優解。這種算法最早應用在美國海軍的一個機器人上,幫助它找到了安全通過雷區的路徑。遺傳算法起始于隨機指令串,并且會有程序根據每種遺傳算法展現出來的能力給它評估出一個適應值。適應值最高的程序就組合在一起,形成新一代程序并繼續評估出新適應值,依此不斷進行下去。經過數代改進,程序最終會進化成功算法,比如可以引導機器人安全通過雷區的那種。
藝術家和音樂家已經開始嘗試運用人工智能工具創造新藝術形式。應用程序Prisma就是這種嘗試最早的例子,它能將照片轉換成著名畫家風格的藝術圖像。羅格斯大學的艾哈邁德·艾爾格馬爾(Ahmed Elgammal)和他的同事已經展出了一部名為“AICAN”的神經網絡機器創作的藝術作品。艾爾格馬爾的結論是,雖然人工智能似乎可以具有藝術創造力,但這項能力沒有裝備人工智能工具的藝術家強。
創造力是一種深度社會過程,涉及許多針對新可能和新環境的人為評估。建造一部能夠自主產生這種創造力的機器或許是個不可能完成的任務。
這一等級囊括了代表許多人工智能研究人員夢想的各類想象中的機器。最大膽的夢想當然是那些擁有思考能力、推理能力、理解能力、共情能力、感知能力、自我意識且可以自我反思的機器。這類機器從來就沒有出現過,也沒有人知道它們是不是可能出現。
研究人員早就意識到人工智能機器缺乏常識。例如,早期的醫療專業系統總是會犯一些沒有醫生會犯的錯誤。研究人員認為,解決這個問題的方案是,收集大量常識性事實和規則,形成一個非常龐大的數據庫,以備專業系統查用。1984年,Cyc公司的首席執行官道格拉斯·雷納特(Douglas Lenat)就已經開始著手建造這樣一類機器,并且稱其為“Cyc”。這個項目目前仍在繼續。如今,Cyc的數據庫已經囊括了幾百萬項常識性事實,但還從沒有幫助某個專業系統展現像人類一樣的能力。
許多人工智能研究都以這樣一種假設為基礎:大腦就像一臺計算機,而思維則是它的軟件。認知科學家現在認為,大腦本身的結構——錯綜復雜的層疊、褶皺和交叉連接——就以大腦活動統計現象的形式產生了意識。不過,更進一步地說,我們自以為了解的很多東西實際上都分布于我們身處其中的社會網絡中,我們只是通過與他人的互動把它們“回憶”起來。智利生物學家溫貝托·馬圖拉納(Humberto Maturana)和弗朗西斯科·瓦雷拉(Francisco Varela)認為,生物結構決定了生物體間的相互作用方式,以及意識和思維在行為協調網絡中的產生方式。他們的結論是,自主軟件和生物學結構機器的組合并不足以產生機器智能。人類的社會群體和語言交互在一般智慧的產生過程中扮演了至關重要的角色,只是具體作用方式我們仍舊一無所知。
如今,每天都有人工智能的新應用誕生,但人工智能技術并沒有朝著等級5和等級6邁進。目前的人工智能只是在等級2和等級4之間不斷完善。我們需要正確區分新應用和升級版應用帶來的興奮與人工智能算法在解決特定一類問題上的能力真正提升。
根據這個分級制度,我們很可能會推導出這樣一個大概率不討人喜歡的結論:人類智能無法用計算技術實現。機器人工智能的頂峰或許就是支撐人機團隊合作——這本身就是一個意義重大的目標。