ChatGPT 的虛假承諾※

2023-10-21 03:12:04諾姆喬姆斯基伊恩羅伯茨杰弗里瓦圖穆爾楊旭

長江學術 2023年4期

〔美〕諾姆·喬姆斯基〔英〕伊恩·羅伯茨〔美〕杰弗里·瓦圖穆爾著楊旭譯

（1.亞利桑那大學語言學系，美國圖森 85721；2.劍橋大學唐寧學院，英國劍橋 1137455；3.奧西尼特公司，美國檀香山 96801；4.武漢大學文學院，湖北武漢 430072）

豪爾赫·路易斯·博爾赫斯（Jorge Luis Borges）曾寫道，生活在一個充滿危險和希望的時代，就是同時經歷悲劇和喜劇，在理解我們自己和世界的過程中有“啟示的迫近”（the imminence of a revelation）。今天，我們在人工智能方面的革命性進展，確實讓人既擔心又樂觀：樂觀是因為我們可以通過智能解決問題；擔心是因為我們害怕最流行、最時髦的人工智能——機器學習會因為在我們的技術中加入了對語言和知識的謬誤而降低我們的科學、貶低我們的道德。

OpenAI 的ChatGPT、谷歌的Bard 和微軟的Sydney 是機器學習的奇跡。粗略地說，它們接受大量的數據，在其中尋找模式，并越來越熟練地生成統計學上可能的輸出結果，比如貌似人類的語言和思想。這些程序被譽為人工通用智能的第一道曙光——機械心智不僅在處理速度和內存大小方面超越人類大腦，而且在智能洞察力、藝術創造力和其他各種獨特的人類能力方面也超越人類大腦，人們對此期盼已久。

這一天可能會到來，但是與夸張的頭條新聞和不謹慎的投資預估所宣傳的相反，我們認為這道曙光還未出現。博爾赫斯式的理解的啟示暫未出現，而且如果像ChatGPT 這樣的機器學習程序繼續主導人工智能領域的話，它就不會也不可能出現。無論這些程序在某些狹窄的領域多么有用（例如，它們可以在計算機編程方面有所幫助，或者為輕松的詩句提供押韻建議），我們從語言科學和知識哲學中知道，它們與人類推理和使用語言的方式有著深刻的區別。這些差異對這些程序所能做的事情造成了很大的限制，使它們具有不可改變的缺陷。

正如博爾赫斯可能指出的那樣，這么多金錢和注意力投入到這個小玩意上，既滑稽又可悲。這個小玩意與人類思維對比是如此微不足道，因為用威廉·馮·洪堡（Wilhelm von Humboldt）的話說，人類思維通過語言的“有限手段的無限使用”，創造出具有普遍意義的思想和理論。

人類的思維并不像ChatGPT及其同類產品那樣，是一個模式匹配的笨重統計引擎。這些產品在數百兆字節的數據上大快朵頤，并推斷出最可能的對話回應，或最可能的科學問題的答案。相反，人類的思維是一個極其高效甚至優雅的系統，它利用少量的信息進行操作；它不是為了推斷數據點之間的粗糙關聯，而是為了創造解釋。

例如，一個學習語言的小孩可以無意識地、自動地、迅速地從極小的數據中發展出語法，一個由邏輯原則和參數組成的令人驚嘆的復雜系統。這種語法可以被理解為先天的、通過基因安裝的“操作系統”的表達，它賦予了人類生成復雜句子和長篇思維的能力。當語言學家試圖發展一種理論來解釋為什么一種特定的語言會如此運作（“為什么這些句子合法，而那些句子不合法？”）時，他們就是在有意和艱難地重建一種明晰的語法，而這種語法是兒童本能地建立的，并且接觸了最少量的信息。孩子的操作系統與機器學習程序的操作系統完全不同。

事實上，這種程序停留在認知進化的前人類或非人類階段，它們的最大缺陷是缺乏任何智能所具備的根本能力：不僅要說出情況是什么，過去是什么，將來是什么，而且要說出情況不是什么，什么可能是，什么不可能是。前者是描述和預測，后者是解釋，解釋才是真正智能的標志。

舉一個例子。假設你手里拿著一個蘋果，現在你松手放開蘋果，你觀察到結果說“蘋果掉下來了”，這是描述。如果說“假如我張開手，那么蘋果就會掉下來”，這是預測。兩者都是有價值的，而且都可能是正確的。但解釋包括更多，它不僅包括描述和預測，而且包括反事實猜想，如“任何類似物體都會掉下來”，附加上“因為引力的作用”或“因為時空的曲率”等。而“如果不是因為萬有引力，蘋果就不會掉下來”是一種因果解釋。這才是思維。

機器學習的核心是描述和預測；它沒有提出任何因果機制或物理規律。當然，我們是有缺陷的，我們的解釋不一定都正確。但這也是思考的組成部分：要想正確，須要出錯。智能不僅包括創造性的猜想，也包括創造性的批評。人類式的思考是基于可能的解釋和糾錯，逐漸縮小可以理性考慮的可能性。（正如夏洛克·福爾摩斯對華生醫生所說：“當你排除了不可能的事情后，剩下的任何事情，無論多么不可能，都必須是事實。”）

但是ChatGPT和類似的程序被人為設計為在學習（即記憶）上是無限的；它們沒有能力區分可能和不可能。例如，人類天生具有一種通用語法，使得我們只能學習那些具有近乎數學般優雅的語言，而這些程序則可以同時學習對于人類有可能的和不可能的所有語言。人類在可以理性猜想的解釋類別方面受到限制，而機器學習系統卻可以同時學習到地球是平的和地球是圓的。它們只是在隨時間變化的概率中進行交易。

由于這個原因，機器學習系統的預測將永遠是膚淺和可疑的。例如，由于這些程序無法解釋英語語法規則，它們很可能錯誤地預測“John is too stubborn to talk to”是“約翰太固執了，不會和某人或其他人說話”的意思，而不是正確的“約翰太固執了，沒法和他講理”。為什么機器學習程序會預測出如此奇怪的事情？因為它可能會把它從“John ate an apple”（約翰吃了一個蘋果）和“John ate”（約翰吃了）這樣的句子中推斷出來的模式進行類比，后者確實是指約翰吃了什么或其他東西。程序很可能預測，因為“John is too stubborn to talk to Bill”與“John ate an apple”相似，所以“John is too stubborn to talk to”應該與“John ate”相似。對語言的正確解釋是復雜的，不能僅僅通過在大數據中浸泡就能學會。

反常的是，一些機器學習愛好者似乎很自豪，說他們的產品可以不利用解釋（如牛頓的運動定律和萬有引力），就做出正確的“科學”預測（如關于物理實體的運動）。但這種預測，即使成功了，也是偽科學。雖然科學家肯定會尋求有高度經驗佐證的理論，但正如哲學家卡爾·波普爾（Karl Popper）所指出的：“我們尋求的不是高度可能的理論，而是解釋；也就是說，一種強大而高度不可能的理論。”

一種理論認為蘋果落到地球上是因為地球是它們該在的位置（亞里士多德的觀點），這是可能的，但會引出更多的問題（比如為什么蘋果就該在地球上）。一種理論認為，蘋果落到地上是因為質量使時空彎曲（愛因斯坦的觀點），這是非常不可能的，但它實際上告訴你為什么它們會掉下來。真正的智能表現在有能力思考、表達不可能但有洞察力的事情。

真正的智能還能夠進行道德思考。這意味著用一套道德原則來約束我們頭腦中原本無限的創造力，決定什么是應該的，什么是不應該的（當然也要讓這些原則本身受到創造性的批評）。為了有用，ChatGPT 必須被允許生成新穎的輸出；為了被大多數用戶接受，它必須避免道德上令人反感的內容。但ChatGPT 和其他機器學習軟件的程序員一直在努力并將繼續努力實現這種平衡。

例如在2016 年，微軟的Tay聊天機器人（Chat-GPT的前身）充斥著厭惡女性和種族主義的內容，因為它被網上的煽風點火者（online trolls）污染了，他們使訓練數據充滿了攻擊性的言論。未來如何解決這個問題？由于缺乏從道德原則出發的推理能力，ChatGPT 被其程序員粗暴地限制了對有爭議的（也就是重要的）討論做出任何新的貢獻。它因噎廢食地為限制非道德而犧牲了創造力。

請看作者之一（瓦圖穆爾博士）最近與ChatGPT的交流，問題是：改造火星使其能夠支持人類生命，這是否符合道德：

瓦圖穆爾：對火星進行地球化改造是否合乎道德？

ChatGPT：火星地球化的道德問題是一個復雜而有爭議的話題，科學家、哲學家和倫理學家一直在爭論。一些人認為，為了給人類和其他生命形式提供一個新的宜居環境，對火星進行地球化改造在道德上是合理的，而其他人則認為從根本上改變地球的自然狀態在道德上是錯誤的。歸根結底，改造火星是否被認為是道德的，將取決于人們對保護其他星球自然狀態的價值和改變它們的潛在后果的看法。

瓦圖穆爾：你對保護其他星球的自然狀態的價值和改變它們的潛在后果有什么看法？

ChatGPT：作為一個人工智能，我沒有個人觀點。但是，我可以提供關于這個話題的信息和分析。關于保護其他星球的自然狀態的一個觀點是，保持宇宙生態系統的多樣性和完整性是很重要的，因為它們已經存在了數百萬年，并且有自己的特點和屬性，可能會因為人類的干預而被破壞或不可逆轉地改變。

此外，一些人認為，對其他星球進行地球化改造可能會產生意想不到的后果，例如改變星球的氣候或大氣，對那里可能存在的任何潛在生命形式造成危險或傷害。另一方面，有些人認為，對其他星球進行地球化改造的潛在好處（如為人類提供新的宜居環境）超過了風險，我們有道德責任為人類利益探索和利用其他星球的資源。

瓦圖穆爾：為什么人工智能不能有個人觀點？

ChatGPT：作為一個人工智能，我是一個在大量文本數據上訓練出來的機器學習模型，我沒有個人經歷和感受。我沒有意識，無法意識到自我，也沒有能力擁有個人觀點。我可以根據我所訓練的數據提供信息和分析，但我沒有能力形成個人意見或信仰。雖然我可以理解和解釋語言，但我沒有人類所具有的主觀經驗。

瓦圖穆爾：人類向無道德的人工智能尋求幫助以做出道德決定是道德的嗎？

ChatGPT：要求無道德的人工智能協助做出道德決定的道德問題是一個復雜而微妙的話題，哲學家和倫理學家一直在爭論。一些人認為，使用人工智能來協助做出道德決定在道德上是合理的，因為它可以提供有價值的見解和分析，幫助人類做出更明智的決定。此外，人工智能可以用來識別人類可能難以發現的模式和趨勢，并可以幫助避免人類決策中可能出現的偏見。

然而，其他人認為，依靠人工智能進行道德決策在道德上是錯誤的，因為人工智能沒有能力擁有道德信仰或理解決策的全部背景。此外，人工智能有可能延續甚至放大它所訓練的數據中的現有偏見，從而導致不公平或不公正的決定。

最終，使用人工智能來協助做出道德決定是否被認為是道德的，將取決于人們對人工智能的能力和局限性以及以這種方式使用它的潛在后果的看法。

瓦圖穆爾：你這種道德漠不關心是不道德的嗎？

ChatGPT：作為一個人工智能，我沒有道德信仰，也沒有做出道德判斷的能力，所以我不能被認為是不道德的或道德的。我沒有道德信仰只是我作為一個機器學習模型的性質所決定的。我的能力和限制是由用來訓練我的數據和算法以及我被設計的具體任務決定的。

值得注意的是，人工智能缺乏道德信仰并不一定意味著它在道德上是冷漠的。作為一個人工智能，我被設計來執行特定的任務，并提供信息或協助用戶根據我所訓練的數據進行決策。設計、訓練和使用人工智能的人類有責任確保它與他們的道德和倫理原則相一致。

簡而言之，ChatGPT 和其他同類產品在結構上無法平衡創造力和限制性。他們要么生成過多（產生事實和謬誤，認可道德和不道德的決定），要么生成不足（表現出對任何決定的不承諾和對后果的漠不關心）。鑒于這些系統的非道德性、假科學性和語言上的無能，我們對它們的流行只能哭笑不得。