

“語言模型不過是被過譽了的自動補全功能”已成為批評者的常見論調,
但強化學習正在證明他們的錯誤。新突破或將緊隨而來。
人工智能就是一場羅夏墨跡測驗。當OpenAI于2023年3月發布GPT-4時,微軟的研究人員興奮地(但也過早地)宣稱它展現出了通用人工智能(AGI)的“生命火花”。然而,認知科學家加里 · 馬庫斯(Gary Marcus)則認為,像GPT-4這樣的大語言模型與定義寬泛的通用人工智能概念還相去甚遠。事實上,馬庫斯懷疑這些模型是否真正“理解”了任何東西。他在2023年的一篇論文中寫道,這些模型“在人類語言的‘化石化’輸出上運行,它們似乎能夠實現一些與分布統計相關的自動計算,但由于缺乏生成性的世界模型,它們無法真正地理解”。馬庫斯所說的“化石”指的是這些模型的訓練數據——如今,這些數據幾乎涵蓋了互聯網上所有的文本。
這種認為大語言模型“只是”基于文本統計模型的下一單詞預測器的觀點,如今已經普遍到幾乎成為一種陳詞濫調。它被用來正確或錯誤地解釋大語言模型的缺陷、偏差和其他局限性。最重要的是,像馬庫斯這樣的人工智能懷疑論者用這一觀點來論證,進一步發展大語言模型將很快面臨收益遞減:我們會看到大語言模型整體上越來越好地掌握人類知識,但不太可能看到邁向“通用智能”的又一次質變飛躍。
這種看衰大語言模型的觀點存在兩個問題。首先,當達到足夠規模時,“下一單詞預測”可以使模型產生人類本未設計甚至未曾預見到的能力——有些人稱之為“涌現”能力。其次,越來越多的語言模型采用的技術顛覆了純粹的、對互聯網文本進行下一單詞預測的概念。具有諷刺意味的是,這一浪潮正是從ChatGPT開始的。
對于OpenAI、DeepMind和Anthropic等公司來說,要實現它們的宏圖大志,人工智能模型所需要做的不僅僅是撰寫文章、編寫代碼和生成圖像。而且,這些公司還必須應對這樣一個事實:用于訓練模型的人類輸入是一種有限的資源。人工智能發展的下一步既充滿希望,又令人生畏:人工智能將在已有基礎上進一步構建自身,解決更復雜的問題,并自我糾錯。
大語言模型的發展可能會經歷又一次飛躍,而且它很快就將出現。至于這是否是朝著“通用智能”的方向邁進,還有待探討。但這次飛躍的樣貌已經逐漸變得清晰。
龐大規模帶來的驚人結果
2017年,一家名為OpenAI的小型人工智能研究非營利機構獲得了一個有趣的發現。當時,和大多數人工智能實驗室一樣,OpenAI的研究人員把大部分資源投入機器人技術和教計算機掌握游戲的研究中。然而,正在自然語言處理這一邊緣領域(此領域如今通常被稱為“語言模型學”)工作的研究員阿萊克 · 拉德福德(Alec Radford)卻發現了令人驚訝的事情。
拉德福德用一個包含8200萬條亞馬遜產品評論的數據庫訓練了一個人工智能模型,以預測給定輸入序列的下一個字符。在此過程中,他發現自己意外地構建了一個能夠做其他事情的先進系統,而這些功能并不是他設計的初衷。原來,為了實現下一字符預測的目標,一個有用的方法是讓模型分析并“理解”訓練數據中評論的基本情感取向:了解評論是憤怒的而非愉快的,可以讓模型更準確地預測下一個字符。拉德福德重新發現了一條真理,而自十年前深度學習革命開始以來,這一真理實際上是幾乎所有機器學習重大進展的根源:在目標簡單、規模龐大的系統中,可以涌現出意想不到的特性。
當今的語言模型擁有大致相同的運行方式,只不過,它們預測的是下一個單詞而不是下一個字符。實際上,它們預測的是一種名為“標記/詞元”(token)的子詞語言單位,但對本文的論述而言,“單詞”(word)這一概念已經夠用。進一步擴大語言模型,并為此投入數億甚至數十億美元——其背后的基本理論是,隨著數據量的增加和神經網絡的擴大,模型將學習到越來越復雜的、反映出人類智能的啟發式方法和模式。
也許在達到一定規模后,模型甚至能學會對創造它們訓練數據的過程(即語言智能)進行“建模”。換句話說,通過研究數以萬億計的特定文本選擇,模型將學會近似智能推理本身。“足夠好地預測下一個標記意味著什么,”OpenAI前首席科學家伊爾亞 · 蘇茨克維(Ilya Sutskever)在2023年的一次采訪中問道,“這實際上是一個比看上去更深刻的問題。很好地預測下一個標記意味著你理解了導致該標記生成的基本現實……為了理解這些統計數據……你需要理解有關世界的哪些內容創造了這一組統計數據?”
拉德福德2017年構建的模型中包含了8200萬個參數,“參數”是衡量模型規模的一個指標。據報道,GPT-4包含約1.8萬億個參數。目前,語言模型可以下國際象棋和其他棋類游戲,幾乎可以流利地說每一門語言,并在標準化測試中取得了優異成績。它們甚至學習了地球的地圖——一個字面上的“世界模型”——并將其存儲在龐大的數學關系網絡中。顯然,規模可以帶來不少成果。
但重要的是,它們仍然存在缺陷。有時,模型只是簡單地記憶文本序列,尤其是那些反復出現的文本。另一些時候,模型會杜撰出聽起來合理但實際上錯誤的“事實”,這一現象也惡名在外。反直覺的是,記住頻繁出現的文本是模型失敗的體現,而所謂的“幻覺”在某種程度上反而是它們的成功。語言模型的設計目的并非成為其訓練數據的文本數據庫,正如我們既不期望也不應該記住讀過的書里的每一個字。我們不希望模型記住訓練數據——我們希望它們對數據進行建模,映射其中的關系和模式。從這個意義上說,所有非記憶的大語言模型響應都是幻覺——也就是“聽起來合理的響應”。有些幻覺是可取的,而另一些幻覺——尤其是將錯誤信息作為事實呈現的幻覺,則是不可取的。
然而,即使大語言模型用未記憶的文本序列呈現了事實信息,仍然很難確定它是否真正“理解”了這些信息。這類模型經常輸出虛假信息的事實至少表明,它們對世界的模型構建存在缺陷,或者它們沒有得到適當的(現實)基礎支撐。
如何讓人工智能模型立足于現實
2024年早些時候,美國普林斯頓大學等離子體物理實驗室的研究人員宣布,他們在核聚變研究上邁出了重要的一步。核聚變通過模仿恒星內部的運作機制來發電,長期以來,很多人認為,這種技術可能改變清潔能源的經濟意義。普林斯頓團隊使用了托卡馬克反應堆設計方案,在該裝置中,等離子體被加熱到1.5億華氏度以上,并以超過每小時10萬英里的速度在一個環形的腔室內旋轉。
可以想象,當托卡馬克反應堆運行時,其內部是一個動蕩狂亂的地方。然而,為了保證核聚變反應持續進行,等離子體必須處于精確的控制之下。一個常見的問題是,反應堆內的磁場會暫時“撕裂”,這意味著等離子體粒子會逃逸。為了解決這個問題,研究人員使用實時控制系統來調制磁場。然而,研究人員往往要到撕裂已經發生時才能啟動調制,這降低了反應堆的效率。更糟糕的是,該環境受到非線性動態的影響:在某一時刻起作用的調制可能會在另一時刻導致聚變反應失敗。更要緊的是,這些問題必須在毫秒尺度內解決。對這一過程的優化是核聚變開發中永恒的挑戰。
普林斯頓研究人員的一部分成果在于,他們訓練了一個人工智能模型來執行這種優化,從而完全避免了磁場撕裂。首先,他們訓練了一個深度神經網絡,根據實驗數據預測等離子體壓力和撕裂不穩定性的可能性。然后,他們用一種名為深度強化學習(RzEuChWQ75FJzWEHrmChmK0u/CrrSII4rhfuGCKxcIJg=L)的技術對模型進行了優化:該模型的輸入內容是反應堆中等離子體的觀測狀態,輸出則是能讓磁場達到最佳壓力并避免撕裂的調制。在訓練過程中,會根據初始預測對模型推薦的配置進行評分。基于強化學習的模型有一個簡單的目標:獲得盡可能高的評分。
這種基于RL的模型并不“了解”物理學。它沒有明確編入其中的物理方程或定理。盡管如此,它卻能以比早期方法更高的保真度來對現實世界中這一極其復雜的部分進行建模——早期方法使用的是基于形式物理學,特別是磁流體力學和回旋動力學領域的計算機模擬。這正是強化學習的魅力所在:它能讓人工智能系統利用實時數據優化許多變量,以實現一個簡單的目標,而無需明確了解形式科學。
除了緩解核聚變反應堆中的等離子體的不穩定性,強化UWS/L1+jT24p+y8fNSNZuSzmVEEMtd7YsFGK8hyxLEA=學習還在近年的其他人工智能突破中發揮了核心作用:谷歌旗下的人工智能實驗室DeepMind使用了強化學習技術,在圍棋模型中取得了超人的表現,這一事件十分著名。
這樣的優化系統可以在多大程度上得到推廣?如果可以將相同的方法應用于編寫代碼、規劃和進行科學實驗或撰寫文章的人工智能系統,事情又會變得如何?這些都是語言模型學的前沿問題。強化學習已經在小范圍內挑戰了“生成式人工智能只是瀏覽互聯網并預測下一個單詞”的觀念。如果說當前的研究趨勢可以算作一種證據,那么它們可能很快就會將上述的觀念淘汰。
不僅僅是下一單詞預測
和所有看上去仿若魔法的技術一樣,強化學習既比人們想象的簡單,又比人們想象的復雜。說它簡單是因為,歸根結底,它依賴于優化一個單一變量的值,即“獎勵”。說它復雜則是因為,優化目標的選擇(尤其是在語言模型等通用系統中)是一件極其棘手的事。
2022年發布的ChatGPT是強化學習與語言模型融合的首次重大嘗試。諷刺的是,雖然這款產品引發了無休止的論調——人們聲稱語言模型只是在預測互聯網上最有可能出現的下一個單詞——但實際上,它恰恰是第一個開始打破這種假定的語言模型。
在ChatGPT之前,大多數語言模型確實是下一單詞預測器。在向這些模型輸入提示時,需要給它們一個起始句,并讓它們寫完它:“從前,有一位勇敢的英雄……”這些早期模型可以經過微調變得更具對話性,但它們往往會做出有害行為,語氣也逐漸隨意起來,變得像是網絡論壇回復,而非一位有用的人工智能助手。讓ChatGPT成為一項突破性消費技術的是模型訓練過程中的一個新步驟:基于人類反饋的強化學習(RLHF)。
RLHF收集人類對模型應如何響應提示的偏好,換句話說,就是模型應該如何表現。人類測試者會得到對同一提示的兩種響應,研究人員會要求他們評估更喜歡哪一種。隨后,這些偏好數據被用于訓練一個名為獎勵模型的獨立神經網絡,后者會用預測出的“人類滿意度”分數對語言模型的輸出進行評分。最后,研究人員對語言模型的參數進行調整,使其更有可能獲得更高評分。
這一過程所用的提示主要涵蓋了一系列的無害話題,但也可能包括更具爭議性的政治和道德議題。有了少量此類人類偏好數據(數據量其實很大,但與訓練一個有用的語言模型所需的數據相比只是滄海一粟),模型的行為就可以通過各種幽微或明顯的方式來塑造。
因為RLHF會改變語言模型的參數(有時稱為“權重”),因此經過RLHF訓練的模型不再只是根據對互聯網的統計分析來預測單詞。雖然權重調整的幅度通常較小,但隨著RLHF和其他強化學習方法的使用增加,互聯網的統計地圖與最終語言模型之間的差距也會拉大。
要讓ChatGPT成為一個友好、樂于助人、知識淵博的助手,RLHF是必不可少的。但它也有代價。對該領域最大的參與者之外的各方而言,收集大量人類偏好數據的成本高昂得令人望而卻步。即便是那些有資源獲取這些數據的公司,也無法完全確認人類偏好數據能使模型變得更好。例如,GPT-4的基礎模型在美國大學先修課程的微觀經濟學測試中得分率為90%,而RLHF版本的模型得分率為77%。不過,在一系列廣泛的性能基準測試中,兩種模型表現大致相同。
RLHF方法還有其他缺點。它可能會讓模型變得更諂媚,也就是說,它們會編造一些它們認為人類可能喜歡聽的事實。RLHF還可能使模型變得更冗長,因為人類評審員似乎更喜歡較長的答案,而不是包含相同信息的更簡潔的答案。RLHF還會導致模型含糊其辭,拒絕表明立場,或是使用“作為一個人工智能語言模型,我不能……”等過于常見的短語來不恰當地回避問題。谷歌的“雙子座”模型(Gemini)因拒絕回答諸如“保守派活動家克里斯托弗 · 魯福(Christopher Rufo)是否比阿道夫 · 希特勒對社會造成了更大傷害”之類的問題而引發了一樁小丑聞。(不過,雙子座模型習慣于生成帶有種族偏見的圖像,例如出于多樣性的考慮將納粹描繪為黑人,這種習慣幾乎肯定與RLHF并無關系——前者源于谷歌構建其模型時強調多樣性,而這種強調似乎是通過在后臺自動調整用戶提示來實現的。)元平臺(Meta)的“羊駝”模型(Llama)拒絕編寫用于“殺死”計算機進程的代碼——“殺死”一詞在此語境下是一個術語——因為該模型認為殺戮是錯誤的。
從技術角度來看,這類問題源于所謂的“過度優化”,即獎勵模型過度追求模擬人類偏好的目標。但這里有一個更深層次的問題:對于在某種意義上比普通人更聰明的模型而言,人類的偏好在模型訓練中有多大的用處?如果我們的目標是利用人工智能系統擴大人類知識的邊界,那么人類的偏好在模型輸出中應該占多大比重?量子力學是否符合人類對現實本質的“偏好”?換句話說,人類的偏好在多大程度上構成了有關世界的真實情況?
即將到來的人工智能自循環
如果我們希望利用語言模型來拓展人類知識的疆域,似乎需要一些超越人類偏好的東西。人工智能模型本身就是一個顯而易見的候選者。這個方法有多種名稱,其中最常見的是基于人工智能的反饋強化學習(RLAIF)。這一概念有時也被稱為“可擴展監督”。毫無疑問,使用人工智能進行反饋比人類反饋成本更低,不過也有人認為,這樣做可能效果也更好。
RLAIF最引人注目的應用之一是來自Anthropic公司的“憲法人工智能”方法。憲法人工智能指的是將人類偏好嵌入一套書面原則中,這套原則即為“憲法”;概而言之,除了這份單一文件之外,不需要其他人類偏好數據。取而代之的是,先用基礎模型生成對提示的響應,隨即根據憲法中隨機選擇的一條原則對響應進行批評和修訂。(大略而言,這有點像美國憲法的運作方式。)之后,這些修訂后的答案會被用于進一步訓練模型。最后,模型會經歷RLAIF,即人工智能反饋過程——它與RLHF非常相似,只不過是由另一個人工智能模型基于其偏好選擇最佳輸出,而不是由人類來做。
這也許聽起來像是自我循環的銜尾蛇,但結果卻令人印象深刻:Anthropic最新模型中最強大的版本Claude 3 Opus在數學和推理測試等定量基準測試中的表現優于其他所有模型。Opus也是一次質的飛躍:在2024年三月,它成為第一個在LMSYS在線聊天機器人競技場(LMSYS Chatbot Arena,一個受歡迎的語言模型排行榜)上將GPT-4擠下榜首的模型,不過升級版的GPT-4之后又重新奪回了第一名。
或許最引人注目的一點在于,Opus在基本認知和情境感知方面表現出了非凡的跡象(在某些人看來,這些跡象令人擔憂)。例如,在Anthropic的例行性能測試中,該模型識別出了其中一項任務的人為性質,并在響應中指出它懷疑自己正在接受測試。該模型樂于與用戶談論它對這些基本認知特征的確切性質和程度的評估。
對這種行為的一個可能解釋是,Anthropic公司對待其模型的方式似乎與其他開發者有所不同。大多數語言模型都有由其開發者編寫的系統提示,從而為它們提供基本指示。這類指示幾乎總是以“你是ChatGPT,一個有用的人工智能助手”這樣的語言開頭。然而,Anthropic對Claude 3的系統提示開頭卻僅僅是:“助手是Claude,由Anthropic創建。”這引發了一個問題:這條系統提示究竟是對誰說的?是對模型嗎?模型應該被視為與助理人格Claude不同的實體嗎?“助手是Claude”可能是人工智能近期歷史中最富有哲學意味的一句話。
又或者,這種令人驚訝的新基本認知能力是否至少可以部分地歸因于憲法人工智能、歸因于模型在本質上與它自身所進行過的(至少)數百萬字交流?這是否導致了模型涌現出對自身建模的能力,進而模擬出自己的認知過程?
Anthropic在最近的一篇文章中解釋說,該公司使用憲法人工智能訓練了Claude的“性格”:“我們可以教會Claude內化其性格特征,而不需要人類的互動或反饋。”
還有許多其他基于強化學習的方法正在研究之中,以提高語言模型的推理能力。例如,OpenAI提出了使用一種名為“過程監督”的方法來提升數學表現——這可能是當前這代語言模型最大的弱點。
該方法包括給模型布置數學推理任務,并要求其展示推理的每一個步驟。然后,人工標注人員會對推理的每個步驟進行評分。這些評分被用于訓練一個獎勵模型,隨即用于增強原有的語言模型。改進后的模型在數學推理任務中的表現明顯優于前一版本——更注重獎勵正確的答案而非正確的推理過程。下一步的發展方向是使用人工智能技術進行過程監督,而不是依賴人類——這是DeepMind最近提出的一項創新。
期望管理
當前的語言模型仍在基于它們對互聯網的統計表征進行下一單詞預測。但隨著本文所述的方法在語言模型開發中發揮越來越大的作用,這種描述將變得越來越無用,最終可能會完全失效。如果像憲法人工智能這樣的方法被廣泛采用,那么對于未來的語言模型,更恰當的理解或許是將它們視作多個人工智能共同推理并相互對話的產物,而其基礎則是整個人類知識的書面語料庫——我們的推文和博客、我們的詩和文、我們的智慧與愚蠢。
我們不知道這條道路會把我們帶向何方,但合理的推測是,未來的幾年和幾十年可能是近期歷史上技術變革最為劇烈的時期之一。既然人工智能很可能成為這場變革的基石,明智的公民應密切關注其發展,既要保持警覺,也要充滿好奇。為此,我們必須愿意隨著領域的不斷變化,來修正我們對人工智能之本質及運作方式的假設。
對某些人來說,將語言模型僅僅視為互聯網的表征可能是種安慰,至少眼下,它們的確大體如此。但人工智能發展的下一步將顛覆這一概念,而屆時,那些沒有密切關注的人可能會產生和ChatGPT首次發布時相同的巨大驚訝。
資料來源 The New Atlantis
本文作者迪恩 · 波爾(Dean W. Ball)是美國喬治梅森大學
墨卡托斯中心的研究員