我們即將進入人工智能(AI)新時代,這個時代有望達到前所未有的能力水平。新一代智能體將主要通過從經驗中學習來獲得超越人類的能力。本文探討了定義這一新時代的關鍵特征。
人類數據時代
近年來,AI依靠海量的人類生成數據進行訓練,并根據專業的人類示例和偏好進行微調,取得了顯著進步。大語言模型(LLM)正是這一模式的典型例證。如今,單個LLM就能完成多種任務:從創作詩歌、解答物理題目,再到診斷病癥和概括法律文件,不一而足。
然而,盡管模仿人類足以在相當高的水平上復制人類的許多能力,但是單憑這種方式,目前還未能一很可能也無法一在許多重要課題和任務上實現超人類智能。在諸如數學、編程和科學之類的關鍵領域中,從人類數據中汲取的知識正在快速逼近極限。大部分高質量數據源那些實際上能夠提升智能體表現的數據一要么已經被用掉,要么很快就會被消耗掉。單純由依賴人類數據的監督學習所驅動的進展,其進步速度明顯放緩,這標志著我們需要一種全新的方式。此外,寶貴的新洞見(譬如新的定理、技術或科學突破)往往存在于人類現有認知邊界之外,機器無法通過現有的人類數據來捕獲。
境交互所產生的數據)中學習就能實現這一目標。靜態合成數據的方法很快就會被甩在身后。AI正處在一個新時期的開端,日后,“經驗”會變成進步的主導媒介,其規模將碾壓如今系統中使用的人類數據。
這種轉變可能已經開始,對于以人為中心的AI典范LLM來說也是如此。例如,在數學能力方面,AlphaProof在2024年成為首個在國際數學奧林匹克競賽中達到銀牌得主相當水平的AI程序,讓那些以人為中心的傳統方法黯然失色。AlphaProof最初接觸的是由人類數學家歷經多年創造出的大約十萬條形式化證明,然后,它與形式化證明系統持續交互,通過強化學習(RL)算法生成了上億條新的證明數據。這種對于交互式經驗的專注使得AlphaProof能夠探索既有形式化證明范圍之外的數學可能性,從而解決新穎又復雜的難題。非正式數學領域也通過用自主生成的數據來取代專家生成的數據取得成功。譬如,深度求索(DeepSeek)的近期研究就強調了RL的能力和魅力:我們無需明確地教模型如何解決問題,只需給它提供適當激勵,它便能自主開發出先進的策略。
經驗時代
為實現更顯著的進步,我們需要開發新的數據源。這類數據會以一種隨著智能體變得更強而不斷優化的方式生成一允許智能體不斷地從自身經驗(即智能體通過與環
我們的觀點是,一旦經驗學習的潛能被充分挖掘出來,智能體令人難以置信的新能力就會出現。這個經驗時代很可能由智能體和其所處的環境塑造。智能體不僅能從海量的經驗數據中學習,還會在多個維度上突破以人為中心的AI系統的局限:它們將融入連續的經驗流中,而非僅僅參與簡短的交互片段;其行動與觀察將深深扎根于環境本身,而非僅通過人類對話進行交互;其獎勵機制將源于對環境的實際體驗,而非人類的預判;它們將基于經驗進行推理,而非僅以人類的方式進行思考。我們相信,現今的技術輔以有針對性的算法,已為實現這些突破提供了強有力的基礎。
持續不斷的經驗流
經驗型智能體能夠在其整個生命周期中持續學習。在人類數據時代,基于語言的AI主要聚焦于短期的交互事件。例如,用戶提出一個問題,智能體(可能在經過若干思考步驟或使用工具的行動后)做出應答。一般來說,在這個過程中,只有極少信息或者根本就沒有信息會被遞送到下一次對話中,這就排除了任何隨著時間推移出現的適應性調整。更重要的是,智能體只瞄準當前事件的結果,譬如直接回答用戶的一個提問。相比之下,人類和其他動物存在于持續多年的行動與觀察流中。信息沿流傳遞,他們的行為也會根據過往經驗進行自我調整從而實現優化。此外,目標可以根據那些延伸至經驗流遙遠未來的行動和觀察來進行設定。例如,人類可能會選擇采取行動來實現像改善健康狀況、學習一門語言或獲得科學突破這樣的長期目標。
強大的智能體應該像人類一樣,擁有能在較長的時間尺度上不斷發展的經驗流。這會使得智能體采取行動以實現未來目標,并隨著時間推移持續適應新的行為模式。譬如,一個健康管理智能體(與用戶的可穿戴設備相連)可經驗時代的智能體會在現實世界中自主行動
以持續幾個月監測用戶的睡眠模式、身體活動狀況和飲食習慣,進而為用戶提供個性化的建議,并根據長期趨勢和用戶的特定自標不斷調整;一個個性化的教育助手可以持續數月乃至數年追蹤用戶學習一門新語言的進度,確定其知識掌握情況,并基于用戶的學習風格,動態調整教學策略。這樣的智能體不僅能在較長的時間段內積累經驗、分析現實世界的觀測數據,開發并運行模擬程序,還能提出實際的實驗方案或干預措施。
在每個案例中,智能體都會采取一系列步驟,以便將與特定目標有關的長期成功最大化。單個步驟可能不會帶來任何立竿見影的好處,甚至在短期內產生不利影響,但總體來說,可能有助于實現長期的成功。這與當前的AI系統形成了鮮明對比一當前的AI系統只能對請求提供即時響應,無法衡量或優化其行動對環境造成的未來影響。
扎根于環境的行動與觀察
人類數據時代的LLM主要聚焦于人類特有的行動與觀察,這與自然智能有著天壤之別。在自然智能中,動物通過運動控制和感官與環境交互。動物(尤其是人類)之間的交流行為與其他感覺運動控制使用的是同一個“接口”,而非通過特定的渠道實現。
長期以來,人們已經認識到,LLM也可以在數字世界中主動觸發行動,譬如通過調用應用程序接口(API)實現。最初,這些能力主要來自人類使用工具的示例,而非來自智能體的經驗。最近,新一代原型智能體已經開始以一種更加通用的方式一使用人類操作計算機所用的相同接口一與計算機交互。這些變化預示著智能體正走向更加自主的交互,在這一背景下,智能體能夠獨立行動。這樣的智能體將能積極探索世界,適應不斷變化的環境,并發現人類可能永遠想不到的策略。
這些更豐富的交互將為智能體自主理解和控制數字世界提供手段。智能體可以采取“人類友好型”的行動與觀察,自然地促進與用戶的溝通和協作;也可以采取“機器友好型”的行動,以執行代碼、調用API,為實現自身目標而自主行動。在經驗時代,智能體會通過數字界面與現實世界交互。比如,科學智能體可以監測環境傳感器,遠程操作望遠鏡,或者控制實驗室中的機械臂自主進行實驗。
建構世界模型是讓智能體直接將思維扎根于外部現實的一種可能方法。
靈活調整的獎勵
假如經驗型智能體不僅能從人類偏好中學習,還能從外部事件和信號中學習,會發生什么呢?
通常,以人為中心的LLM會基于人類的預判來優化獎勵機制。這里說的預判是指專家觀察智能體的行為并判斷該行為好不好,或者在多個備選方案中挑出最出色的智能體行動。這些獎勵或偏好是人類在不考慮后果的情況下決定的。這個事實意味著,它們并非直接扎根于現實。而以這種方式依賴人類的預判通常會給智能體的表現設定一個難以突破的上限,使得智能體無法發現那些未得到人類評估者重視的更好策略。為了發現現有人類知識疆域之外的新想法,有必要使用基于實際情況的獎勵機制,即根據環境(包括人類)本身的信號來決定。這類獎勵衡量的是智能體在環境中的行為產生的影響,往往能提供比人類專家更優質的協助。
原則上,人們能夠創造出各種各樣的獨特智能體,每個智能體都將一個基于實際情況的信號作為獎勵進行優化。有觀點認為,即便是這樣一個單一的獎勵信號,如果能被高效優化,也可能催生具備廣泛能力的智能。這是因為,在復雜環境中實現單個目標通常需要掌握多種技能。
然而,從表面上看,對于單個獎勵信號的追求似乎無法滿足通用AI一能夠可靠地朝著用戶期望的任意行為方向發展一的要求。為此,我們建議基于現實信號,通過用戶引導的方式靈活調整獎勵機制。這也可以理解為一個雙層優化過程:上層優化依賴人類反饋;下層優化則依賴從環境中選擇或組合的各種信號。例如,用戶可以設定“提升我的身體素質”之類的寬泛目標,此時獎勵函數就可能返回基于用戶心率、睡眠時長和行走步數的函數值。與此同時,智能體在學習的過程中可以根據用戶給予的一些反饋,比如滿意度,動態調整獎勵函數。通過這種方式,少量的人類數據可以促進大量的自主學習。
突破人類思維的規劃和推理
從概念上來講,LLM可充當通用計算機。在人類數據時代,LLM的推理旨在模仿人類的思維過程。其推理方法還可能被進一步微調,以產生與人類專家認定的正確答案相匹配的思維軌跡。
然而,通用計算機的原理僅涉及智能體的內部計算,并未考慮計算機與外部真實世界之間的關聯。在此背景下,一個經過特定訓練以模仿人類思維甚至匹配人類專家答案的智能體,可能會受到訓練數據中錯誤思維模式(如錯誤假設、固有偏見)的影響。要突破這一局限,智能體必須積極與世界互動,收集觀測數據,并利用這些現實數據迭代、完善其理解。
建構世界模型是讓智能體直接扎根于外部現實的一種可能方法。該模型用于預測智能體的行動對世界產生的影響。譬如說,一個健康管理智能體可能會考慮推薦一家本地的健身房或一個健康主題的播客。智能體的世界模型可以預測采取這一行動后用戶的心率或睡眠模式會如何變化,同時預測未來與用戶之間的對話內容。這就使得智能體能夠依據自身行動及其對世界的因果影響進行直接規劃。隨著智能體在經驗流中繼續與世界交互,智能體的動態模型會不斷更新,以糾正預測中的錯誤。有了世界模型,智能體就可以應用可擴展的規劃方法來提高其預測性能。

2014年以來主要的AI范式演進示意圖。縱軸表示RL在整個AI領域所占關注和算力投入的大致比例
規劃和推理方法不是相互排斥的。智能體在規劃的過程中可以運用內部LLM計算來選擇每一步的行動,或者模擬并評估這些行動帶來的后果。
為何現在是經驗時代的開端?
從經驗中學習并非新鮮事。RL系統此前已經掌握了大量復雜任務,這些任務呈現于有著明確獎勵信號的模擬器環境中(大致對應圖中的“模擬時代”)。譬如,在雙陸棋、圍棋、國際象棋之類的棋盤游戲中,在《星際爭霸2》《跑車浪漫旅》之類的電子游戲中,以及在數據中心冷卻這類資源管理任務中,RL模型通過自我對弈的手段,獲得能匹敵或勝過人類的表現。此外,像AlphaZero這樣強大的RL智能體在神經網絡規模、交互經驗數量和思考時長方面展現出了令人印象深刻且潛力無限的可擴展性。然而,基于這種范式的智能體沒有跨越模擬環境(存在獎勵單一且被精確定義的封閉性問題)與現實場景(存在獎勵可能有多個且定義不明確的開放性問題)之間的鴻溝。
人類數據時代提供了一個有吸引力的解決方案。海量的人類數據語料庫中包含了適用于各種不同任務的自然語言示例。相比于模擬時代較為有限的成功,基于這種數據進行訓練的智能體實現了廣泛的能力。因此,經驗式RL方法在很大程度上被棄用,人們轉而采用更通用的智能體,這就導致向以人為中心的AI的廣泛轉型。
然而,在這一轉型中,智能體喪失了自主發現知識的能力。經驗時代會讓這種能力與人類數據時代中所達到的任務通用性水平相融合。當智能體能夠在現實世界的經驗流
中自主行動和觀察,并且獎勵可以靈活關聯到基于現實世界的大量信號中的任意一個時,這將成為可能。能夠與復雜的現實世界交互的自主智能體的出現,以及能夠在豐富的推理中解決開放性問題的強大RL方法的出現,都預示著經驗時代即將到來。
機遇與挑戰
經驗時代的到來所充諾的,是一個與我們以前所見截然不同的未來。這種新范式提供了巨大的潛力,但也帶來一些風險與挑戰。
積極的一面是,經驗式學習會解鎖前所未有的能力。在日常生活中,個性化助手會利用連續不斷的經驗流,在數月或數年的時間里,針對個人的健康需求、教育需求或職業需求調整服務,以實現長期目標。或許最具變革性的影響是科學發現的加速。在材料科學、醫學或硬件設計等領域,AI智能體會自主地設計并進行實驗。通過不斷地從自身的實驗結果中學習,這些智能體能夠快速地探索新的知識疆域,以前所未有的速度推動新材料、藥物和技術的研發。
然而,經驗時代也帶來了意義重大的新挑戰。雖然人類能力的“自動化”有望提高生產力,但這些提升也可能導致工作崗位被取代。智能體甚至有可能習得以前被認為是人類獨有的能力,譬如創新、深刻理解現實世界因果關系等高級能力。
此外,盡管任何AI都存在被濫用的可能性,但那些能夠在較長時間內自主與外界交互以實現長期目標的智能體可能會帶來更高的風險。因為默認情況下,這會減少人類干預和調節智能體行為的機會,需要人類對AI賦予高度信任并承擔重大責任。脫離人類數據和人類思維模式也可能使得未來的AI系統更加難以解讀。
然而,在承認經驗式學習會增加某些安全風險,并且為確保安全過渡至經驗時代確實需要開展進一步研究的同時,我們也應該認識到,它可能會帶來一些重要的安全益處。
首先,經驗型智能體能夠感知其所處的環境,隨著時間的推移,它會根據環境的變化調整行為。而任何一個預編程的系統,包括固定的AI系統在內,都無法感知它所處的環境背景,也無法適應不斷變化的外部世界,因此可能會在環境變化(如硬件出現故障、社會發生劇變或科學技術快速發展)時繼續執行過時策略。相比之下,經驗型智能體能夠進行觀察,學會設法規避出故障的硬件,針對快速的社會變化進行調整,或者在接納新的科學技術的基礎上進行發展。也許更為重要的是,該智能體能夠認識到自身的行為何時會引發人類的擔憂、不滿或痛苦,從而進行相應的調整,避免出現負面結果。
其次,智能體的獎勵函數本身可以通過經驗進行調整,譬如采用雙層優化的方法。這意味著,不匹配的獎勵函數通常可以通過不斷試錯逐步得到修正。其過程類似于人類為彼此設立目標的方式,如果人們觀察到有人在利用系統漏洞、忽視長期利益或者造成不良后果,就會對目標進行調整。不過,也同人類設定目標一樣,即使有這樣的自我校正機制,獎勵函數依然無法保證完美匹配。
最后,依賴實在經驗的進展本質上會受到在現實世界中執行行動、觀察結果所需時間的限制。譬如,開發一種新藥,即便有AI的協助,依然需要在現實世界中進行臨床試驗,而這些試驗無法在一夜之間就完成。這或許充當了一種天然的“剎車”,可以減緩AI潛在的自我進化速度,為人類提供識別風險、評估后果和進行必要干預的時間窗口。
結論
經驗時代是AI演化進程中一個關鍵時刻。智能體建立在現今強大的基礎之上,超越了來自人類數據的局限,會越來越多地從自身與世界的交互中學習。智能體會通過豐富的觀察和行動自主地與環境交互,在經驗流中持續地調整適應。其目標可以根據任何現實信號的組合來設定。此外,智能體會運用強大的非人類推理方式,根據其行動給環境帶來的影響來制定計劃。最終,無論是在規模上還是質量上,經驗數據都將遠遠超出人類生成的數據。這種范式轉變—伴隨著RL算法的進步—會在許多領域解鎖超越人類能力的新技能。 2
資料來源googleapis.com
本文作者大衛·席爾瓦(DavidSilver)為谷歌DeepMind首席科學家、英國倫敦大學學院教授;理查德·薩頓(RichardS.Sutton)為2024年圖靈獎得主、美國阿爾伯塔大學計算機科學系教授,被稱為現代強化學習之父