


















摘要: 世界模型是一種旨在模擬和理解環境的神經網絡系統,其核心思想是通過感知和經驗構建內在模型,并以此進行推理、規劃和決策。研究了世界模型的發展歷程、核心概念和技術實現,探討了其在人工智能領域的重要性和潛在應用。在綜合研究的基礎上介紹了世界模型的基本概念、主要算法以及典型模型,如DreamerV3、STORM、MWM等算法和Sora、Gemini等具有代表性的模型;討論了世界模型在不同領域中的實際應用,如文本和視頻多模態預測、機器人控制、自動駕駛等。最后,展望了世界模型的未來發展方向。
關鍵詞: 世界模型; 算法; 應用; 人工智能
中圖分類號: TP18
文獻標志碼: A
文章編號: 1671-6841(2024)05-0001-12
DOI: 10.13705/j.issn.1671-6841.2024078
Overview of World Models
WANG Jun1,2, CUI Yunye1, ZHANG Yuhang1
(1.Institute of Big Data Science, Zhengzhou University of Aeronautics, Zhengzhou 450015, China;
2.Henan Daily, Zhengzhou 450014, China)
Abstract: The world model is a neural network system designed to simulate and understand the environment. Its core idea is to construct an internal model through perception and experience, and use it for reasoning, planning, and decision-making. The development history, core concepts, and technical implementations of world models were explored.And their importance and potential applications in the field of artificial intelligence were discussed. Based on comprehensive research, the basic concepts, main algorithms, and typical models of world models were introduced, such as DreamerV3, STORM, MWM, Sora, Gemini. The practical applications of world models in various domains were discussed, such as multimodal prediction in text and video, robot control, and autonomous driving. Finally, the future development directions of world models were explored.
Key words: world model; algorithm; application; artificial intelligence
0 引言
在人工智能領域的迅速發展中,模擬和理解世界的能力成為研究和開發的重要課題之一。在這個背景下,世界模型的概念應運而生,它旨在構建能夠模擬和理解環境的大型神經網絡系統。世界模型不僅是對環境的建模,更是對人類認知方式的模仿,其試圖通過感知和經驗構建內在模型,并以此進行推理、規劃和決策。世界模型的核心思想是利用神經網絡來構建環境的模型,使其能夠模擬現實世界的各種特征,并為人工智能系統提供一個更豐富、更準確的認知基礎。這種模型不僅可以處理多種類型的數據,如圖像、文本等,還可以應用于各種任務,如規劃、決策和控制等。盡管世界模型的概念還處于探索階段,但已經引起了廣泛的關注和研究。研究人員希望通過不斷改進和擴展世界模型,使其能夠更好地適應復雜多變的現實世界,并為人工智能技術的發展帶來新的突破和機遇。本文將對世界模型的發展歷程、核心思想、技術實現以及實際應用進行探討,旨在為讀者提供一個全面了解世界模型的視角,并展望了其在人工智能領域的潛在應用和影響。
1 研究背景
世界模型的概念最早可以追溯到哲學家伊曼努爾·康德(Immanuel Kant)在18世紀提出的認識論理論。
1971年,系統動力學之父Forrester[1]提出了心智模型:人類會利用其有限的感官去感知周圍的事物,以此來建立內心世界模型,人類做出的決策和行動都是基于這種內部模型。人的腦海中攜帶的周圍世界的形象只是一個模型。人們只選擇了概念,以及它們之間的關系,并用它們來表示真實的系統。也就是說,為了處理日常生活中流動的大量信息,人類大腦學習了這些信息的空間和時間方面的抽象表示,然后建立世界模型[2]。在任何時刻,人類的感知都受大腦內部世界模型對未來預測結果的支配[3]。
Keller等[4]認為,大腦內部的模型不僅僅是在預測未來,也同時在預測未來的感官數據,因為在人類運動的過程中,會下意識地對即將到來的危險做出反應,而不是通過預測未來得到結果后制訂相應的計劃[5]。
世界模型的目的是設計一個可以更新狀態的神經網絡模塊,用來記憶和建模環境,實現輸入當前觀測(圖像、狀態等)和即將采取的動作,根據模型對世界的記憶和理解預測下一個可能的觀測和動作,并通過采取動作將下一時刻的實際觀測和預測的觀測之間的差異作為損失(loss)來自監督訓練模型[6]。在世界模型的訓練中,loss是一個用于衡量模型預測與實際觀測之間差異的指標,常見的loss包括均方誤差、平均絕對誤差等。
2 基礎理論
2.1 基于遞歸神經網絡的世界模型
Schmidhuber[7]提出了基于遞歸神經網絡(recursive neural network,RNN)的世界模型,該模型使用從實際游戲環境中收集的觀察結果進行訓練。在訓練世界模型后,可以使用它們來模擬完整的環境,并以此來訓練智能體。大型RNN是具有高度表現力的模型,可以學習數據的豐富空間和時間表示。然而,許多無模型強化學習方法通常只使用參數很少的小型神經網絡。強化學習算法經常受到信用分配問題的影響,使得其很難學習大型模型的數百萬個權重。因此,在實踐中經常使用較小的網絡,因為它們在訓練期間迭代到良好策略的速度更快。
Schmidhuber[7]認為在理想情況下能夠有效地訓練基于RNN的大型世界模型。另外,反向傳播算法[8-10]能夠有效地訓練大型神經網絡??偟膩碚f,該模型是通過訓練一個大型神經網絡來處理強化學習任務,方法是將代理劃分為一個大的世界模型和一個小的控制器模型。首先訓練一個大型神經網絡,以無監督的方式學習智能體世界的模型,然后訓練較小的控制器模型,以學習使用這個世界模型執行任務。一個小的控制器讓訓練算法專注于小搜索空間上的信用分配問題,同時不會通過更大的世界模型犧牲容量和表現力。
圖1是由視覺、內存和控制器組成的智能體,是一個類似人類認知系統的簡單模型。在這個模型中,首先,智能體有一個視覺感官組件,它把所看到的壓縮成一個小的代表性代碼。其次,智能體還具有一個內存組件,可根據歷史信息對未來代碼進行預測。最后,智能體有一個決策組件,它僅根據其視覺和記憶組件創建的表示來決定要采取的行動。圖1中,視覺模型(V)將高維觀測編碼成低維潛在向量;記憶循環神經網絡(M)整合歷史編碼,創建可預測未來狀態的表示形式;一個小的控制器(C)利用來自V和M的表示來選擇良好的動作。代理執行這些動作,這些動作會反過來影響環境。a表示代理采取的行動,例如移動、旋轉等。h表示隱藏狀態,它包含了過去的信息,對當前時間步的輸出有影響。z表示模型從環境中接收到的觀測或感知的信息,例如傳感器數據、圖像像素等。
2.2 JEPA架構
由于RNN無法充分挖掘輸入之間的關系導致訓練效果較差,在大規模序列學習任務中容易出現性能瓶頸,難以應對真實應用的決策挑戰[11]。早期的世界模型已有壓縮神經表征的訓練思想,但主要存在以下局限:一是模擬環境下訓練缺乏真實世界適應性;二是模型存儲編碼能力有限導致災難性遺忘;三是無法突破認知壁壘[12-13]。因此,文獻[14]提出了全新的世界模型概念——聯合嵌入預測架構(joint embedding predictive architecture,JEPA),并基于該模型設想了自主人工智能架構,其功能模塊如表1所示。
JEPA是一種神經網絡架構,旨在實現聯合嵌入和預測任務。這個架構結合了嵌入學習和預測模型,以便在一個統一的框架下進行多種任務,如推薦系統、搜索引擎、自然語言處理等。
JEPA架構的核心思想是將輸入數據和目標數據映射到一個共同的嵌入空間,從而使得輸入數據和目標數據能夠在這個嵌入空間中進行有效表示和比較。通過這種方式,JEPA能夠同時處理輸入數據和目標數據,從而實現聯合預測任務。
該架構的六大模塊分別為:配置器、感知器、世界模型、成本控制器、行動規劃器和短期記憶。這六大模塊之間相互協調和適應,與人腦的四大腦區之間的分工具有一定的相似性。自主人工智能模塊與人腦腦區的聯系如圖2所示。人腦大體可分為大腦、腦干、小腦和邊緣系統四部分,其中與人的高級認知相關的區域均位于大腦的額葉、枕葉、頂葉和顳葉區。
首先,額葉作為大腦中發育最高級的部分,是人類大部分意識產生的區域,可直接訪問感覺信息并控制專用于計劃、判斷和運動執行的區域[15],這與自主人工智能架構的世界模型模塊相對應。其次,枕葉是大腦的視覺處理中心,是視覺空間處理、顏色辨別和運動感知區域[16],對應感知器。再次,顳葉主要負責記憶存儲、語言理解和情緒聯系方面的處理[17],對應成本控制器和短期記憶。最后,頂葉主要負責整合內外部感覺反饋,并將其整合為連貫的表征,以完成協調工作[18],相當于配置器的作用。此外,行動規劃器計算智能體動作序列的先后順序并選擇最優動作,與小腦、腦干等對軀體的控制相關。
3 世界模型的主要算法
3.1 DreamerV3
DreamerV3是一種通用且可擴展的算法,它在固定超參數情況下可應用于各種領域,且表現優于領域特定的算法[19-20]。DreamerV3從具有豐富感知和圖像訓練的經驗中學習世界模型。該算法由3個神經網絡組成:世界模型、評論者(critic)和行動者(actor)。世界模型預測了潛在動作的未來結果,評論者判斷每個狀態的價值,而行動者學會了達到有價值的狀態。這3個網絡從經驗回放中共同訓練而沒有梯度共享,訓練過程如圖3所示。世界模型接收感官輸入,通過遞歸狀態ht的序列模型生成表示,并使用zt表示來預測未來的動作。然后,模型通過重新構造輸入來生成學習信號,以優化表示的性能。
世界模型通過自編碼來學習感官輸入的緊湊表示,并通過預測未來和潛在動作的獎勵來實現計劃。如圖3所示,將世界模型用一個循環狀態空間模型——遞歸狀態空間模型 (recurrent state-space model,RSSM) [21]來實現。首先,編碼器將感官輸入 xt映射到隨機表示 zt。然后,具有循環狀態 ht 的序列模型基于給定的歷史動作 at-1預測該表示序列,ht和zt的拼接形成了模型狀態,可以從中預測獎賞 rt和episode聯系標志 ct∈{0,1},并重建輸入以確保信息表示[22],
RSSMSequence model: ht=f(ht-1,zt-1,at-1),
Encoder: zt~q(ztht,xt),
Dynamics predictor: z^t~p(z^tht),
Reward predictor: r^t~p(r^tht,zt),
Continuation predictor: c^t~p(c^tht,zt),
Decoder: x^t~p(x^tht,zt)。(1)
DreamerV3在多個領域表現優異,包括連續和離散動作、視覺和低維輸入、2D和3D世界等,顯示出其通用性和適應性。通過調整模型參數,它可以輕松應對不同任務的需求,并具有良好的擴展性,可提高數據效率和性能。DreamerV3是首個在沒有人類數據訓練的情況下,在Minecraft(一款沙盒游戲,提供了大量的數據和場景,可用于算法的訓練和測試)中收集鉆石的算法,這標志著人工智能領域在解決長期挑戰方面取得了重要進展。其成功應用顯示了DreamerV3在處理復雜環境和決策問題時的有效性,算法設計還允許在訓練過程中充分利用經驗數據,提高了學習效率和穩定性。
3.2 TransDreamer
TransDreamer繼承自Dreamer框架、基于Transformer的強化學習代理,其重點是引入Transformer的優點[23]。TransDreamer的目標是實現以下需求。
1) 直接訪問過去的狀態。
2) 在訓練期間并行更新每個時間步的狀態。
3) 能夠在測試時順序推出軌跡想象。
4) 成為隨機潛變量模型。
據調查,以往的世界模型還沒有這樣的模式,Dreamer中使用的世界模型的主干是RSSM,RSSM不滿足上述需求1)和2)。因此,引入一種基于Transformer的狀態空間模型(Transformer state-space model, TSSM)是必要的,圖4展示了其架構。
在RSSM中,順序相關計算的主要來源是基于RNN的狀態更新,這說明RSSM的所有組件模型都是順序計算的,因為它們都將隱藏狀態作為輸入。
為了消除這種順序計算,能夠直接訪問并和復雜的歷史狀態相互作用,采用Transformer作為RNN的替代品,允許Transformer直接訪問隨機狀態和動作的序列[23],可以使得預測更準確。
3.3 STORM
基于隨機Transformer的世界模型(stochastic Transformer-based world model, STORM)是一種高效的世界模型架構。STORM采用分類變xzbmoe6awDOV+2dfUlo0j2rqLseqXUajk6/PwSsugxE=分自編碼器(variational auto-encoder,VAE)作為圖像編碼器,增強了代理的魯棒性,減少了累積的自回歸預測誤差。STORM采用類似GPT的Transformer[24]作為序列模型,提高建模和生成質量,同時加快訓練過程。
STORM基于模型的強化學習算法的既定框架,重點在于通過想象力增強代理的策略[25-28],反復執行以下步驟,直至達到規定的真實環境交互次數。
1) 通過執行當前策略來收集真實的環境數據,并將它們附加到重放緩沖區。
2) 使用從重放緩沖器采樣的軌跡來更新世界模型。
3) 使用由世界模型生成的想象經驗來改進策略,其中從重放緩沖器采樣想象過程的起點。
如式(2)所示,利用VAE[29]將ot轉換為潛在隨機分類分布Zt。將Zt設置為包括32個類別的隨機分布,每個類別有32個類。編碼器(q)和解碼器(p)結構被實現為卷積神經網絡[30]。隨后,從Zt中采樣潛在變量,以表示原始觀測值o。由于從分布中采樣缺乏向后傳播的梯度,應用直通梯度技巧[31]來保留它們,
Image encoder: zt~q(ztot)=Zt,
Image decoder: o^t=p(zt)。(2)
STORM的結構和想象過程如圖5所示。
在進入序列模型之前,利用多層感知器和拼接操作,將潛在樣本 zt 和動作at 合并成一個單獨的標記 et,這個操作表示為 m,它為序列模型準備輸入。序列模型f將et 的序列作為輸入,并產生隱藏狀態ht。
STORM采用類似GPT的 Transformer 結構作為序列模型,其中的自注意力塊使用后續掩碼進行屏蔽,以允許et關注到序列e1,e2,…,et。通過利用多層感知器gD、gR和gC,依賴ht來預測當前的獎勵 r^t、持續標志 c^t 和下一個分布Z^t+1。這部分世界模型的公式為
Action mixer:et=m(zt,at),
Sequence model:h1:T=f(e1:T),
Dynamics predictor:Z^t+1=gD(z^t+1ht),
Reward predictor:r^t=gR(ht),
Continuation predictor:c^t=gC(ht)。(3)
損失函數世界模型以自我監督的方式進行訓練,并進行端到端優化。固定超參數β1=0.5和β2=0.1,B表示批次大小,T表示批次長度,總損失函數可表示為
()=1BT∑Bn=1∑Tt=1[rect()+rewt()+cont()+
β1dynt()+β2rept()],(4)
其中:rect()表示原始圖像的重構損失;rewt()表示獎勵的預測損失;cont()表示持續標志的預測損失。具體公式為
rect()=‖o^t-ot‖2,
rewt()=sym(r^t,rt),
cont()=ctlogc^t+(1-ct)log1-c^t,(5)
其中:sym表示symlog兩熱損耗。該損失函數將回歸問題轉換為分類問題,確保在不同環境中保持一致的損失縮放。
式(4)中,損失dynt()和rept()表示為Kullback-Leibler(KL)發散,但它們在梯度反向傳播和權重分配上有所不同。動態損失dynt()引導序列模型預測下一個分布,而表示損失rept()允許編碼器的輸出受到序列模型預測的微弱影響,這確保了分布式動態學習不會過于具有挑戰性。具體公式為
dynt()=max(1,KL[sg(q(zt+1ot+1))‖gD(z^t+1ht)]),
rept()=max(1,KL[q(zt+1ot+1)‖sg(gD(z^t+1ht))]),(6)
其中:sg()表示停止梯度的運算。
3.4 TWM
基于Transformer的世界模型(Transformer-based world model,TWM),其概念是在想象中學習,不是直接從所收集的經驗中學習行為,而是以(自)監督的方式學習環境動態的生成模型[32]。這種世界模型可以通過迭代預測下一個狀態和獎勵來創建新的軌跡,允許用于強化學習算法的潛在不確定的訓練數據,而無須與真實的環境進一步交互。
由于深度神經網絡的性質,世界模型可以推廣到新的、不可見的情況,這有可能大大提高樣本效率。一個訓練成功的世界模型可能會預測到以前從未訓練到的數據。
TWM由觀測模型和動力學模型組成,它們不共享參數。圖6展示了TWM架構,其采用DreamerV2的神經網絡架構[20] 對觀測模型進行了輕微修改。因此,潛在狀態z是離散的。觀測解碼器重構觀測并預測所有像素的獨立標準正態分布的均值。
自回歸動力學模型根據其預測的歷史來預測下一個時間步。骨干是一個確定性的聚合模型f,它根據“先前生成的潛在狀態、動作和獎勵”的預測歷史來計算確定性的隱藏狀態h,獎勵、折扣和下一個潛在狀態的預測器以隱藏狀態為條件。動力學模型由以下組件組成,公式為
Aggregation model: ht=fψ(zt-:t,at-:t,rt-:t-1),
Reward predictor: r^t~pψ(r^tht),
Discount predictor: γ^t~pψ(γ^tht),
Latent state predictor: z^t+1~pψ(z^t+1ht)。(7)
聚合模型被實現為因果掩蔽的Transformer-XL,顯著增強了原始的Transformer模型(vanilla Transformer),引入了循環機制和相對位置編碼。通過這些編碼,TWM可以學習與時間步長無關的動態。潛在狀態、動作和獎勵被送入模態特定的線性嵌入,然后傳遞給Transformer模型。模型接收三種類型的輸入,輸入有三種模態(潛在狀態、動作、獎勵),最后一個獎勵不作為輸入的一部分(獎勵的輸入有一個特殊的規定,即最后一個獎勵不被視為輸入的一部分)。將動作模態的輸出視為隱藏狀態,而忽略其他兩個模態的輸出(圖6)。
訓練包括:使用當前策略在真實的環境中收集經驗;使用過去的經驗改進世界模型;使用世界模型產生的新經驗改進策略。
在訓練期間,構建數據集D。在收集了當前策略的新經驗之后,通過從D中采樣N個序列,并使用隨機梯度下降方法優化的損失函數來改進世界模型。在執行世界模型更新之后,從N個觀測值中選擇M個,并將它們編碼為潛在狀態,作為新軌跡的初始狀態。動態模型基于策略提供的動作迭代地生成長度為H的M個軌跡。隨后,使用標準的無模型目標改進策略。
由于數據集在訓練過程中增長緩慢,軌跡的均勻采樣過于關注早期經驗,這可能導致過度擬合,特別是在低數據狀態下。因此,保持訪問計數,其在每次作為序列的開始對條目進行采樣時遞增,使用Softmax函數將這些計數轉換為概率。
3.5 MWM
掩蔽世界模型(masked world model,MWM)是一種基于視覺模型的強化學習算法[33],如圖7所示,它將視覺表示學習和動態學習結合起來,通過分別學習視覺表示和環境動態來學習準確的世界模型。MWM的關鍵思想是訓練一個自動編碼器,該自動編碼器使用卷積特征掩蔽來重建視覺觀察結果,并在自動編碼器之上建立一個潛在的動態模型。通過引入早期卷積層并屏蔽卷積特征而不是像素補丁,MWM使世界模型能夠從復雜的視覺觀察中捕獲細粒度的視覺細節。此外,為了學習那些可能無法僅通過重建目標來捕獲的與任務相關的信息,MWM引入一個輔助獎勵預測任務的自動編碼器。具體來說,通過重復以下迭代過程分別更新視覺表示和動態:使用卷積特征掩蔽和獎勵預測訓練自動編碼器;學習預測自動編碼器視覺表示的潛在動態模型。
使用從環境交互中收集的在線樣本不斷更新視覺表示和動態,自動編碼器參數在動態學習期間不會更新。
4 世界模型的應用
4.1 Sora
2024年2月15日,OpenAI推出了一種新的基礎模型,可以從用戶的文本提示生成視頻。這種名為Sora的模型,人們稱之為ChatGPT的視頻版本。OpenAI聲稱,由于在大規模的文本-視頻數據集上進行訓練,Sora具有令人印象深刻的接近真實世界的生成能力,包括創建生動的人物、模擬平滑的動作、描繪情感以及提供突出的物體和背景的細節。
目前,Sora模型官方只出了一個技術報告,并沒有公布具體技術細節。但是,從ChatGPT的實現過程中不難得知,任何AI大型模型都需要“基本粒子”才能得以實現[34]。ChatGPT技術原理的起點是將“自然語言”token化,也就是給大語言模型提供了一個可計算、可理解的“基本粒子”,然后用這些“基本粒子”去組合文本語言新世界[35]。Sora的工作原理也應如此,其實現步驟如圖8所示。
與ChatGPT采用token embedding方法以實現文本數據相似,Sora模型將視頻數據壓縮至一個低維的潛空間,再將這些壓縮后的數據細分為時空碎片,最后進行AI時空建模[36]。
目前,Sora作為世界模擬器表現出許多局限性。例如,它不能精確地模擬如玻璃破碎等復雜物理相互作用,同時,在類似吃食物這樣的交互中,它也不是總能準確地反映對象狀態的變化。并且,當視頻過長時會出現不連貫性,或者有其他未提及的對象自發出現的問題。
4.2 Gemini
為了與GPT-4抗衡,谷歌公司發布了新一代世界模型Gemini。傳統的多模態模型通過分別訓練處理各類信息類型的組件,然后將它們組合在一起的方式來構建。雖然這些模型在某些任務上表現不錯,比如描述圖像,但在處理更復雜的概念和推理時,效果并不理想。為了提升多模態模型的性能,谷歌采用了一種不同的策略,將Gemini設計成一個原生多模態模型。這意味著Gemini從一開始就在各種信息類型上進行了預訓練,然后通過額外的多模態數據微調,使其更好地理解和推理各種輸入。三種優化過后的能力如下[37]。
1) 復雜的推理能力
Gemini的多模態推理能力有助于理解復雜的書面和視覺信息,能在大規模的數據提取中識別微小的差異點。通過閱讀、過濾和理解信息,從成千上萬的文檔中提取獨到的信息和見解,有利于未來在眾多領域中以數字化的速度實現新的突破。
2) 理解文本、圖像、音頻等內容的能力
經過訓練,Gemini可以同時識別和理解文本、圖像、音頻及更多內容,因此它能更好地理解細微信息,回答與復雜主題相關的問題,且尤其擅長解釋數學和物理等復雜學科的推理。
3) 高級編碼能力
谷歌的第1版Gemini可以理解、解釋和生成主流編程語言(如Python、Java、C++和Go)的高質量代碼,能夠跨語言工作并推理復雜的信息。
4.3 Dynalang
Dynalang是一種代理程序,它從在線經驗中學習語言和圖像的世界模型,并利用該模型學習如何行動。Dynalang 將學習建模世界和語言(通過預測目標進行監督學習)及根據該模型學習行動(通過任務獎勵進行強化學習)分開。在這個應用中,世界模型接收視覺和文本輸入作為觀察模態,并將它們壓縮到潛在空間中。訓練世界模型使用在線收集的經驗來預測未來的潛在表示。訓練策略以最大化任務獎勵的方式采取行動,將世界模型的潛在表示作為輸入。由于世界建模與行動分離,Dynalang 可以在單一模態(僅文本或僅視頻數據)上進行預訓練,而不涉及行動或任務獎勵。
簡單來說,Dynalang在接收視頻、文本或多模態表示后,預測給定信息的未來表示。預測未來的表示不僅為視覺體驗中的基礎語言提供了豐富的學習信號,而且還允許從想象的序列中進行規劃和策略優化。Dynalang結構如圖9所示。在每個時間步,它接收圖像x、語言標記l和動作a。圖像和語言觀察被壓縮成一個離散的表示z,并與動作一起輸入序列模型,以預測下一個表示z。
Dynalang將世界模型用一個循環狀態空間模型來實現,該世界模型由以下組件組成,公式為
Sequence model:z^t,ht=seq(zt-1,ht-1,at-1),
Multimodal encoder:zt~enc(xt,lt,ht),
Multimodal decoder:x^t,l^t,r^t,c^t=dec(zt,ht)。(8)
其中,序列模型以帶有循環狀態ht的GRU來實現。使用循環模型的好處在于策略不再需要隨時間積累信息,但也可以使用其他序列模型,如Transformer。在每個時間步,編碼器在觀察模型狀態ht的條件下進行建模,有效地學習將觀察壓縮為相對于歷史的代碼zt。然后,序列模型在編碼觀察zt的條件下,將新觀察整合到下一個模型狀態中。解碼器經過訓練以重構觀察和其他信息,從而塑造模型的表示形式。
該模型的循環架構可能使在極長的視野環境中的優化具有挑戰性。Dynalang的設計是將視覺和語言標記一對一地交錯,允許智能體在通信時采取行動,但可能會導致序列長度成為某些任務中學習的瓶頸。
4.4 SWIM
意向性的結構化世界模型(structured world model for intentionality,SWIM)[38]是一種在真實的世界中學習操作任務,利用這些豐富的數據來訓練機器人世界模型,使機器人能夠預測其在任何環境中的行為后果。
SWIM利用大規模的互聯網數據,使用結構化的動作空間來訓練機器人世界模型,其結構如圖10所示。在通用的高級結構化動作空間中訓練世界模型,使其能夠捕捉人手在試圖抓住和操縱物體時如何與物體交互,可以僅使用少量真實世界的交互軌跡,對世界模型進行微調。此外,用于微調的這些交互軌跡不需要任何任務監督,并且可以通過執行視覺動作來獲取。無論是在人類視頻上進行預訓練,還是在機器人數據上進行世界模型微調,都不會對獎勵做出任何假設。這種無監督設置允許利用與不同任務相關的數據,從而使機器人能夠在所有數據上訓練單一的世界模型,培養機器人或人工智能系統具有多方面、多任務的能力。
在Mendonca R、 Bahl S、 Pathak D實驗中展示了通過兩個不同的機器人系統在真實世界環境中運行,來訓練這種聯合世界模型的方法。在應用方面,可以通過指定目標圖像來部署微調后的世界模型,以執行特定的任務。世界模型在動作空間中進行規劃,以找到一系列動作,根據任務要求操縱物體。
SWIM的訓練過程包括三個階段:利用人類交互的互聯網視頻來預訓練模型;使用無獎勵數據將模型微調到機器人設置;通過模型進行規劃以實現目標。具體情況如下。
1) 預訓練
利用人類視頻數據集,需要初始化世界模型和可供性模型(經過預訓練的學習模型),并對視頻片段進行處理,提取像素信息。在動作創建階段,隨機采樣深度和旋轉角度,以增加模型對不同場景的適應能力。通過訓練可供性模型,能夠從視頻幀中理解動作,并在決策和規劃中提供支持。同時,通過軌跡序列訓練世界模型,能夠理解物體間的關系和環境的變化。最終獲得了訓練好的世界模型和可供性模型,為后續任務提供可靠的基礎。
2) 對機器人數據進行無監督微調
在實際環境中,通過模仿學習和模型預測,讓機器人完成特定的任務,從而實現從仿真到真實世界的遷移。
獲取經過預訓練得到的世界模型和可供性模型,通過對可供性模型進行多次查詢,收集機器人數據集,用于訓練世界模型。
給定目標圖像,使用目標圖像對機器人數據集中的軌跡進行排序,并使用高斯混合模型對軌跡進行擬合;對于每一個軌跡,從可供性模型中查詢提案;通過世界模型使用交叉熵方法選擇最佳提案,選擇最佳的動作,以達到目標圖像;最后執行所選擇的最佳提案,讓機器人達到目標圖像。
3) 機器人部署以執行給定目標圖像的任務
通過運行可供性模型來收集機器人數據集,需 要收集一些域內機器人數據進行微調,這一步不需要以任務獎勵進行任何監督。
基于專家設計的動作空間學習,能夠學習人手如何與環境交互,利用在標記數據上訓練的檢測器從未標記的真實世界視頻中獲取動作。78lFLWqh0Yu4oLGW2wep/w==
雖然 SWIM 提供了一個可擴展的解決方案并顯示出令人驚喜的結果,但可以執行的操作和任務類型存在一些限制,目前僅包括準靜態設置。在未來的工作中,可以探索不同的動作參數化和其他類型的操作任務。如果可以擴展到更多的任務,通過從被動和主動數據中學習構建一個真正的多面手代理,該模型可以變得更好。
4.5 MUVO
具有幾何體素表示的多模態世界模型(multimodal world model with geometric voxel representations,MUVO)[39]是一個具有幾何表示的自動駕駛多模態生成世界模型。該模型利用來自自動駕駛汽車的高分辨率圖像和激光雷達傳感器數據來預測原始相機和激光雷達數據以及未來多個步驟的3D占用表示。MUVO首先對原始相機圖像和激光雷達點云進行處理、編碼和融合,由此產生潛在表征,然后送入過渡模型,以動作為條件,預測未來的狀態。最后,將這些未來狀態解碼為3D占用網格、原始點云和原始RGB圖像。
MUVO工作流程如圖11所示。首先,處理編碼和融合高分辨率RGB相機數據、激光雷達點云與基于Transformer的架構。其次,將傳感器數據的潛在表示饋送到過渡模型,以導出當前狀態的概率模型,然后進行采樣,同時預測未來狀態的概率模型并從中采樣。最后,從概率模型中解碼當前和未來狀態,預測未來多幀的原始RGB圖像、點云和3D占用網格。
因此,先前的世界模型主要是學習數據中的模式,而不是對真實的世界進行建模。無監督學習傳感器無關的幾何占用表示的方法為模型提供了對物理世界的基本理解。
MUVO雖然創意性地提出模擬真實汽車行駛狀況,從而預測駕駛員未來動作。但是,道路交通本身就具有不確定性,在很多情況下,未知事件的發生是人工智能無法做出判斷的。此外,由于惡劣天氣或者設備缺陷問題,圖像的清晰度也無法得到保證,圖像的代表性也較為單一。
4.6 LWM
基于語義的世界模型(language-guided world model,LWM)[40]可以通過閱讀語言描述來捕獲環境動態。該模型提高了智能體的通信效率,允許人類通過簡潔的語言反饋同時改變其在多個任務中的行為。LWM還使智能體能夠從最初為指導人類而編寫的文本中進行自我學習。
圖12展示了智能引導的世界模型。如圖12(a)所示,這些模型使代理能夠編寫直觀的計劃,并邀請人類監督員來驗證和修改這些計劃。此外,它們還為管理者提供了各種修改計劃的策略:提供行動糾正反饋來更新代理的策略,或者提供描述環境的語言反饋來修改其世界模型。圖12(b)給出了語言引導世界模型的Transformer架構,表現出很強的組合概括性,將軌跡轉換成一個長序列的令牌,和訓練Transformer自動回歸生成這些令牌,實現了專門注意力機制,將文本信息納入觀察令牌中。
LWM在很大程度上提升了人工智能處理人類發布任務的效率。但現今,人工智能在某些方面并不能識別人類的感情,對待任務的處理方式也較為單一。此外,模型的精確度也會因為每次訓練時人類發布不同任務的難易程度有所變化。
5 展望
隨著數據采集和處理技術的不斷進步,世界模型的發展將更加依賴大數據和機器學習算法。通過分析海量數據,模型可以更準確地預測和解釋現實世界的各種現象。未來,世界模型的發展會更加強調跨學科的融合,涉及物理學、生物學、社會學、經濟學、環境科學等多個學科領域。這種融合將有助于構建多維度的模型,更好地反映現實世界的復雜性。此外,世界模型將越來越智能化和自主化,能夠根據外部環境和輸入自動調整和更新。這將使模型更具適應性和靈活性,能夠更好地應對不斷變化的情境,并且能夠自主地進行推理和決策。
世界模型的廣泛運用將對多個領域產生影響,具體而言包括但不限于以下四個領域。
一是電影創作。在影視制作行業,世界模型可以幫助電影制作者更好地創建場景和情節,以豐富電影的內容和表現力。此外,世界模型可以為電影制作提供更加真實和自然的角色表現以及更逼真的視覺效果。對影視行業而言,世界模型將帶來革命性的改變。傳統的影視制作流程通常需要大量人力、物力和財力,而世界模型可以幫助影視制作公司降低制作成本和提高效率,并快速生成高質量的視頻內容。這將使更多的小型制作公司和獨立制片人進入影視制作領域,推動影視產業的多元化發展。
二是廣告創意。世界模型可以幫助廣告制作者更好地表達廣告創意,以提供更加生動和吸引人的視覺效果。它還可以幫助廣告制作者更好地理解目標受眾的需求和喜好,以提供更加個性化的廣告體驗。對創意產業而言,世界模型將帶來革命性變革。創意產業包括廣告、設計、文學、藝術等領域,上述領域需要不斷創新并以新穎的內容吸引觀眾和客戶。通過文字生成視頻人工智能技術,創意人才和內容創作者將獲得更多靈感和工具,可以更加輕松地創作出高品質的視頻內容。這將推動創意產業的發展,激發創意人才的能動性和創造力,進一步豐富數字內容產業的多樣性。
三是游戲開發。世界模型可以幫助游戲開發者創建更加真實和自然的游戲場景和角色表現,以提供更加沉浸式的游戲體驗。此外,還可以幫助游戲開發者更好地理解游戲玩家的需求和反饋,優化游戲設計和體驗。
四是教育和培訓。在教育和培訓領域,世界模型將推動教育方式的革新和提升學習體驗。通過將文字描述轉換為動態視頻內容,教育者和培訓機構可以為學生提供更加生動有效的教學內容和教學方式,增強學習者的興趣和吸收能力。這將有助于提高教育質量和培訓效果,實現個性化、交互性和深度學習的目標。
值得注意的是,上述影響是否具有顛覆性變革能力或能否給現實行業帶來降維打擊,取決于諸多因素,包括技術本身的成熟度、應用場景的限制、人類的創造力和想象力等。盡管現有的世界模型可以生成極其逼真的視頻,但仍無法完全取代人類的創造力和想象力。因此,我們應以開放和理性的態度看待這項技術的發展,在抓住發展機遇的同時,平衡其中隱藏的風險和利益。
參考文獻:
[1] FORRESTER J W. Counterintuitive behavior of social systems[J]. Theory and decision, 1971, 2(2): 109-140.
[2] CHANG L, TSAO D Y. The code for facial identity in the primate brain[J]. Cell, 2017, 169(6): 1013-1028.
[3] NORTMANN N, REKAUZKE S, ONAT S, et al. Primary visual cortex represents the difference between past and present[J]. Cerebral cortex, 2015, 25(6): 1427-1440.
[4] KELLER G B, BONHOEFFER T, HBENER M. Sensorimotor mismatch signals in primary visual cortex of the behaving mouse[J]. Neuron, 2012, 74(5): 809-815.
[5] MOBBS D, HAGAN C C, DALGLEISH T,et al. The ecology of human fear: survival optimization and the nervous system[J]. Frontiers in neuroscience,2015,9:1-22.
[6] HA D, SCHMIDHUBER J. Recurrent world models facilitate policy evolution[EB/OL].(2018-09-04) [2024-03-27].http:∥arxiv.org/abs/1809.01999v1.
[7] SCHMIDHUBER J. On learning to think: algorithmic information theory for novel combinations of reinforcement learning controllers and recurrent neural world models[EB/OL]. (2015-11-30)[2024-03-27].http:∥arxiv.org/abs/1511.09249v1.
[8] LINNAINMAA S. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors [D]. Helsinki:University of Helsinki,1970.
[9] KELLEY H J. Gradient theory of optimal flight paths[J]. ARS journal, 1960, 30(10): 947-954.
[10]WERBOS P J. Applications of advances in nonlinear sensitivity analysis[M]∥System Modeling and Optimization. Berlin: Springer Press, 2005: 762-770.
[11]LIPTON Z C, BERKOWITZ J, ELKAN C, et al. A critical review of recurrent neural networks for sequence learning[EB/OL]. (2015-10-17)[2024-03-28].http:∥arxiv.org/abs/1506.00019v4.
[12]HA D, SCHMIDHUBER J. World models[EB/OL].(2018-03-27)[2024-03-28]. https:∥arxiv.org/abs/1803.10122.
[13]VEN G M, SIEGELMANN H T, TOLIAS A S. Brain-inspired replay for continual learning with artificial neural networks[J]. Nature communications, 2020, 11(1): 4069.
[14]LECUN Y. A path towards autonomous machine intelligence version 0.9.2[EB/OL]. (2022-06-27)[2024-03-27]. https:∥openreview.net/pdf?id=BZ5a1r-kVsf.
[15]CATANI M. The anatomy of the human frontal lobe[J]. Handbook of clinical neurology, 2019, 163: 95-122.
[16]MUNDINANO I C, CHEN J, SOUZA M, et al. More than blindsight: case report of a child with extraordinary visual capacity following perinatal bilateral occipital lobe injury[J]. Neuropsychologia, 2019, 128: 178-186.
[17]PATEL A, BISO G M N R, FOWLER J B. Neuroanatomy, temporal lobe[M]. Treasure Island: StatPearls Publishing, 2023.
[18]ANDERSEN R A. The neurobiological basis of spatial cognition: role of the parietal lobe[M]∥Spatial Cognition. New York: Psychology Press, 2022: 57-80.
[19]SUTTON R S. Dyna, an integrated architecture for learning, planning, and reacting[J]. ACM SIGART bulletin, 1991, 2(4): 160-163.
[20]HAFNER D, LILLICRAP T, FISCHER I,et al. Learning latent dynamics for planning from pixels[EB/OL]. (2018-11-12)[2024-03-28]. http:∥arxiv.org/pdf/1811.04551v1.
[21]KE N R, GOYAL A, BILANIUK O, et al. Sparse attentive backtracking:temporal credit assignment through reminding[EB/OL].(2018-09-11)[2024-03-28]. http:∥arxiv.org/abs/1809.03702.
[22]HAFNER D, PASUKONIS J, BA J, et al. Mastering diverse domains through world models[EB/OL].(2023-01-10)[2024-03-28].http:∥arxiv.org/abs/2301.04104v2.
[23]CHEN C, WU Y F, YOON J, et al. TransDreamer: reinforcement learning with transformer world models[EB/OL]. (2022-02-19)[2024-03-29].http:∥arxiv.org/abs/2202.09481v1.
[24]RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[EB/OL].(2018-06-11)[2024-03-29]. https:∥www.cs.ubc.ca/~amuham01/LING530/papers/radford 2018improving.pdf.
[25]TSCHANTZ A, MILLIDGE B, SETH A K, et al. Reinforcement learning through active inference[EB/OL]. (2020-02-28)[2024-04-01].http:∥arxiv.org/abs/2002.12636v1.
[26]HAFNER D, LILLICRAP T, NOROUZI M, et al. Mastering atari with discrete world models[EB/OL].(2022-02-12)[2024-04-01].http:∥arxiv.org/abs/2010.02193v4.
[27]KAISER L, BABAEIZADEH M, MILOS P, et al. Model-based reinforcement learning for atari[EB/OL]. (2019-03-01)[2024-04-01].http:∥arxiv.org/abs/1903.00374v5.
[28]MICHELI V, ALONSO E, FLEURET F. Transformers are sample-efficient world models[EB/OL]. (2022-09-01)[2024-04-03].http:∥arxiv.org/abs/2209.00588v2.
[29]KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2013-12-20)[2024-04-03]. http:∥arxiv.org/abs/1312.6114v11.
[30]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[31]BENGIO Y, LONARD N, COURVILLE A. Estimating or propagating gradients through stochastic neurons for conditional computation[EB/OL]. (2013-08-15)[2024-04-04].http:∥arxiv.org/abs/1308.3432v1.
[32]ROBINE J, HFTMANN M, UELWER T, et al. Transformer-based world models are happy with 100k interactions[EB/OL]. (2023-03-13)[2024-04-04].http:∥arxiv.org/abs/2303.07109v1.
[33]SEO Y, HAFNER D, LIU H, et al. Masked world models for visual control[EB/OL].(2023-05-27)[2024-04-04]. http:∥arxiv.org/abs/2206.14244.
[34]ASKELL A, BAI Y T, CHEN A N, et al. A general language assistant as a laboratory for alignment[EB/OL]. (2021-12-09) [2024-04-04].http:∥arxiv.org/abs/2112.00861v3.
[35]BAI Y T, JONES A, NDOUSSE K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[EB/OL]. (2022-04-12)[2024-04-04].http:∥arxiv.org/abs/2204.05862v1.
[36]BROOKS T, PEEBLES B, HOMES C, et al. Video generation models as world simulators, 2024[EB/OL].(2024-02-15)[2024-04-05].https:∥openai. com/research/video-generation-models-as-world-simulators.
[37]Google Gemini Team. Gemini: a family of highly capable multimodal models[R/OL].(2023-12-19)[2024-04-05]. https:∥arxiv.org/abs/2312.11805.
[38]MENDONCA R, BAHL S, PATHAK D. Structured world models from human videos[EB/OL].(2023-08-21)[2024-04-05].http:∥arxiv.org/abs/2308.10901v1.
[39]BOGDOLL D, YANG Y T, ZLLNER J M. MUVO: a multimodal generative world model for autonomous driving with geometric representations[EB/OL].(2023-11-20)[2024-04-10].http:∥arxiv.org/abs/2311.11762v2.
[40]ZHANG A, NGUYEN K, TUYLS J, et al. Language-guided world models: a model-based approach to AI control[EB/OL].(2024-01-24)[2024-04-10].http:∥arxiv.org/abs/2402.01695v1.