


Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強大的視頻生成和模擬能力標志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。Sora的視頻生成不僅僅是對人類語言的理解,而且是人對AI世界規(guī)律的更深認知
2023年是屬于大語言模型的一年,而2024年,以Sora為首的多模態(tài)大模型,將帶領(lǐng)我們走向超乎想象的遠方。Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強大的視頻生成和模擬能力標志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。
從技術(shù)原理看,Sora模型不是一次全新的底層技術(shù)創(chuàng)新,而是大語言模型技術(shù)的集大成者
目前,OpenAI沒有公布Sora的訓練細節(jié),只在技術(shù)報告中提到Transformer(谷歌團隊2017年提出的一種經(jīng)典模型)、擴散模型、Patch等,這些都不是新技術(shù)。初步判斷,Sora不是全新的底層大模型,而是建立在OpenAI一系列堅實的技術(shù)沉淀上,包括視覺理解Clip、Transformers模型和ChatGPT、Video Caption(DALL·E3)等,是基于“語言大模型訓練思路+模型創(chuàng)新”的一次進步。
深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ),將視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,運用帶有Transformer框架擴散模型Diffusion,給定輸入的噪聲塊+文本prompt,來預測原始的“干凈”分塊,AI從數(shù)據(jù)中學習并執(zhí)行復雜的任務(wù)。同時,OpenAI引入了視覺領(lǐng)域的Patch,將各種不同尺寸、分辨率、長寬比、時長的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,極大擴展了訓練樣本的來源和數(shù)量,提升了豐富度。類似語言模型,經(jīng)過大規(guī)模樣本訓練后,Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。同時,根據(jù)用戶喜好,Sora運用DALL·E3等“文生圖”應(yīng)用,修改出不同的視頻風格。
Sora可生成分辨率1920×1080的視頻,也可基于靜止圖片創(chuàng)建視頻,使用新素材擴展現(xiàn)有素材。比如,用戶給它一張森林圖片,它可以幫你加上鳥、獸、人;給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風景。Sora類似語言模型,經(jīng)過大規(guī)模樣本訓練后,展現(xiàn)出模擬現(xiàn)實世界的“涌現(xiàn)”能力。
從發(fā)展進程看,Sora是視頻領(lǐng)域的ChatGPT時刻
Sora目的是創(chuàng)建能夠“模擬物理世界”的通用工具,Sora離真正的“世界模擬器”還有相當?shù)木嚯x,效果雖然不完美,但證明了這條路的可行性。Sora的視頻生成不僅僅是對人類語言的理解,而且是人對AI世界規(guī)律的更深認知。
Sora目的是創(chuàng)建能模擬物理世界的通用工具
在Sora之前,并不清楚長期的一致性能否獨立出現(xiàn),或者它是否需要復雜的主題驅(qū)動生成流水線,甚至是物理模擬器。GPT—4必須隱式地學會Python基本知識,才能生成Python代碼,并不是直接存儲符號化的Python語法知識。同樣,Sora必須學習一些隱式的文本到3D、3D變換、光線追蹤渲染和物體運動等物理規(guī)則,才能精確地模擬視頻像素。
Sora是通過數(shù)據(jù)學習和直觀感受來實現(xiàn),模擬現(xiàn)實世界中的人、動物和環(huán)境,不需要對三維空間、物體等有任何特定的人工建模,而純粹由大規(guī)模的數(shù)據(jù)驅(qū)動。OpenAI把視頻生成模型稱作“世界模擬器”,認為持續(xù)擴展視頻模型是一條模擬物理和數(shù)字世界的希望之路。當然,Sora離真正的“世界模擬器”還有相當?shù)木嚯x,其技術(shù)路徑是否正確,業(yè)界還有不同聲音。
Sora在生成效果上與之前的技術(shù)拉開了顯著差距
在視頻時長上,以前的視頻生成模型,只能生成固定尺寸、時長幾秒鐘的視頻。Sora能生成各種尺寸視頻(最大2048×2048),時長達到60秒。
在視覺效果上,Sora同樣表現(xiàn)優(yōu)越,視頻中的人物和場景元素能夠在三維空間中保持連貫移動,并能有效處理短距離和長距離的依賴關(guān)系。同樣,Sora能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。甚至能模擬出簡單的影響世界狀態(tài)的行為。
值得注意的是,Sora的關(guān)注點是創(chuàng)建模擬物理世界的通用工具,并不特別注重畫質(zhì)、細節(jié),但其視覺效果仍然非常優(yōu)秀。
從價值意義看,Sora將重新定義人類與AI的交互關(guān)系
“真實”和“虛擬”的界限將變得模糊
Sora不僅僅是“視頻模型”,而且是“世界模擬器”,是OpenAI“教AI理解和模擬運動中的物理世界”計劃中的一步,目的是幫助人們解決需要現(xiàn)實世界交互的問題。
憑借以假亂真的視頻生成能力,Sora將為短視頻和游戲行業(yè)帶來新機遇。同時,傳統(tǒng)影視制作和商業(yè)模式將面臨重塑,可能會減少對人類演員、編導等創(chuàng)造性角色的需求。同時,基于AI技術(shù)強大的圖片和視頻生成能力,可能加劇虛假信息的泛濫,因此需要多角度地思考“真實”與“虛擬”交融帶來的影響。目前,Sora正在進行評估關(guān)鍵領(lǐng)域潛在危害或風險的工作,OpenAI還邀請了一批視覺藝術(shù)家、設(shè)計師和電影制作人加入,屆時Sora的能力將進一步完善。
人與AI之間的新交互與新關(guān)系
GPT和Sora的出現(xiàn)徹底變革了人機交互模式,讓用戶通過直接說話與AI交流,讓自然語言交互成為可能,極大地提高了可操作性。相較于傳統(tǒng)的圖形用戶界面,自然語言是人類最自然的交互方式,幾乎不需要學習,且交互效率更高。
新的交互模型會如何影響組織中的人機協(xié)同?人類與機器的關(guān)系將何去何從?技術(shù)進步既是挑戰(zhàn)也是機遇,需要更多地思考如何在AI時代定位自己,如何將AI技術(shù)為我所用。AI的意義在于讓更多人從簡單重復的勞動中解脫出來,以更高的效率去創(chuàng)造更大的價值。當自然語言的交互模式極大降低AI技術(shù)的應(yīng)用門檻,任何人都能使用AI輔助自己的工作。
AI離物理世界更近了一步
GPT展現(xiàn)了強大的文本處理能力,但主要處理單一模態(tài)數(shù)據(jù),而Sora預示著多模態(tài)模型在模擬物理世界時的巨大潛能。當然,目前的AI工具精細度仍然有限,如何高效地與AI溝通,將是未來必須學習和具備的技能。OpenAI給出簡單的指令,如“一個身穿藍色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步,在一場冬季風暴中”,Sora就能生成一個非常真實、流暢的短視頻,而女人膚色、路人等細節(jié)都不在指令中。
從體驗和娛樂角度看,Sora生成的視頻非常驚艷且有趣,但生成具有科普性或商業(yè)化等專業(yè)性較高的視頻時,仍需要滿足更多內(nèi)容和細節(jié),一方面用戶須提供盡可能詳細的指令。另一方面,AI不能完全理解并實現(xiàn)用戶提出的每一個指令細節(jié)。以GPT為例,如果給出一個較為復雜的指令,有時候GPT就會“自主”忽略指令中的幾個細節(jié)要求,甚至似是而非。
從國際競爭來看,國內(nèi)企業(yè)與Sora有較大差距,但追趕的技術(shù)路徑清晰
Sora具備多項創(chuàng)新功能,同業(yè)處于追趕狀態(tài)
Sora具備多項創(chuàng)新:
一是Sora可輸出長達60秒的一鏡到底的文生視頻,準確性、多樣性和穩(wěn)定性均有所提升;
二是多鏡頭切換,Sora可在單個視頻中設(shè)計出多個鏡頭,并在多角度的鏡頭切換中能保持人物、邏輯等一致性;
三是Sora在理解用戶Prompt(輸入到文生圖模型的文字)的同時,也同步分析該Prompt中事物身上的物理規(guī)律,如OpenAI展示的視頻中,汽車在山路上的顛簸、火車車窗上的倒影等鏡頭符合物理規(guī)律,視頻更接近于人類現(xiàn)實拍攝。
Sora的技術(shù)路徑具備可復制性
Sora所依賴的技術(shù),如Transformer和擴散模型、視覺理解模型、語言模型是過去幾年廣泛研究且公開發(fā)表的技術(shù),更多是一種工程上的應(yīng)用和優(yōu)化,國內(nèi)企業(yè)具備趕超的能力。如國內(nèi)企業(yè)的擴散模型技術(shù)已廣泛應(yīng)用到圖像生成、視頻生成領(lǐng)域;視覺理解領(lǐng)域的零樣本圖像描述、通用視覺問答、文本導向的視覺問答、細粒度視覺定位等領(lǐng)域能力,整體上已接近GPT—4V,語言模型能力與GPT—4Turbo接近。但如何找到實現(xiàn)高質(zhì)量文生視頻的工程化方法和路徑,仍需要艱辛的探索和試錯。
Sora之后預示著大模型需要更多人才、算力和數(shù)據(jù),這將加速AI基礎(chǔ)大模型供給側(cè)收斂的步伐
業(yè)界一種猜測是,GPT5具有接收全模態(tài)輸入、產(chǎn)生全模態(tài)輸出的能力,具備對物理世界的理解和建模能力,這也是Sora需要具備的能力。Sora就是GPT5的一部分,它們共同成長、演進和迭代。從ChatGPT到Sora,大模型為科技公司不斷帶來充滿前景的新賽道,進一步驗證了基礎(chǔ)大模型產(chǎn)業(yè)是技術(shù)、資本、人才、算力、數(shù)據(jù)高度密集型產(chǎn)業(yè)。
Sora進一步提高了基礎(chǔ)大模型的門檻,這意味著進入AI基礎(chǔ)模型的競爭賽道,企業(yè)需要做好人才、算力、數(shù)據(jù)和資本長期高強度投入的準備,并能構(gòu)建大模型商業(yè)化可行的路徑和商業(yè)模式。這進一步加速了AI基礎(chǔ)大模型供給側(cè)收斂的步伐。從目前來看,美國正在形成以3家AI基礎(chǔ)大模型為主導的市場競爭格局。
2023年中國涌現(xiàn)了254個大模型,有人說,中國迎來了“百模大戰(zhàn)”。事實上,中國不存在“百模大戰(zhàn)”,可能連“十模大戰(zhàn)”也不存在。這就像幾百人參加的田徑賽場上,有人擲鐵餅,有人扔標槍,有人在跳高,有人跑百米,但能進入10項全能的只有3—5個。未來3—5年,中國真正能在AI大模型賽道上具備追趕美國GPT技術(shù)步伐的企業(yè),將是非常有限的。
(本文由阿里云科技研究中心供稿)