談談Sora

2024-03-27 06:31:56馬迪

今日中國·中文版 2024年3期

關鍵詞：模型

馬迪

不管是好是壞，Sora都標志著AI視頻浪潮即將出現，這股浪潮將顛覆包括影視、廣告、游戲在內的整個創意產業。

2024年2月16日，當全中國都沉浸在春節假期的喜悅中時，OpenAI發布了旗下首個文生視頻（Text-to-Video）大模型Sora，其生成的多段視頻質感優秀，媲美電影，我們看到了走在東京街道上的時尚女郎、踏雪而來的猛犸象群、咖啡杯里互相追逐的海盜船、在蠟燭邊烤火的小怪獸……全世界都在驚嘆“AI產業的‘iPhone時刻已經到來”，埃隆·馬斯克干脆承認“人類輸了”。

只在測試階段就引起了如此大的轟動，Sora到底有多優秀？

橫空出世

Sora的名字來自日語“空”，直譯過來就是天空；日語中還有一個成語“繪空事”，表示的正是“畫出不存在之物、天馬行空地創作”之意，完全符合這個文生視頻大模型的定位。

“文生視頻”，就是讓大模型根據用戶輸入的指令快速生成前所未有的AI視頻。這種產品并非OpenAI首創。實際上，近幾年以文生視頻為主業務的初創公司不斷涌現，互聯網行業巨頭如谷歌、Meta、微軟也投入了不少人員和精力在這條賽道上，但視頻時長和質量一直徘徊不前。2023年最火的AI視頻應用是Runway和Pika，它們都能根據文字生成4-6秒的視頻，兩家公司的創始人都把生成15秒視頻作為今年的目標，可見提升AI視頻時長是多么的困難。

但Sora的出現完全改變了這一切，一出手就建立了絕對優勢。一是視頻時長，Sora可以生成60秒長視頻，完全碾壓已有的任何同類產品；二是對“文字提示”的高度理解，還可以對簡單的指令進行合理補充，并充滿了合理的想象力；三是能在一個視頻內實現多角度鏡頭，分鏡切換既符合邏輯又十分流暢；四是體現了對真實世界的理解能力，Sora對于光影反射、物體運動、物體相互作用等細節處理得十分優秀，極大地提升了真實感。

除此之外，Sora已經對現實世界的物理規律具備了一定的理解能力。比如一段視頻中，男人咬了一口漢堡包后，漢堡上出現了一個咬痕。雖然我們覺得這是理所當然的，但Sora能模擬出這種變化已經一種突破，表明該模型已經開始理解物理規律，這是人工智能的一大進步。

珠聯璧合

之所以能取得如此令人震撼的突破，原因在于OpenAI的解題思路完全不同，其采用的Diffusion Transformer模型，可以說是珠聯璧合的一次嘗試。

Diffusion擴散模型是目前圖像生成的主流方式，靈感來自于非平衡熱力學。生成圖像的過程中就像是把一滴墨水在水中擴散的過程進行倒放。擴散模型的訓練過程包括前向擴散和反向擴散：前向擴散會逐步對一張真實的照片隨機添加噪聲，直到變成純噪聲圖片；反向擴散是從純噪聲圖片中去除噪聲，逐步生成清晰的圖像。通過反復迭代訓練，模型就會逐漸學會如何更準確地從噪聲中重建數據，生成質量越來越高的圖像。

但剛剛登場的Sora還是一個新手，表現稱不上“完美”。我們可以從測試視頻中看到一些明顯不符合邏輯的bug，比如消失的人物、變形的動作、混亂的空間等。就像剛問世的chatGPT一樣，難免有胡言亂語的毛病，這些問題會隨著時間的推移和機器學習的深入，得到必然的改善。

Sora過于逼真的視頻表現帶來了對偽造和傳播虛假內容的憂慮，尤其是在圖片生成領域的深度造假（Deepfake）問題還未解決的當下，AI生成視頻更加難辨真偽。OpenAI也考慮到了這些方面的潛在風險，正在開發幫助檢測誤導性信息的工具，幫助人們標注視頻是否是Sora生成的、何時生成的。另外，倫理對抗性測試也在緊鑼密鼓地進行，避免AI成為極端暴力、犯罪、仇恨言論、侵權等問題的幫兇。

不管是好是壞，Sora都標志著AI視頻浪潮即將出現，這股浪潮將顛覆包括影視、廣告、游戲在內的整個創意產業。而在我們的目光所及之外，還有更多無法預測的使用場景、創新和突破。未來不僅屬于我們，也同樣屬于AI。