馬迪

不管是好是壞,Sora都標志著AI視頻浪潮即將出現,這股浪潮將顛覆包括影視、廣告、游戲在內的整個創意產業。
2024年2月16日,當全中國都沉浸在春節假期的喜悅中時,OpenAI發布了旗下首個文生視頻(Text-to-Video)大模型Sora,其生成的多段視頻質感優秀,媲美電影,我們看到了走在東京街道上的時尚女郎、踏雪而來的猛犸象群、咖啡杯里互相追逐的海盜船、在蠟燭邊烤火的小怪獸……全世界都在驚嘆“AI產業的‘iPhone時刻已經到來”,埃隆·馬斯克干脆承認“人類輸了”。
只在測試階段就引起了如此大的轟動,Sora到底有多優秀?
橫空出世
Sora的名字來自日語“空”,直譯過來就是天空;日語中還有一個成語“繪空事”,表示的正是“畫出不存在之物、天馬行空地創作”之意,完全符合這個文生視頻大模型的定位。
“文生視頻”,就是讓大模型根據用戶輸入的指令快速生成前所未有的AI視頻。這種產品并非OpenAI首創。實際上,近幾年以文生視頻為主業務的初創公司不斷涌現,互聯網行業巨頭如谷歌、Meta、微軟也投入了不少人員和精力在這條賽道上,但視頻時長和質量一直徘徊不前。2023年最火的AI視頻應用是Runway和Pika,它們都能根據文字生成4-6秒的視頻,兩家公司的創始人都把生成15秒視頻作為今年的目標,可見提升AI視頻時長是多么的困難。
但Sora的出現完全改變了這一切,一出手就建立了絕對優勢。一是視頻時長,Sora可以生成60秒長視頻,完全碾壓已有的任何同類產品;二是對“文字提示”的高度理解,還可以對簡單的指令進行合理補充,并充滿了合理的想象力;三是能在一個視頻內實現多角度鏡頭,分鏡切換既符合邏輯又十分流暢;四是體現了對真實世界的理解能力,Sora對于光影反射、物體運動、物體相互作用等細節處理得十分優秀,極大地提升了真實感。
除此之外,Sora已經對現實世界的物理規律具備了一定的理解能力。比如一段視頻中,男人咬了一口漢堡包后,漢堡上出現了一個咬痕。雖然我們覺得這是理所當然的,但Sora能模擬出這種變化已經一種突破,表明該模型已經開始理解物理規律,這是人工智能的一大進步。
珠聯璧合
之所以能取得如此令人震撼的突破,原因在于OpenAI的解題思路完全不同,其采用的Diffusion Transformer模型,可以說是珠聯璧合的一次嘗試。
Diffusion擴散模型是目前圖像生成的主流方式,靈感來自于非平衡熱力學。生成圖像的過程中就像是把一滴墨水在水中擴散的過程進行倒放。擴散模型的訓練過程包括前向擴散和反向擴散:前向擴散會逐步對一張真實的照片隨機添加噪聲,直到變成純噪聲圖片;反向擴散是從純噪聲圖片中去除噪聲,逐步生成清晰的圖像。通過反復迭代訓練,模型就會逐漸學會如何更準確地從噪聲中重建數據,生成質量越來越高的圖像。
但剛剛登場的Sora還是一個新手,表現稱不上“完美”。我們可以從測試視頻中看到一些明顯不符合邏輯的bug,比如消失的人物、變形的動作、混亂的空間等。就像剛問世的chatGPT一樣,難免有胡言亂語的毛病,這些問題會隨著時間的推移和機器學習的深入,得到必然的改善。
Sora過于逼真的視頻表現帶來了對偽造和傳播虛假內容的憂慮,尤其是在圖片生成領域的深度造假(Deepfake)問題還未解決的當下,AI生成視頻更加難辨真偽。OpenAI也考慮到了這些方面的潛在風險,正在開發幫助檢測誤導性信息的工具,幫助人們標注視頻是否是Sora生成的、何時生成的。另外,倫理對抗性測試也在緊鑼密鼓地進行,避免AI成為極端暴力、犯罪、仇恨言論、侵權等問題的幫兇。
不管是好是壞,Sora都標志著AI視頻浪潮即將出現,這股浪潮將顛覆包括影視、廣告、游戲在內的整個創意產業。而在我們的目光所及之外,還有更多無法預測的使用場景、創新和突破。未來不僅屬于我們,也同樣屬于AI。