Sora面世，“你說什么世界就是什么”

2024-03-08 00:54:09榮智慧

南風(fēng)窗 2024年5期

關(guān)鍵詞：模型

榮智慧

必須承認(rèn)，目前的AI只有一位主角，OpenAI。

它的聊天機(jī)器人ChatGPT，不上法學(xué)院就通過了律師資格考試。現(xiàn)在，它的最新模型Sora，不上電影學(xué)院就有希望拿到奧斯卡獎(jiǎng)。

Sora于2月16日上線，根據(jù)文本提示，可創(chuàng)建長(zhǎng)達(dá)一分鐘的逼真視頻。這些視頻呈現(xiàn)“多個(gè)角色，特定類型的動(dòng)作，以及充滿細(xì)節(jié)的復(fù)雜場(chǎng)景”。

現(xiàn)在Sora還沒有開放使用，未來會(huì)提供給“數(shù)量有限的創(chuàng)作者”，售價(jià)應(yīng)該不便宜。

Sora面世后，如ChatGPT一樣刷屏全球媒體。

OpenAI首席執(zhí)行官山姆·奧特曼熱情接受網(wǎng)友“點(diǎn)單”，在X上放送多個(gè)Sora繪制的精美視頻?？萍冀绱罄袟盍⒗?、賈揚(yáng)清、Jim Fan、謝賽寧、周鴻祎、李志飛等人競(jìng)相評(píng)論，馬斯克直接感慨“人類愿賭服輸”。

OpenAI的獨(dú)角戲時(shí)代，對(duì)普通人而言是技術(shù)平權(quán)的好事，對(duì)AI從業(yè)者來說卻是沉重的壓迫。最高興的是誰呢？造芯片的。

Sora沖擊奧斯卡

Sora得名于日語“天空”一詞。研究團(tuán)隊(duì)成員蒂姆·布魯克斯和比爾·皮布爾斯介紹，選擇這個(gè)名字，是因?yàn)樗堋皢酒馃o限的創(chuàng)造潛力”。

官方網(wǎng)站貼出了Sora創(chuàng)作的東京街頭視頻?！懊利惖?、白雪皚皚的東京市，鏡頭穿過熙熙攘攘的城市街道，跟隨幾名行人享受美妙的雪天，有人在路邊小攤購(gòu)物。絢麗的櫻花與雪花一起在風(fēng)中飛舞?！?/p>

另一個(gè)視頻根據(jù)如下提示詞產(chǎn)生“：幾只巨大的、毛茸茸的猛犸象，踩著白雪皚皚的地面走近，風(fēng)吹動(dòng)它們身上的長(zhǎng)長(zhǎng)毛發(fā)，遠(yuǎn)處是白雪覆蓋的高大樹木和雄偉山脈，午后的光線營(yíng)造出溫暖的光芒?！?/p>

有了提示詞，Sora就“知道”如何用鏡頭語言講故事。

比爾·皮布爾斯用一個(gè)“海洋視頻”舉例，該視頻根據(jù)“一個(gè)華麗的珊瑚礁世界”等描述創(chuàng)建，畫面充斥著五顏六色的魚類和海洋生物。Sora通過變化攝像機(jī)的角度和進(jìn)程，創(chuàng)造出了“敘事節(jié)奏”。

“實(shí)際視頻里有多個(gè)鏡頭變化—這些變化不是拼接在一起的，而是由模型一次性生成的，”皮布爾斯說，“我們沒有告訴它這樣做，它自動(dòng)這樣做的?！?/p>

Sora最令人吃驚的本事，就是沒有經(jīng)過訓(xùn)練而自行創(chuàng)造的能力。

Sora模型基于Transformer架構(gòu)，建立在DALL·E 3和GPT模型之上，這是OpenAI綜合利用自家前沿技術(shù)方面的又一次突破。它有三大核心特點(diǎn)，“60秒超長(zhǎng)長(zhǎng)度”“單視頻多角度鏡頭”，以及“世界模型”，一舉打敗所有同類競(jìng)品。

在此之前，AI視頻生成領(lǐng)域的明星產(chǎn)品Runway和Pika，只能做3秒或4秒長(zhǎng)的模糊視頻，角色形象也很扭曲，還得用戶輸入圖片—受技術(shù)水平所限。

像YouTube火爆的AI視頻迷因“威爾史密斯吃面條”，用網(wǎng)友的話說“完美地用視覺效果傳達(dá)出洛夫克拉夫特式恐怖”—人物面目猙獰，看了一宿睡不著覺。

而Sora達(dá)到了驚人的高清照片級(jí)真實(shí)感，“運(yùn)鏡”手法更令人難忘—圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫等不同鏡頭的切換。

雖然“東京街頭飄雪”視頻里，兩個(gè)角色走著走著就要走進(jìn)死胡同；“猛犸象”視頻里，前頭兩只猛犸象有點(diǎn)“順拐”；“戴墨鏡的時(shí)髦女子”左手拇指比例不對(duì)；被咬了一口的餅干沒有牙印……但Sora的整體視覺呈現(xiàn)效果依然無可匹敵。

Sora發(fā)布的同一天，谷歌DeepMind推出Gemini 1.5 Pro，幾乎沒搶到什么眼球。去年大火的Stability AI也發(fā)布了新視頻模型SVD1.1，自覺“技不如人”，又火速刪除了該條官方推文。

大力出奇跡

跟一年多以前橫空出世的ChatGPT一樣，OpenAI的秘訣一直是屢試不爽的Scaling Law（縮放定律）。只要模型足夠“大”，根據(jù)特定算法，就會(huì)產(chǎn)生智能“涌現(xiàn)”的能力。

當(dāng)然，一般的機(jī)構(gòu)和公司，也沒有能力達(dá)到OpenAI的水平。別小看“大力出奇跡”，前提是你得有那么“大力”。

Sora模型基于Transformer架構(gòu)，建立在DALL·E 3和G P T模型之上，這是OpenAI綜合利用自家前沿技術(shù)方面的又一次突破。

Sora是一種AI模型，使用文本到視頻的合成技術(shù)，按文本提示生成視頻。這種技術(shù)將自然語言轉(zhuǎn)換為視覺表示形式—圖像或視頻。

深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ)，它是一個(gè)帶有Transformer骨架的擴(kuò)散（Diffusion）模型，AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。Sora就是從“學(xué)習(xí)”的大型視頻數(shù)據(jù)集里學(xué)會(huì)了各種風(fēng)格、主題和流派。

Transformer模型本質(zhì)是一個(gè)“編碼器-解碼器”，輸入原始語言，生成目標(biāo)語言。擴(kuò)散模型的原理是先給數(shù)據(jù)添加高斯噪聲，再反向去除，從中恢復(fù)數(shù)據(jù)本貌。

簡(jiǎn)單粗暴地理解Sora的原理，就是翻譯器+搜索引擎+概率制作（內(nèi)容）。

首先，拿到提示詞后，Sora先分析文本，提取關(guān)鍵字，比如主題、動(dòng)作、地點(diǎn)、時(shí)間和情緒，再?gòu)乃臄?shù)據(jù)集里搜索與關(guān)鍵字匹配的、最合適的視頻。

其次，Sora將數(shù)據(jù)集里合適的視頻混合在一起，重新創(chuàng)建一個(gè)符合要求的視頻。在“創(chuàng)造”的過程中，它要“知道”場(chǎng)景中有哪些對(duì)象和角色，它們的外形，它們?nèi)绾芜\(yùn)動(dòng)，對(duì)象如何交互，以及受到環(huán)境影響后如何表現(xiàn)。

根據(jù)用戶的喜好，Sora會(huì)修改視頻的風(fēng)格。假如用戶想要一個(gè)35毫米膠片樣式的視頻，Sora會(huì)調(diào)整效果，更改圖像的亮度、色彩和攝像機(jī)角度。這一點(diǎn)和MidJourney等“文生圖”應(yīng)用類似。

Sora可以生成分辨率1920x1080的視頻。它也可以基于靜止圖片創(chuàng)建視頻，使用新素材擴(kuò)展現(xiàn)有素材。比如用戶給它一張森林圖片，它可以幫你加上鳥、獸、人。給它一張汽車行駛圖，它能加上道路、交通燈、沿途建筑物和風(fēng)景。

“補(bǔ)丁”是新方法，類似于ChatGPT里的Token—較小數(shù)據(jù)單元的集合?！把a(bǔ)丁”疊加在一起，湊成完整內(nèi)容。

“世界模型”這一核心特點(diǎn)，代表了文本生成視頻領(lǐng)域的最高級(jí)研究方向：通過對(duì)真實(shí)物理世界的模擬，世界模型讓計(jì)算機(jī)像人類一樣全面、準(zhǔn)確地“認(rèn)知”世界。其最根本意義就是“言出法隨”—你說什么，世界就是什么。

世界模型最早由圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆（Yann LeCun）2023年6月提出。2023年12月，Runway宣布建造“通用世界模型”，用生成式AI模擬整個(gè)世界。

然而，“果子”還是讓OpenAI摘到了。

Sora面世后，楊立昆的看法值得思考。他發(fā)帖說，連接主義是有問題的，符號(hào)主義更有前途。意思就是重?cái)?shù)據(jù)量和網(wǎng)絡(luò)規(guī)模、輕抽象表示和物理結(jié)構(gòu)是不行的；要反過來。

因?yàn)槟Ｐ鸵獙W(xué)習(xí)符號(hào)邏輯和物理意義，才能進(jìn)一步理解因果，理解物理現(xiàn)實(shí)，否則長(zhǎng)視頻上一定“露餡兒”。

“造芯”是硬道理

有Sora的能力，何愁“元宇宙”遙遙無期？

《頭號(hào)玩家》的世界近在眼前：帶上蘋果Vision Pro，打開支持8K視頻的Sora應(yīng)用，想象一個(gè)美好的場(chǎng)景，生成白日夢(mèng)，然后成癮。

Sora也讓電視劇《黑鏡》里《Joan Is Awful》一集變?yōu)楝F(xiàn)實(shí)。女主角發(fā)現(xiàn)自己的生活與電視劇驚人相似。隨著情節(jié)推進(jìn)，她逐漸揭露真相，一個(gè)根據(jù)觀眾個(gè)性、喜好及生活經(jīng)歷生成的復(fù)雜系統(tǒng)，已經(jīng)滲入普通人的生活。

隨著Sora技術(shù)的更新和應(yīng)用，新的娛樂時(shí)代近在眼前。所有的文化產(chǎn)品都不再是單向度的敘述和輸出，而是能反應(yīng)、適應(yīng)每一位觀眾獨(dú)特偏好的互動(dòng)“游戲”。

當(dāng)人工智能越發(fā)顯現(xiàn)出無所不能的力量之時(shí)，基于人類作為社群而不僅僅是種群的生命經(jīng)驗(yàn)、社會(huì)經(jīng)驗(yàn)提出問題，解決問題，仍然是我們“老調(diào)重彈”的挽尊之道。

如今，從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風(fēng)喚雨，無處排遣“濃濃的科技主義階級(jí)壓迫感”—找到自己的機(jī)會(huì)，也變得越來越難。

不過，在強(qiáng)調(diào)“想象力奪權(quán)”之前，最緊張的反而是芯片制造商：視頻模型的競(jìng)爭(zhēng)和語言模型相差不遠(yuǎn)，先是拼團(tuán)隊(duì)的工程化調(diào)參能力，最后就是拼算力。

就在OpenAI首席執(zhí)行官奧特曼開口“7萬億美元造芯片”前后，AI芯片賽道人滿為患。

AI芯片傳統(tǒng)三巨頭里，占有98%市場(chǎng)份額的英偉達(dá)，憑借近年人工智能的東風(fēng)，2月23日，市值達(dá)到1.96萬億美元，超越亞馬遜和谷歌。AMD和英特爾還在緊追不舍。

Meta于2月公布最新的自研定制芯片計(jì)劃。2月17日，軟銀集團(tuán)創(chuàng)始人孫正義宣布籌措1000億美元，成立AI芯片企業(yè)，以便與前幾年收購(gòu)的芯片設(shè)計(jì)公司ARM互補(bǔ)。

據(jù)The Information統(tǒng)計(jì)，截至目前，全球有超過18家用于AI大模型訓(xùn)練和推理的芯片設(shè)計(jì)初創(chuàng)公司，包括Cerebras、Graphcore、壁仞科技、摩爾線程、d-Matrix等，融資總額已超過60億美元，企業(yè)整體估值共計(jì)超過250億美元。背后的投資方包括紅杉資本、OpenAI、五源資本、字節(jié)跳動(dòng)等。

各家爭(zhēng)先“造芯”，最引人注目的還是OpenAI。

去年，CEO奧特曼就開始為代號(hào)Tigris的芯片制造項(xiàng)目籌錢，當(dāng)時(shí)號(hào)稱要籌集100億美元，希望生產(chǎn)出類似谷歌TPU、英偉達(dá)H100等芯片。2023年9月，OpenAI還招募了搞軟硬件協(xié)同的著名牛人Andrew Tulloch。

2024年1月，奧特曼到訪韓國(guó)，會(huì)見韓國(guó)三星電子和SK海力士高管，尋求芯片領(lǐng)域的合作。2月，奧特曼被曝出與阿聯(lián)酋政府談判，計(jì)劃籌集“7萬億美元”。

AI時(shí)代出寡頭。

以前做技術(shù)，參與者總有身處浪潮之中的感覺。如今，從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風(fēng)喚雨，也眼巴巴看著投資越來越天文數(shù)字，模型數(shù)據(jù)量也越來越天文數(shù)字，無處排遣“濃濃的科技主義階級(jí)壓迫感”—找到自己的機(jī)會(huì)，也變得越來越難。

Sora面世，“你說什么世界就是什么”

Sora沖擊奧斯卡

大力出奇跡

“造芯”是硬道理

Sora面世，“你說什么世界就是什么”