榮智慧

必須承認(rèn),目前的AI只有一位主角,OpenAI。
它的聊天機(jī)器人ChatGPT,不上法學(xué)院就通過了律師資格考試。現(xiàn)在,它的最新模型Sora,不上電影學(xué)院就有希望拿到奧斯卡獎(jiǎng)。
Sora于2月16日上線,根據(jù)文本提示,可創(chuàng)建長(zhǎng)達(dá)一分鐘的逼真視頻。這些視頻呈現(xiàn)“多個(gè)角色,特定類型的動(dòng)作,以及充滿細(xì)節(jié)的復(fù)雜場(chǎng)景”。
現(xiàn)在Sora還沒有開放使用,未來會(huì)提供給“數(shù)量有限的創(chuàng)作者”,售價(jià)應(yīng)該不便宜。
Sora面世后,如ChatGPT一樣刷屏全球媒體。
OpenAI首席執(zhí)行官山姆·奧特曼熱情接受網(wǎng)友“點(diǎn)單”,在X上放送多個(gè)Sora繪制的精美視頻??萍冀绱罄袟盍⒗?、賈揚(yáng)清、Jim Fan、謝賽寧、周鴻祎、李志飛等人競(jìng)相評(píng)論,馬斯克直接感慨“人類愿賭服輸”。
OpenAI的獨(dú)角戲時(shí)代,對(duì)普通人而言是技術(shù)平權(quán)的好事,對(duì)AI從業(yè)者來說卻是沉重的壓迫。最高興的是誰呢?造芯片的。
Sora得名于日語“天空”一詞。研究團(tuán)隊(duì)成員蒂姆·布魯克斯和比爾·皮布爾斯介紹,選擇這個(gè)名字,是因?yàn)樗堋皢酒馃o限的創(chuàng)造潛力”。
官方網(wǎng)站貼出了Sora創(chuàng)作的東京街頭視頻?!懊利惖?、白雪皚皚的東京市,鏡頭穿過熙熙攘攘的城市街道,跟隨幾名行人享受美妙的雪天,有人在路邊小攤購(gòu)物。絢麗的櫻花與雪花一起在風(fēng)中飛舞?!?/p>
另一個(gè)視頻根據(jù)如下提示詞產(chǎn)生“:幾只巨大的、毛茸茸的猛犸象,踩著白雪皚皚的地面走近,風(fēng)吹動(dòng)它們身上的長(zhǎng)長(zhǎng)毛發(fā),遠(yuǎn)處是白雪覆蓋的高大樹木和雄偉山脈,午后的光線營(yíng)造出溫暖的光芒?!?/p>
有了提示詞,Sora就“知道”如何用鏡頭語言講故事。
比爾·皮布爾斯用一個(gè)“海洋視頻”舉例,該視頻根據(jù)“一個(gè)華麗的珊瑚礁世界”等描述創(chuàng)建,畫面充斥著五顏六色的魚類和海洋生物。Sora通過變化攝像機(jī)的角度和進(jìn)程,創(chuàng)造出了“敘事節(jié)奏”。
“實(shí)際視頻里有多個(gè)鏡頭變化—這些變化不是拼接在一起的,而是由模型一次性生成的,”皮布爾斯說,“我們沒有告訴它這樣做,它自動(dòng)這樣做的?!?/p>
Sora最令人吃驚的本事,就是沒有經(jīng)過訓(xùn)練而自行創(chuàng)造的能力。
Sora模型基于Transformer架構(gòu),建立在DALL·E 3和GPT模型之上,這是OpenAI綜合利用自家前沿技術(shù)方面的又一次突破。它有三大核心特點(diǎn),“60秒超長(zhǎng)長(zhǎng)度”“單視頻多角度鏡頭”,以及“世界模型”,一舉打敗所有同類競(jìng)品。
在此之前,AI視頻生成領(lǐng)域的明星產(chǎn)品Runway和Pika,只能做3秒或4秒長(zhǎng)的模糊視頻,角色形象也很扭曲,還得用戶輸入圖片—受技術(shù)水平所限。
像YouTube火爆的AI視頻迷因“威爾史密斯吃面條”,用網(wǎng)友的話說“完美地用視覺效果傳達(dá)出洛夫克拉夫特式恐怖”—人物面目猙獰,看了一宿睡不著覺。
而Sora達(dá)到了驚人的高清照片級(jí)真實(shí)感,“運(yùn)鏡”手法更令人難忘—圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫等不同鏡頭的切換。
雖然“東京街頭飄雪”視頻里,兩個(gè)角色走著走著就要走進(jìn)死胡同;“猛犸象”視頻里,前頭兩只猛犸象有點(diǎn)“順拐”;“戴墨鏡的時(shí)髦女子”左手拇指比例不對(duì);被咬了一口的餅干沒有牙印……但Sora的整體視覺呈現(xiàn)效果依然無可匹敵。
Sora發(fā)布的同一天,谷歌DeepMind推出Gemini 1.5 Pro,幾乎沒搶到什么眼球。去年大火的Stability AI也發(fā)布了新視頻模型SVD1.1,自覺“技不如人”,又火速刪除了該條官方推文。
跟一年多以前橫空出世的ChatGPT一樣,OpenAI的秘訣一直是屢試不爽的Scaling Law(縮放定律)。只要模型足夠“大”,根據(jù)特定算法,就會(huì)產(chǎn)生智能“涌現(xiàn)”的能力。
當(dāng)然,一般的機(jī)構(gòu)和公司,也沒有能力達(dá)到OpenAI的水平。別小看“大力出奇跡”,前提是你得有那么“大力”。
Sora模型基于Transformer架構(gòu),建立在DALL·E 3和G P T模型之上,這是OpenAI綜合利用自家前沿技術(shù)方面的又一次突破。
Sora是一種AI模型,使用文本到視頻的合成技術(shù),按文本提示生成視頻。這種技術(shù)將自然語言轉(zhuǎn)換為視覺表示形式—圖像或視頻。
深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ),它是一個(gè)帶有Transformer骨架的擴(kuò)散(Diffusion)模型,AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。Sora就是從“學(xué)習(xí)”的大型視頻數(shù)據(jù)集里學(xué)會(huì)了各種風(fēng)格、主題和流派。
Transformer模型本質(zhì)是一個(gè)“編碼器-解碼器”,輸入原始語言,生成目標(biāo)語言。擴(kuò)散模型的原理是先給數(shù)據(jù)添加高斯噪聲,再反向去除,從中恢復(fù)數(shù)據(jù)本貌。
簡(jiǎn)單粗暴地理解Sora的原理,就是翻譯器+搜索引擎+概率制作(內(nèi)容)。
首先,拿到提示詞后,Sora先分析文本,提取關(guān)鍵字,比如主題、動(dòng)作、地點(diǎn)、時(shí)間和情緒,再?gòu)乃臄?shù)據(jù)集里搜索與關(guān)鍵字匹配的、最合適的視頻。
其次,Sora將數(shù)據(jù)集里合適的視頻混合在一起,重新創(chuàng)建一個(gè)符合要求的視頻。在“創(chuàng)造”的過程中,它要“知道”場(chǎng)景中有哪些對(duì)象和角色,它們的外形,它們?nèi)绾芜\(yùn)動(dòng),對(duì)象如何交互,以及受到環(huán)境影響后如何表現(xiàn)。
根據(jù)用戶的喜好,Sora會(huì)修改視頻的風(fēng)格。假如用戶想要一個(gè)35毫米膠片樣式的視頻,Sora會(huì)調(diào)整效果,更改圖像的亮度、色彩和攝像機(jī)角度。這一點(diǎn)和MidJourney等“文生圖”應(yīng)用類似。
Sora可以生成分辨率1920x1080的視頻。它也可以基于靜止圖片創(chuàng)建視頻,使用新素材擴(kuò)展現(xiàn)有素材。比如用戶給它一張森林圖片,它可以幫你加上鳥、獸、人。給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風(fēng)景。
“補(bǔ)丁”是新方法,類似于ChatGPT里的Token—較小數(shù)據(jù)單元的集合?!把a(bǔ)丁”疊加在一起,湊成完整內(nèi)容。
“世界模型”這一核心特點(diǎn),代表了文本生成視頻領(lǐng)域的最高級(jí)研究方向:通過對(duì)真實(shí)物理世界的模擬,世界模型讓計(jì)算機(jī)像人類一樣全面、準(zhǔn)確地“認(rèn)知”世界。其最根本意義就是“言出法隨”—你說什么,世界就是什么。
世界模型最早由圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模擬整個(gè)世界。

然而,“果子”還是讓OpenAI摘到了。
Sora面世后,楊立昆的看法值得思考。他發(fā)帖說,連接主義是有問題的,符號(hào)主義更有前途。意思就是重?cái)?shù)據(jù)量和網(wǎng)絡(luò)規(guī)模、輕抽象表示和物理結(jié)構(gòu)是不行的;要反過來。
因?yàn)槟P鸵獙W(xué)習(xí)符號(hào)邏輯和物理意義,才能進(jìn)一步理解因果,理解物理現(xiàn)實(shí),否則長(zhǎng)視頻上一定“露餡兒”。
有Sora的能力,何愁“元宇宙”遙遙無期?
《頭號(hào)玩家》的世界近在眼前:帶上蘋果Vision Pro,打開支持8K視頻的Sora應(yīng)用,想象一個(gè)美好的場(chǎng)景,生成白日夢(mèng),然后成癮。
Sora也讓電視劇《黑鏡》里《Joan Is Awful》一集變?yōu)楝F(xiàn)實(shí)。女主角發(fā)現(xiàn)自己的生活與電視劇驚人相似。隨著情節(jié)推進(jìn),她逐漸揭露真相,一個(gè)根據(jù)觀眾個(gè)性、喜好及生活經(jīng)歷生成的復(fù)雜系統(tǒng),已經(jīng)滲入普通人的生活。
隨著Sora技術(shù)的更新和應(yīng)用,新的娛樂時(shí)代近在眼前。所有的文化產(chǎn)品都不再是單向度的敘述和輸出,而是能反應(yīng)、適應(yīng)每一位觀眾獨(dú)特偏好的互動(dòng)“游戲”。
當(dāng)人工智能越發(fā)顯現(xiàn)出無所不能的力量之時(shí),基于人類作為社群而不僅僅是種群的生命經(jīng)驗(yàn)、社會(huì)經(jīng)驗(yàn)提出問題,解決問題,仍然是我們“老調(diào)重彈”的挽尊之道。
如今,從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風(fēng)喚雨,無處排遣“濃濃的科技主義階級(jí)壓迫感”—找到自己的機(jī)會(huì),也變得越來越難。
不過,在強(qiáng)調(diào)“想象力奪權(quán)”之前,最緊張的反而是芯片制造商:視頻模型的競(jìng)爭(zhēng)和語言模型相差不遠(yuǎn),先是拼團(tuán)隊(duì)的工程化調(diào)參能力,最后就是拼算力。
就在OpenAI首席執(zhí)行官奧特曼開口“7萬億美元造芯片”前后,AI芯片賽道人滿為患。
AI芯片傳統(tǒng)三巨頭里,占有98%市場(chǎng)份額的英偉達(dá),憑借近年人工智能的東風(fēng),2月23日,市值達(dá)到1.96萬億美元,超越亞馬遜和谷歌。AMD和英特爾還在緊追不舍。
Meta于2月公布最新的自研定制芯片計(jì)劃。2月17日,軟銀集團(tuán)創(chuàng)始人孫正義宣布籌措1000億美元,成立AI芯片企業(yè),以便與前幾年收購(gòu)的芯片設(shè)計(jì)公司ARM互補(bǔ)。
據(jù)The Information統(tǒng)計(jì),截至目前,全球有超過18家用于AI大模型訓(xùn)練和推理的芯片設(shè)計(jì)初創(chuàng)公司,包括Cerebras、Graphcore、壁仞科技、摩爾線程、d-Matrix等,融資總額已超過60億美元,企業(yè)整體估值共計(jì)超過250億美元。背后的投資方包括紅杉資本、OpenAI、五源資本、字節(jié)跳動(dòng)等。
各家爭(zhēng)先“造芯”,最引人注目的還是OpenAI。
去年,CEO奧特曼就開始為代號(hào)Tigris的芯片制造項(xiàng)目籌錢,當(dāng)時(shí)號(hào)稱要籌集100億美元,希望生產(chǎn)出類似谷歌TPU、英偉達(dá)H100等芯片。2023年9月,OpenAI還招募了搞軟硬件協(xié)同的著名牛人Andrew Tulloch。
2024年1月,奧特曼到訪韓國(guó),會(huì)見韓國(guó)三星電子和SK海力士高管,尋求芯片領(lǐng)域的合作。2月,奧特曼被曝出與阿聯(lián)酋政府談判,計(jì)劃籌集“7萬億美元”。
AI時(shí)代出寡頭。
以前做技術(shù),參與者總有身處浪潮之中的感覺。如今,從業(yè)者們眼巴巴看著黃仁勛、奧特曼呼風(fēng)喚雨,也眼巴巴看著投資越來越天文數(shù)字,模型數(shù)據(jù)量也越來越天文數(shù)字,無處排遣“濃濃的科技主義階級(jí)壓迫感”—找到自己的機(jī)會(huì),也變得越來越難。