
2月16日,曾以大模型ChatGPT震驚全球的人工智能科技公司OpenAI時(shí)隔約一年再次祭出新“王炸”——文生視頻大模型Sora。只需向其輸入一段文本指令,即可生成一段60秒的視頻,畫(huà)面效果精致細(xì)膩,幾可亂真。
從生成文本、圖片,到如今的視頻領(lǐng)域,業(yè)內(nèi)不禁驚呼:“AI成長(zhǎng)速度比想象中更快!”有人對(duì)此振奮,認(rèn)為Sora的出現(xiàn)或意味著通用人工智能的實(shí)現(xiàn)時(shí)間大幅縮短。也有人表達(dá)擔(dān)憂:“我們是否真的準(zhǔn)備好了?”但無(wú)論如何,一場(chǎng)由AI領(lǐng)銜的“新工業(yè)革命”浪潮的氣息似乎已撲面而至。
Sora何以驚艷全球?事實(shí)上,它并非首個(gè)文生視頻大模型。此前,科技巨頭谷歌,創(chuàng)業(yè)公司Runway、Pika Labs等都已布局這一賽道,也有相關(guān)應(yīng)用問(wèn)世。但相比此前發(fā)布的應(yīng)用,Sora將生成視頻的時(shí)間大幅延長(zhǎng)至60秒,其畫(huà)面在細(xì)致逼真、流暢程度、三維空間多角度呈現(xiàn)等方面也有明顯提升。
Sora的橫空出世讓AI浪潮更直接地席卷至視頻領(lǐng)域。“太震撼,感覺(jué)要丟飯碗了。”北京某文化傳播有限公司創(chuàng)始人胡娟坦言,自己的公司專注拍攝企業(yè)宣傳片、廣告片、短視頻等,Sora讓她危機(jī)感陡增,“這些可能變成AI學(xué)習(xí)的樣板,一些復(fù)雜的特效制作,以前工期至少得好幾天,但AI將其縮短到了幾分鐘。”開(kāi)設(shè)了個(gè)人工作室的攝影師李浩楠也認(rèn)為,Sora對(duì)影視相關(guān)的產(chǎn)業(yè)影響比較大,能大幅拉低制作成本,特別是涉及多角度多機(jī)位的視頻,如果AI能夠部分替代人工拍攝和剪輯,“成本可能只要原有的十分之一”。
Sora的技術(shù)突破也讓大大小小生成式AI創(chuàng)業(yè)公司和投資機(jī)構(gòu)的前景變得充滿挑戰(zhàn)。某專注全球早中期企業(yè)的風(fēng)投公司運(yùn)營(yíng)合伙人羅超表示,Sora表現(xiàn)出的領(lǐng)先性讓Runway、Pika Labs等視頻生成大模型明星公司面臨強(qiáng)烈沖擊,而相比這些自研大模型的公司,純做應(yīng)用的創(chuàng)業(yè)公司則更加前途未卜。在AI生成視頻應(yīng)用和技術(shù)服務(wù)商新壹科技CEO雷濤看來(lái),Sora的誕生,無(wú)疑會(huì)改變AI視頻生成市場(chǎng)格局。“就國(guó)內(nèi)而言,要看哪些企業(yè)能結(jié)合、利用新技術(shù),完善符合國(guó)情的產(chǎn)品,比如提供定制化的視頻生成服務(wù)、跨業(yè)態(tài)合作等。”


而跳出視頻領(lǐng)域,更為深廣的變革也已大步向前。
小狗在雪地玩耍濺起紛飛的雪粒,毛茸茸的毛發(fā)根根分明、隨風(fēng)浮動(dòng);咖啡杯里,一只帆船掀起翻涌的波浪水紋;不同角度的街景通過(guò)運(yùn)鏡流暢地呈現(xiàn)……在Sora此次展現(xiàn)的一批生成視頻樣本中,360集團(tuán)創(chuàng)始人周鴻祎談到了幾個(gè)讓他印象深刻的鏡頭,“我們知道動(dòng)物的毛發(fā)、水波紋等,在傳統(tǒng)的3D建模中是非常復(fù)雜的,需要耗費(fèi)大量的人力和時(shí)間去制作,但Sora為什么能夠如此快速地生成?”
對(duì)此,周鴻祎提出了自己的猜想。他認(rèn)為,Sora或已經(jīng)具備了“觀察并模擬世界的能力”。“就好像一位人類畫(huà)師,他腦海中有著對(duì)世界的認(rèn)知,就可以畫(huà)出來(lái),而不需要通過(guò)每根毛發(fā)、每個(gè)點(diǎn)去建模。”
基于這種猜測(cè),周鴻祎認(rèn)為Sora的顛覆性絕不僅僅限于一個(gè)文字生成視頻的工具,而是通用人工智能對(duì)世界的理解又一次得到了突破。一年前,ChatGPT標(biāo)志著人工智能對(duì)人類語(yǔ)言和知識(shí)的理解達(dá)到了一個(gè)突破點(diǎn)。而除此之外,這個(gè)世界還有很多規(guī)律,例如小狗拱雪雪會(huì)留在鼻子上、無(wú)人機(jī)在空中飛時(shí)視角如何變換等,而Sora目前生成的視頻,顯示它對(duì)這個(gè)世界的規(guī)律有了更為完整的了解。而這意味著,通用人工智能時(shí)代或?qū)⒓铀俚絹?lái)。
Sora的出現(xiàn)也引發(fā)了國(guó)內(nèi)許多業(yè)界人士的擔(dān)憂,“中美AI領(lǐng)域差距進(jìn)一步拉大”成為Sora問(wèn)世后的伴生話題。周鴻祎認(rèn)為,“OpenAI訓(xùn)練的Sora應(yīng)該會(huì)閱讀大量視頻。一幅圖勝過(guò)千言萬(wàn)語(yǔ),而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過(guò)一幅圖”,因此Sora的出現(xiàn)可能意味著通用人工智能“真的就不遠(yuǎn)了”,“不是10年、20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)”。他表示,盡管國(guó)內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT3.5,但實(shí)際上跟4.0比還有一年半的差距。從現(xiàn)在來(lái)看,OpenAI手上除了GPT5之外,可能還有一些“秘密武器”沒(méi)有亮出來(lái)。“中國(guó)和美國(guó)的AI差距可能不但沒(méi)有縮小,反而在加大。”
新智元?jiǎng)?chuàng)始人楊靜認(rèn)為,Sora的震撼給我們?nèi)齻€(gè)提醒。第一是在算法方面,OpenAI在攻破語(yǔ)言和視覺(jué)兩個(gè)堡壘后,即將向通用人工智能發(fā)起最后挑戰(zhàn);一旦實(shí)現(xiàn)超級(jí)人工智能,加上生成式的AI世界,人類整體的權(quán)重都將降維。第二是在算力方面,OpenAI公布籌資7萬(wàn)億美元建立芯片帝國(guó)的計(jì)劃,這筆巨款相當(dāng)于美國(guó)GDP的1/4,或許將確立壟斷全球算法與算力的AI霸主地位。第三是在數(shù)據(jù)方面,微軟此前為OpenAI提供了5000億視頻用于Sora訓(xùn)練,未來(lái)還將有更多海量數(shù)據(jù)涌入,又有更多視頻生成。
中國(guó)人工智能專家吳甘沙表示,目前AI領(lǐng)域的競(jìng)爭(zhēng)格局是OpenAI公司“一騎絕塵”。無(wú)論是谷歌的Gemini、創(chuàng)業(yè)公司Runway和Pika,還是中國(guó)的頂尖公司,都要奮起急追,不然差距會(huì)越來(lái)越大。他認(rèn)為,中國(guó)要在AI領(lǐng)域追趕,首先是依靠人才,確保與世界頂尖水平的交流,鼓勵(lì)人才高密度聚集。“美國(guó)大模型相關(guān)的大公司加創(chuàng)業(yè)公司可能就一二十家,而中國(guó)有幾百家,人才太分散”。其次是不能太短視,要允許失敗,給予足夠的發(fā)展時(shí)間。再次是不要過(guò)度監(jiān)管,寬進(jìn)嚴(yán)出,讓不完全成熟的技術(shù)通過(guò)不斷反饋得以提升。同時(shí)算力也是AI發(fā)展的稀缺資源,更不應(yīng)該太分散了。

雖然驚艷,但Sora目前生成的展示視頻仍有不少“穿幫”鏡頭。比如,在展示一名老奶奶吹蠟燭的視頻中,老奶奶吹氣后蠟燭卻沒(méi)有熄滅;在另一段玻璃杯從空中墜落的視頻中,玻璃杯被抬到半空時(shí),桌上就已經(jīng)有水流出來(lái)了。
北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉曾多次參加中美之間的人工智能技術(shù)官方和學(xué)界層面對(duì)話,他告訴記者,在這些對(duì)話活動(dòng)中有一個(gè)深刻感觸就是“中美學(xué)者對(duì)于兩國(guó)人工智能技術(shù)發(fā)展的認(rèn)識(shí)趨同”。大家普遍認(rèn)為,美國(guó)在AI技術(shù)的軟件和硬件上更具領(lǐng)先優(yōu)勢(shì),而且這個(gè)優(yōu)勢(shì)還有進(jìn)一步擴(kuò)大的趨勢(shì);但在技術(shù)應(yīng)用和數(shù)據(jù)收集方面,美國(guó)學(xué)者坦言中國(guó)更具優(yōu)勢(shì),而在AI領(lǐng)域,“大數(shù)據(jù)正好是輔助決策模型的重要組成部分”。
此外,在人機(jī)協(xié)同和人機(jī)融合領(lǐng)域,中美技術(shù)能力旗鼓相當(dāng)。“這也是美國(guó)三番五次與中國(guó)開(kāi)展人工智能技術(shù)對(duì)話的原因之一,雙方實(shí)力相當(dāng),才有對(duì)話的意愿,美國(guó)方面也很擔(dān)心我們?cè)谌藱C(jī)協(xié)同上實(shí)現(xiàn)重大突破,從而占據(jù)領(lǐng)先地位。”
雖然驚艷,但Sora目前生成的展示視頻仍有不少“穿幫”鏡頭。比如,在展示一名老奶奶吹蠟燭的視頻中,老奶奶吹氣后蠟燭卻沒(méi)有熄滅;在另一段玻璃杯從空中墜落的視頻中,玻璃杯被抬到半空時(shí),桌上就已經(jīng)有水流出來(lái)了。
這也是目前這一大模型所展現(xiàn)出的明顯短板——不懂物理世界。對(duì)于這一弱點(diǎn),OpenAI也不避諱,坦言Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無(wú)法理解因果關(guān)系。“我們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界。”O(jiān)penAI稱,他們的目標(biāo)是訓(xùn)練模型,從而幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題。
從GPT到Sora,AI的成長(zhǎng)速度讓人驚嘆。而面對(duì)可能襲來(lái)的“新工業(yè)革命”,我們真的準(zhǔn)備好了嗎?在中國(guó)政法大學(xué)傳播法研究中心副主任朱巍看來(lái),大模型所生成的視頻代表著AI對(duì)這個(gè)世界規(guī)律的理解,但這不一定都是正確的,因此也讓“眼見(jiàn)不一定為實(shí)”。根據(jù)此前國(guó)家網(wǎng)信辦等部門(mén)發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》,AI生成視頻應(yīng)進(jìn)行相關(guān)標(biāo)識(shí),以免形成誤導(dǎo)。此外,創(chuàng)作者僅用一段文字就能生成視頻,極大地降低了視頻制作門(mén)檻,這一視頻的版權(quán)歸屬等問(wèn)題也需要重新梳理界定。