AI改變視頻行業(yè)“新工業(yè)革命”浪潮將至？

2024-03-01 12:00:04

科學(xué)大觀園 2024年5期

2月16日，曾以大模型ChatGPT震驚全球的人工智能科技公司OpenAI時(shí)隔約一年再次祭出新“王炸”——文生視頻大模型Sora。只需向其輸入一段文本指令，即可生成一段60秒的視頻，畫(huà)面效果精致細(xì)膩，幾可亂真。

從生成文本、圖片，到如今的視頻領(lǐng)域，業(yè)內(nèi)不禁驚呼：“AI成長(zhǎng)速度比想象中更快！”有人對(duì)此振奮，認(rèn)為Sora的出現(xiàn)或意味著通用人工智能的實(shí)現(xiàn)時(shí)間大幅縮短。也有人表達(dá)擔(dān)憂：“我們是否真的準(zhǔn)備好了？”但無(wú)論如何，一場(chǎng)由AI領(lǐng)銜的“新工業(yè)革命”浪潮的氣息似乎已撲面而至。

Sora何以驚艷全球？事實(shí)上，它并非首個(gè)文生視頻大模型。此前，科技巨頭谷歌，創(chuàng)業(yè)公司Runway、Pika Labs等都已布局這一賽道，也有相關(guān)應(yīng)用問(wèn)世。但相比此前發(fā)布的應(yīng)用，Sora將生成視頻的時(shí)間大幅延長(zhǎng)至60秒，其畫(huà)面在細(xì)致逼真、流暢程度、三維空間多角度呈現(xiàn)等方面也有明顯提升。

Sora的橫空出世讓AI浪潮更直接地席卷至視頻領(lǐng)域。“太震撼，感覺(jué)要丟飯碗了。”北京某文化傳播有限公司創(chuàng)始人胡娟坦言，自己的公司專注拍攝企業(yè)宣傳片、廣告片、短視頻等，Sora讓她危機(jī)感陡增，“這些可能變成AI學(xué)習(xí)的樣板，一些復(fù)雜的特效制作，以前工期至少得好幾天，但AI將其縮短到了幾分鐘。”開(kāi)設(shè)了個(gè)人工作室的攝影師李浩楠也認(rèn)為，Sora對(duì)影視相關(guān)的產(chǎn)業(yè)影響比較大，能大幅拉低制作成本，特別是涉及多角度多機(jī)位的視頻，如果AI能夠部分替代人工拍攝和剪輯，“成本可能只要原有的十分之一”。

Sora的技術(shù)突破也讓大大小小生成式AI創(chuàng)業(yè)公司和投資機(jī)構(gòu)的前景變得充滿挑戰(zhàn)。某專注全球早中期企業(yè)的風(fēng)投公司運(yùn)營(yíng)合伙人羅超表示，Sora表現(xiàn)出的領(lǐng)先性讓Runway、Pika Labs等視頻生成大模型明星公司面臨強(qiáng)烈沖擊，而相比這些自研大模型的公司，純做應(yīng)用的創(chuàng)業(yè)公司則更加前途未卜。在AI生成視頻應(yīng)用和技術(shù)服務(wù)商新壹科技CEO雷濤看來(lái)，Sora的誕生，無(wú)疑會(huì)改變AI視頻生成市場(chǎng)格局。“就國(guó)內(nèi)而言，要看哪些企業(yè)能結(jié)合、利用新技術(shù)，完善符合國(guó)情的產(chǎn)品，比如提供定制化的視頻生成服務(wù)、跨業(yè)態(tài)合作等。”

而跳出視頻領(lǐng)域，更為深廣的變革也已大步向前。

小狗在雪地玩耍濺起紛飛的雪粒，毛茸茸的毛發(fā)根根分明、隨風(fēng)浮動(dòng)；咖啡杯里，一只帆船掀起翻涌的波浪水紋；不同角度的街景通過(guò)運(yùn)鏡流暢地呈現(xiàn)……在Sora此次展現(xiàn)的一批生成視頻樣本中，360集團(tuán)創(chuàng)始人周鴻祎談到了幾個(gè)讓他印象深刻的鏡頭，“我們知道動(dòng)物的毛發(fā)、水波紋等，在傳統(tǒng)的3D建模中是非常復(fù)雜的，需要耗費(fèi)大量的人力和時(shí)間去制作，但Sora為什么能夠如此快速地生成？”

對(duì)此，周鴻祎提出了自己的猜想。他認(rèn)為，Sora或已經(jīng)具備了“觀察并模擬世界的能力”。“就好像一位人類畫(huà)師，他腦海中有著對(duì)世界的認(rèn)知，就可以畫(huà)出來(lái)，而不需要通過(guò)每根毛發(fā)、每個(gè)點(diǎn)去建模。”

基于這種猜測(cè)，周鴻祎認(rèn)為Sora的顛覆性絕不僅僅限于一個(gè)文字生成視頻的工具，而是通用人工智能對(duì)世界的理解又一次得到了突破。一年前，ChatGPT標(biāo)志著人工智能對(duì)人類語(yǔ)言和知識(shí)的理解達(dá)到了一個(gè)突破點(diǎn)。而除此之外，這個(gè)世界還有很多規(guī)律，例如小狗拱雪雪會(huì)留在鼻子上、無(wú)人機(jī)在空中飛時(shí)視角如何變換等，而Sora目前生成的視頻，顯示它對(duì)這個(gè)世界的規(guī)律有了更為完整的了解。而這意味著，通用人工智能時(shí)代或?qū)⒓铀俚絹?lái)。

Sora的出現(xiàn)也引發(fā)了國(guó)內(nèi)許多業(yè)界人士的擔(dān)憂，“中美AI領(lǐng)域差距進(jìn)一步拉大”成為Sora問(wèn)世后的伴生話題。周鴻祎認(rèn)為，“OpenAI訓(xùn)練的Sora應(yīng)該會(huì)閱讀大量視頻。一幅圖勝過(guò)千言萬(wàn)語(yǔ)，而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過(guò)一幅圖”，因此Sora的出現(xiàn)可能意味著通用人工智能“真的就不遠(yuǎn)了”，“不是10年、20年的問(wèn)題，可能一兩年很快就可以實(shí)現(xiàn)”。他表示，盡管國(guó)內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT3.5，但實(shí)際上跟4.0比還有一年半的差距。從現(xiàn)在來(lái)看，OpenAI手上除了GPT5之外，可能還有一些“秘密武器”沒(méi)有亮出來(lái)。“中國(guó)和美國(guó)的AI差距可能不但沒(méi)有縮小，反而在加大。”

新智元?jiǎng)?chuàng)始人楊靜認(rèn)為，Sora的震撼給我們?nèi)齻€(gè)提醒。第一是在算法方面，OpenAI在攻破語(yǔ)言和視覺(jué)兩個(gè)堡壘后，即將向通用人工智能發(fā)起最后挑戰(zhàn)；一旦實(shí)現(xiàn)超級(jí)人工智能，加上生成式的AI世界，人類整體的權(quán)重都將降維。第二是在算力方面，OpenAI公布籌資7萬(wàn)億美元建立芯片帝國(guó)的計(jì)劃，這筆巨款相當(dāng)于美國(guó)GDP的1/4，或許將確立壟斷全球算法與算力的AI霸主地位。第三是在數(shù)據(jù)方面，微軟此前為OpenAI提供了5000億視頻用于Sora訓(xùn)練，未來(lái)還將有更多海量數(shù)據(jù)涌入，又有更多視頻生成。

中國(guó)人工智能專家吳甘沙表示，目前AI領(lǐng)域的競(jìng)爭(zhēng)格局是OpenAI公司“一騎絕塵”。無(wú)論是谷歌的Gemini、創(chuàng)業(yè)公司Runway和Pika，還是中國(guó)的頂尖公司，都要奮起急追，不然差距會(huì)越來(lái)越大。他認(rèn)為，中國(guó)要在AI領(lǐng)域追趕，首先是依靠人才，確保與世界頂尖水平的交流，鼓勵(lì)人才高密度聚集。“美國(guó)大模型相關(guān)的大公司加創(chuàng)業(yè)公司可能就一二十家，而中國(guó)有幾百家，人才太分散”。其次是不能太短視，要允許失敗，給予足夠的發(fā)展時(shí)間。再次是不要過(guò)度監(jiān)管，寬進(jìn)嚴(yán)出，讓不完全成熟的技術(shù)通過(guò)不斷反饋得以提升。同時(shí)算力也是AI發(fā)展的稀缺資源，更不應(yīng)該太分散了。

雖然驚艷，但Sora目前生成的展示視頻仍有不少“穿幫”鏡頭。比如，在展示一名老奶奶吹蠟燭的視頻中，老奶奶吹氣后蠟燭卻沒(méi)有熄滅；在另一段玻璃杯從空中墜落的視頻中，玻璃杯被抬到半空時(shí)，桌上就已經(jīng)有水流出來(lái)了。

北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉曾多次參加中美之間的人工智能技術(shù)官方和學(xué)界層面對(duì)話，他告訴記者，在這些對(duì)話活動(dòng)中有一個(gè)深刻感觸就是“中美學(xué)者對(duì)于兩國(guó)人工智能技術(shù)發(fā)展的認(rèn)識(shí)趨同”。大家普遍認(rèn)為，美國(guó)在AI技術(shù)的軟件和硬件上更具領(lǐng)先優(yōu)勢(shì)，而且這個(gè)優(yōu)勢(shì)還有進(jìn)一步擴(kuò)大的趨勢(shì)；但在技術(shù)應(yīng)用和數(shù)據(jù)收集方面，美國(guó)學(xué)者坦言中國(guó)更具優(yōu)勢(shì)，而在AI領(lǐng)域，“大數(shù)據(jù)正好是輔助決策模型的重要組成部分”。

此外，在人機(jī)協(xié)同和人機(jī)融合領(lǐng)域，中美技術(shù)能力旗鼓相當(dāng)。“這也是美國(guó)三番五次與中國(guó)開(kāi)展人工智能技術(shù)對(duì)話的原因之一，雙方實(shí)力相當(dāng)，才有對(duì)話的意愿，美國(guó)方面也很擔(dān)心我們?cè)谌藱C(jī)協(xié)同上實(shí)現(xiàn)重大突破，從而占據(jù)領(lǐng)先地位。”

雖然驚艷，但Sora目前生成的展示視頻仍有不少“穿幫”鏡頭。比如，在展示一名老奶奶吹蠟燭的視頻中，老奶奶吹氣后蠟燭卻沒(méi)有熄滅；在另一段玻璃杯從空中墜落的視頻中，玻璃杯被抬到半空時(shí)，桌上就已經(jīng)有水流出來(lái)了。

這也是目前這一大模型所展現(xiàn)出的明顯短板——不懂物理世界。對(duì)于這一弱點(diǎn)，OpenAI也不避諱，坦言Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，并且可能無(wú)法理解因果關(guān)系。“我們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界。”O(jiān)penAI稱，他們的目標(biāo)是訓(xùn)練模型，從而幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題。

從GPT到Sora，AI的成長(zhǎng)速度讓人驚嘆。而面對(duì)可能襲來(lái)的“新工業(yè)革命”，我們真的準(zhǔn)備好了嗎？在中國(guó)政法大學(xué)傳播法研究中心副主任朱巍看來(lái)，大模型所生成的視頻代表著AI對(duì)這個(gè)世界規(guī)律的理解，但這不一定都是正確的，因此也讓“眼見(jiàn)不一定為實(shí)”。根據(jù)此前國(guó)家網(wǎng)信辦等部門(mén)發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》，AI生成視頻應(yīng)進(jìn)行相關(guān)標(biāo)識(shí)，以免形成誤導(dǎo)。此外，創(chuàng)作者僅用一段文字就能生成視頻，極大地降低了視頻制作門(mén)檻，這一視頻的版權(quán)歸屬等問(wèn)題也需要重新梳理界定。