摘要
Sora作為AIGC的現象級產品,將給內容生產帶來深遠影響。Sora自帶融合屬性,它不僅能給現有的媒介融合添一把猛火,而且還開辟了影像融合、主體融合新路徑。這三重融合(尤其是后面的影像融合、主體融合)將極大賦能內容生產:既給內容生產帶來前所未有的機遇,也給內容生產帶來難以預期的挑戰。
關鍵詞
Sora 媒介融合 影像融合 主體融合
一、Sora :內容生產融合創新的助推器
2024年2月15日,OpenAI公司在推出 ChatGPT不到15個月,公布了旗下首個文生視頻模型Sora,引發世人關注和熱議。從Sora首發48個模型視頻中,人們看到了內容生產融合創新的新形態與新趨勢,可以毫不夸張地說,Sora 必將成為內容生產領域融合創新的助推器。
事實上,Sora并非第一個專注于文生視頻技術的大模型,由生成式視頻模型引發的新一輪“科技革命”在國內外早有端倪。2023年6月,Runway發布了視頻編輯工具Gen-2,可以根據提示詞生成視頻。同年11月,Stability AI 發布Stable Video Diffusion模型;Meta公司推出的Emu Video功能,可以根據純文本、純圖像或組合的文本和圖像輸入來生成視頻。谷歌公司也在2023年12月和2024年1月相繼發布了零鏡頭視頻生成模型VideoPoet和一次性生成視頻模型Lumiere。國內方面,字節跳動已正式發布MagicVideo-V2文生視頻大模型;百度推出了能夠處理文本和圖像組合輸入的統一模態視頻生成系統UniVG;騰訊發布了視頻生成模型VideoCrafter2;阿里打造了自研的 Animate Anyone。
相較于同類型視頻人工智能大模型,Sora 具有生成視頻時間長、多角度、畫面連續且一致等優勢,這些優勢彰顯著Sora在內容生產融合創新的新突破:第一,Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻,而許多同類大模型尚未攻克4秒大關。如OpenAI官方發布的 59 秒樣本視頻,它由64個提示詞(prompt)創作而來。根據提示詞,Sora利用GPT技術強大的理解力能準確地將用戶提示轉換為更長的詳細轉譯,再運用視頻畫面演繹用戶文本,生成具有各種場景和人物的高質量視頻剪輯成片;第二,Sora對人物和場景元素在三維空間中移動的模擬感知能力較強,可以生成帶有動態視角變化的視頻。在OpenAI官方發布的東京街頭漫步的女性樣本視頻中,Sora可以生成多個景別的畫面,既有覆蓋全身和街景的遠景、腳部以上的全景,也有胸部以上的近景和聚焦臉部特征的特寫,通過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野,轉回時也能夠與先前保持一致性,生成的連續性畫面可以加深觀眾的觀看沉浸體驗,增強現實感。若將Sora強大的演繹能力和推理闡述能力應用于智能媒體內容生產中,填補即時新聞在視頻化轉向上的新發展,推理其余景別的畫面、合成多段既有視頻素材、促進內容精準推送等工作中,視頻制作的速度及傳播力均可能得到顯著提升。
從文本生成模型GPT、文生圖像模型 DALL·E,再到文生視頻模型Sora,OpenAI 公司在生成式人工智能的探索逐漸拓展,或已打造出了一條具有前瞻性的人工通用智能(Artificial General Intelligence,簡稱AGI)技術路線。Sora作為一種AIGC技術,它是結合GPT和DALLE的思路迭代而來的文本、圖像、視頻生成視頻模型,它創新了視頻生成的方式,也標志著人工智能在理解人類社會真實世界場景并與之互動方面邁出重大一步。
Sora的出現必將極大推動內容生產融合創新,這種融合創新將體現在三個層面:第一個層面就是原有的媒介融合;第二個層面為已經開始的影像融合;第三個層面則是將要開始的主體融合。媒介融合、影像融合、主體融合,三者合為一體,Sora為代表的 AIGC 將把內容生產的融合創新推向新的高度。
二、Sora 與媒介融合
當前的技術社會并非“社會的社會”,而是“聯結的社會”,其現代化的本質便是聯結[1]。自 2013 年以來,“媒介融合”概念歷經縣級融媒體中心建設、全媒體傳播體系等延續發展,目前已進入媒介融合的“深水區”,政策層面的關注度與重要性只增不減。科技的車輪滾滾向前,AI 技術的參與有助于實現建設媒介融合內容生成、分發、管理和優化的智能融媒形態,新聞媒體需把握好發展機遇,特別是抓住Sora準確的闡釋能力、強大的內容生產能力,采用超越采寫交互的傳統思路,緊跟時代潮流,匯集優勢資源,堅持將技術賦權、賦能、賦魂的思想嵌入媒介融合的整體架構。
當前,AIGC技術已超越簡單的采寫交互訓練,深度嵌入媒體整體架構中,優化資源配置,放大協同效能,勾勒人機共生的和諧發展藍圖。在內容分發方面,美聯社建設標記系統,通過圖像識別來優化內容,創建編輯驅動的計算機視覺分類法,既節省了制作時間,還有助于更輕松地呈現內容。AIGC 技術還助力智能算法日趨完善,浙江日報報業集團旗下的傳播大腦科技(浙江)股份有限公司不斷創新浙報特色的推薦算法,借助AIGC技術構建起一套全新的推薦引擎,平衡公共性與商業性,讓智能算法與主流信息傳播有機融合。在AIGC深化賦能融媒建設的路徑方面,具體演進可從新華社和阿里巴巴合資打造的“媒體大腦”發展歷程窺見一斑。2017年12月 26日,中國第一個媒體人工智能平臺“媒體大腦”對外發布,通過該平臺,新華社推出了大量創意與科技融合的 MGC(Machine Generated Content)視頻智慧新聞,主要運用AIGC技術聚焦新聞生產的前期階段。2019年11月26 日,“媒體大腦3.0”正式發布,這是國內第一個面向融媒中心的智能化解決方案。它以區塊鏈和AI技術為顯著特征,集成更大規模的人工智能模塊和數據模塊,依托AI技術從媒介的采、策、查、產、審、發、評、傳等全業務環節進行流程重構,以整體解決方案的形式賦能各類融媒體中心。
由此可見,AIGC技術在媒介融合領域的賦能是逐步推進的,而Sora的出現更讓“AIGC+媒介融合”有了新的突破亮點,除了生成新聞文本,形式上還可以生成更接近視頻化社會轉向的內容,超越媒介融合的簡單相加,過渡到深度相融,豐富應用于組織架構等階段,促進以算法為邏輯、以大數據為資源、以算力為支撐而形成的全天候自動智能生產走進現實。Sora的橫空出世,其文本闡釋的準確性和對既有視頻的補償性修復等進步,極大地降低了非專業公眾創作失敗的機率,在質量有所保證的前提下,增加創意短視頻、AI 合成影視作品的出品效率。在Sora的加持下,AI技術滲透視頻生產的程度還會進一步加深,用戶借助Sora的技術支持,未來預計 UGC(User-Generated Content,用戶生產內容)參與的視頻新聞數量持續增加,用戶規模也會擴大,人人皆可隨心所欲地創作視頻的時代指日可待。
三、Sora 與影像融合
Sora不僅可以根據文字生成視頻,還能根據圖片生成視頻,根據視頻生成視頻,這一功能提升視頻影像的優化空間,幫助已有的視頻素材更加詳細地完善細節。在前Sora時代,公眾的靈感和創意配合Midjourney+Runway等AI 大模型,已經可以基本完成將自己的科幻暢想轉化為畫面,創建個性檔案的訴求,還可以通過提示詞將自己過往的記憶定格成畫面,作為可視化的永久影像志留存。隨著更加成熟的Sora問世,不同類型影像之間的轉換方式操作更加便捷,視頻素材在真實空間和動畫空間中自由切換,在靜態和動態畫面中選擇最契合用戶的需求形態呈現。根據“在一座華麗的、歷史悠久的大廳中,一股巨大的海嘯達到了頂峰,并開始下降。兩名沖浪者抓住機會,熟練地駕駛著浪頭。”提示詞制作的靜態畫面,生成內容雖逼真、精美且具有藝術氣息,但Sora將其拓展成視頻后,滔天海浪由遠及近,直逼屏幕而來,動態影像所帶來的緊迫感讓用戶代入感十足,有效彌補靜態影像缺失的想象部分。
需要指出的是,此視頻非彼視頻,Sora所生產的視頻本質上是虛擬影像。Sora基于真實提示詞生成的虛擬影像,一方面助力個體的想象轉化為創新,影像內容超越現實真實,具備后現代主義的“超真實”特征,與虛擬真實相互嵌入、滲透,走向融合;另一方面,使用Sora技術融合影像,打破了既有的影像生產方式。既有的新聞采寫模式是“七分采,三分寫”,整體新聞的生產模式建立在事實基礎上,先有事實后有報道。但隨著Sora文生視頻、圖生視頻的能力不斷深化學習升級,新聞可以從基礎事實出發,根據虛擬話語擬像展開生成,虛實敘事交織生成與新聞文本呼應的闡釋畫面。這一變化若新聞媒體抓好可轉化為機遇,前提是準確認識工具理性與價值理性的關系,恰當應用Sora提高新聞素材生成效率,更好地適應“視頻化社會”的需求轉向,甚至可以幫助“中央廚房”中各部門盤活原始素材流動,優化共享資源模式。
生成式AI視頻大模型具備出色的采樣能力,與以往的生產相比,是去“物質化”的。由 Sora生成的所有一切畫面都可以視作是基于數據的、算法的、電子的“虛擬物質”。鮑德里亞(Baudrillard)用“超真實”形容后現代性,意指現實事物被擬像吞噬進毫無對照、自我指涉的符號世界而呈現一種“比真實還真實”的狀態。Sora基于“問/答”對話式的文本生成視頻內容,通過算法將提示詞從一個儲存龐大且自我生成的“擬真”視覺符號體系中,抽取制造符合共通意義的符號信息,制造對應影像畫面。根據鮑德里亞的“擬像”理論,Sora 類的視頻大模型生產機制也可分為三個階段:初期生成式AI技術大多以“仿造”人類既有素材的形式出現,符號的指代與對應單一且明確,“擬像”大多遵循自然規律和法則存在;到了第二階段,隨著機器學習素材的基礎數量增大,無限機械化地復制生產內容使視頻的“靈韻”喪失,符號意義出現差異性指代,生產中原本加入的真實素材批次縮減;最后一個階段,AI 技術生產的不再是復制真品而是生產真品,符號成為機器獨立的創造物,其所指不再起源于自然或任何現實而是思想與精神的物化,連意指本身都消解在記錄和解碼中[2]。Sora 生成視頻數量的逐步增加,虛擬視頻畫面于現實世界的滲透也不斷加重,量變積攢到一定程度,必然加速影像敘事領域中現實真實和虛擬真實的自然界限模糊。加之視頻化的影像并非靜止畫面,具有流動不居的線性變化特征,影像將人們所處的現實時空壓縮后以視覺符號的形式呈現,久而久之,由Sora生成的“超真實”物質不僅會深刻影響著人們的價值理念和思考路徑,更可能直接重塑了人們的現實體驗。
四、Sora" 與主體融合
新聞因人而精彩,新聞為人而存在,在以往的內容生產中,人始終是唯一的主體,是“以人為本”內容生產奉行的不二法則。如今,AI技術加持下傳播的大模型生產、算法分發等技術的興起,使機器、技術、算法等正逐漸成為生產過程中新的賦權者與賦能者,并逐步滲透到生活的各個方面。人機關系的世界觀和認識論也發生了轉變,由“人是機器”轉向“機器是人”。在Sora為代表的AIGC中,人不再是內容生產的唯一主體。換言之,AI通過深入參與也成了內容生產的主體。
2006年,杰弗里·辛頓(Geoffrey Hinton)提出了“深度學習”的概念,開發了一系列基于神經網絡的深度學習算法,應用在計算機視覺、語音識別系統、自然語言處理等領域,后“深度學習”延伸為人工智能的核心技術之一[3]。生成式人工智能的算力基礎是人工智能,自然也具備深度學習、自我學習、自我進階的能力。海量場景模擬與實踐模擬算力支撐下的AIGC技術,其處理信息的路徑正無限逼近人類,開始具備人的主體性功能。以人工智能大模型為例,華盛頓郵報的寫作機器人Heliograf在2016年美國大選過程中,一共撰寫了850余篇文章,其中有500多篇點擊超過50萬。
再如Sora,它不僅可以準確闡釋創作者的意圖,甚至可以基于Transformer的擴散模型,沿時間線向前或向后拓展視頻,這種預測、推理能力通常是超越人腦極限的技能。大模型強大的內容生成能力,窄化了人在其中的作用,長此以往,人機深度交互的背景下,大模型的地位和作用自會愈發重要,機器不再充當人機之間端口的“傳話者”角色,而是直接模擬路徑,給出最佳決策,成為“執行者”。反觀“人”這一側,依附于大模型的計算,可能逐漸養成惰性的線性思考習慣,減弱甚至喪失“人”在內容創作中的主體性,而淪為大模型的 “附庸”。
通常人工智能的發展分為三個階段:專用人工智能、通用人工智能與超級人工智能。目前仍處在第一個發展階段,主要研究解決特定問題的專用人工智能[4]。機器與人的主體融合也可以分為以下幾個階段:第一階段,人工智能作為人進行內容生產的工具,彼時技術依附于人制造內容;第二階段,人工智能大模型與人的融合程度進一步加深,交織成為彼此的“合伙人”,人提供想象力和創意,人工智能配合提供效率和拓展闡釋的能力,共同作用于內容生產;第三階段,人工智能大模型逐漸成熟,一旦產生獨立的自我意識,便可能走向凱文·凱利(Kevin Kelly)口中的失控狀態,與人類走出一副并行不悖的平行線。
以Sora為代表的生成式人工智能,具有強大的內容生產能力和自我進化技能,在這方面甚至遠超我們人類。盡管目前Sora只是加速 AGI 實現的可能路徑,并沒有達到普遍行業認可的 AGI標準,還不具備人類特有的情感和支配創作的視野及能力。但假以時日,Sora在內容生產方面追趕甚至超過人類這個主體,應該并非難事。
五、三重融合下 Sora 給內容生產帶來的挑戰
在媒介融合、影像融合、主體融合視野下, Sora給內容生產帶來了無限機遇,但與此同時,也會帶來挑戰。
其一是職業道德的稀釋。在PGC(職業生產內容)時代,職業道德成為內容生產領域的行為準則,行業從業者都自覺遵行、踐行職業道德。在 UGC(用戶生產內容)時代,由于內容生產領域涌入大量職業道德素養較低,甚至沒有職業道德意識的普通用戶,行業從業者無需邁過行業門檻,職業道德不可避免地遭到稀釋,一些踐踏行業底線的行為屢見不鮮。
Sora的加入,無疑將使內容生產領域的職業道德雪上加霜。一方面從業者進行內容生產者的門檻進一步放低(甚至沒有了門檻),從業者的職業道德素養與職業道德意識勢必會水降船低;另一方面,內容生產在Sora助力下,新形態新業態將不斷涌現,有很多信息產品都超越了傳媒產品的范疇,這也使得既有的職業道德在日新月異的實踐面前無所適從、捉襟見肘。
其二是深偽影像的泛濫。Sora生成虛擬影像還帶來深度偽造的思考。深度偽造一詞出現于人工智能和機器學習技術時代,又稱深度造假(Deepfake),指的是利用計算機的“深度學習”技術,即生成式對抗網絡(generative adversarial network,簡稱GAN),實現圖像、聲音、視頻的“偽造”,通常效果高度逼真且難以甄別[5]。比如,近期“AI復活已故明星”等定制視頻在網上多次引發討論;在世界各地選舉中,由Sora之類軟件產生的虛假信息也是滿天飛。
深偽影像肯定存在倫理問題,這一點是毫無疑義的。但這并不影響深偽影像仍然泛濫成災,尤其是在社交媒體上。有了Sora的助力,深偽影像的生產難度與生產成本都大為降低,逼真性卻大大加強,在數量增加質量提升的現實下,甄別深偽影像也將越來越難。還有一種所謂的半真實影像,也就是真實影像與深偽影像的混合體,更是讓人真假難辨。
其三是人文精神的喪失。Sora預示了人工智能在不斷進化之后會朝著情感化、邏輯化的道路狂奔,Sora的自主意識將大為增強,總有一天人工智能將會變成“機器”智能。凱文·凱利(Kevin Kelly)指出,在將生命的力量釋放到我們所創造的機器中的同時,我們也喪失了對他們的控制[6]。人們不禁思考,以人工智能為代表的新機器和“第四次工業革命”是否造成人文精神的喪失,使“機器為本”的思想甚囂塵上。
2021年11月,聯合國教科文組織通過《人工智能倫理問題建議書》,并呼吁各國積極響應、展開合作,在國家層面制定人工智能規范措施。2023年10月26日,中國在第三屆“一帶一路”國際合作高峰論壇上發布《全球人工智能治理倡議》,其中針對性地提出以人為本、智能向善、尊重主權主張,明確了“以人為本”的人機關系基礎與人工智能未來發展基本原則。傳統內容生產的過程是以人為主體,大模型為輔助的形式進行的,人仍然占據生產中大部分的主體性。而當機器效率技術不斷提升時,在內容生產中的參與度也愈發升高,甚至成為傳播的主要媒介。由此可見,“以人為本”的倫理關系仍是人機協同強調的基礎準則。
結語
馬歇爾·麥克盧漢(Marshall McLuhan)有一個著名的說法:“我們透過后視鏡來觀察目前,我們倒著走向未來。”[7]基于此,對任何新生媒介形態或技術的展望,都是站在既有技術的研究支持下進行的,研究以Sora為代表的生成式視頻模型不外乎也是如此,很難跳出過往生成式人工智能研究的影響限制。目前學界、業界對Sora的擔憂仍主要集中媒介倫理、內容真實性等維度。筆者認為,Sora配合OpenAI公司已有的深度學習能力不斷進化升級,對不足和缺陷的彌補速度必將超出想象,各界不妨抱有開放樂觀的心態,潛心探索共建人機交互的新圖景。可以預見的是,當Sora為代表的視頻大模型技術成熟并普及應用后,它們生產的內容將大規模、海量地沖擊人類社會既有的信息場域,比如本文提出的Sora將大大推進媒介融合、影像融合、主體融合,而Sora給內容生產帶來的變革將永遠是進行時而非完成時。
參考文獻:
[1]布魯諾·拉圖爾.我們從未現代過:對稱性人類學論集[M].劉鵬,安涅思,譯.蘇州:蘇州大學出版社,2010:47-50.
[2]鮑德里亞.完美的罪行[M].王為民,譯.北京:商務印書館,2000:8.
[3]Geoffrey Everest Hinton et al,A Fast Learning
Algorithm for Deep Belief Nets[J].Neural Computation,
2006(7):1527-1554.
[4]陳昌鳳,霍婕.以人為本:人工智能技術在新聞傳播領域的應用[J].新聞與寫作,2018(8):54-59.
[5]陳昌鳳,徐芳依.智能時代的“深度偽造”信息及其治理方式[J].新聞與寫作,2020(4):66-71.
[6]凱文·凱利.失控[M].張行舟等.譯.北京:電子工業出版社,2016:7.
[7]MCLUHAN M.The Medium is the Massage:an inventory of effects[M].New York:Dial Press,1967:73.