
摘要
文生視頻大模型 Sora的問世,意味著 AI正式叩響“影像制作”的大門,既有的傳媒業態、社會生態亦會由此迎接新的場景,強大的生產效率、持續的學習能力、復雜的數據來源將會對傳播的內容、通道甚至模式產生深遠影響。由此,探討 Sora 的技術框架及其可能帶來的機遇與挑戰是目前學界亟待探索的熱門話題,本文旨在深入解析 Sora 的技術框架,探討其內部邏輯如何實現對物理世界的模擬與再現,并進一步分析其為傳播生態帶來的革新與危機。
關鍵詞
Sora 技術框架 傳播生態
一、從深度學習到技術融合:“視頻世界模擬器”創新影像技術
從技術的底層邏輯出發,Sora程序的核心是一個經過預先訓練的擴散轉換器(Diffusion Transformer)[1]。具體拆解來看,這一程序可以被拆分為兩個核心板塊,其一為負責像素視頻編碼與解碼的生成板塊,其二為負責解析用戶需求的語義匹配板塊。因此,Sora的出現匯聚了目前關于圖像生成與語義解讀的多類深度學習模型的技術成果,其工程與邏輯方面的創新與兼容促使其能夠更好地完成從“理解”到“產出”的生產過程,而創造力的極大釋放也開始讓AI影像制作不再是簡單的“科技玩具”。
(一)人工智能影像的生成邏輯
在Sora程序正式發布之前,AGI(通用人工智能)領域經歷了從生成式文本到生成式圖像的演進與發展,諸如 ChatGPT、DeepArt、Midjourney 等多種程序的陸續登場展示了 AI 在創作型文本與圖像方面的潛力。直觀來看,影像視頻就是對“圖像”的時空延伸與擴展,其基本原理更像是對前有理論與模型的一種集成和加強[2]。
從生成邏輯來看,Sora等AI影像生成程序需要以人類創作者的要求為描述性指令(prompt),通過自有的模型生成出多幀圖像,并將其通過時間邏輯串聯成為可播送的視頻。這樣的流程首先需要依托于生成對抗網絡(Generative Adversarial Networks)等常見的深度學習模型,保證AI能夠不斷通過自主學習來擴充其數據庫和完善“模仿”能力,從而提升其生成視頻對于現實世界的仿真度;其次,由于影像解析與生成的復雜性,為了提升 AI 的承載能力,程序還需要一個“降維空間”來對視頻素材進行編碼與解碼。而由于生成式程序服務于人類創作者的要求,程序也需要搭載大型語言模型(Large Language Model)以完成對自然語言的處理。
(二)人工智能影像的技術路徑
從逆向分析內部結構的角度來看,Sora程序通過三個具體的結構串聯起了視頻生成與語義匹配兩個核心板塊,其中低維潛在空間與編碼解碼器共同組成了生成部分,而條件機制則單獨為語義部分服務。在運行過程中,Sora會預先經過編碼的形式將原始的素材庫進行降維,將像素畫面以“潛在表示”的形式進入作為信息樞紐的低維空間,隨后在進行除噪后保留關鍵信息,以供模仿學習。而此時,如果人類創作者輸入了有關的指令,解碼器就會開始工作,進行語義匹配后通過“擴散”的形式逐步將潛在表示輸出為若干個視頻幀,并通過一定的邏輯排列后抵達創作者端。由此在生成板塊與語義板塊的配合之下,一個精準且具有邏輯的視頻即可完成產出。
Sora的運行模式集結了圖像處理與模仿以及語義匹配兩類不同的AIGC 技術,具有一種“兼容”的天然優勢。比如,在模仿與擴散階段,潛在空間能夠保證其更為高效地處理素材,避免由于視頻文件的復雜度而影響生存效率;同時,對抗網絡的存在也能夠不斷幫助AI更好地“欺騙”監視器,從而讓其生成的內容更具仿真度;語義匹配在語言模型的基礎上也能夠確保生成的內容符合于創作者的需求,避免無效的冗余信息。因此,Sora對于視頻智能生成領域的技術革新是基于已有基礎模型的,亦是極其有效的。
二、從效率升級到智慧融通:“視頻世界模擬器”重塑傳播生態
任何新技術的出現,除了代表一種可供使用的“新型工具”,還反映著技術演變的某些規律[4]。Sora的誕生讓AI生成的視頻時長擴充至1分鐘,為視頻內容創作者們提供了一件更為趁手的工具,也必然在一定程度上對人類的傳播思維、模式、結構產生重塑,并從不同的角度直接影響和改變著現有的傳播業態。而值得關注的是,Sora 的探索絕非獨立于使用者,也就是人類之外,它所產生的無限可能反而預示著人人可參與、智慧可融通的未來,它也為我們觀察人在智能機器時代的角色與定位提供了新的視角。
(一)超低門檻:產能釋放再造全新起點
Sora程序的出現極大縮減了微視頻影像的制作流程,讓曾經的“腳本編寫、分鏡設計、拍攝布景、現場錄制、后期剪輯”等復雜龐大的團隊作業濃縮入了能夠通過模擬不斷學習的“黑箱”裝置之中,其化繁為簡的能力,以及生成式人工智能共有的“高效”優勢成為其吸引更多人嘗試的關鍵因素。與此同時,流程簡化帶來的成本銳減更是AI生產的又一“刺點”,少則一天多則半月的時間成本也壓縮至了分鐘單位,傳統拍攝中需要累加的人力物力幾乎可以實現倍數級縮減,內容創作者的試錯機會也隨之增多。可以說,在Sora的助力和加持之下,嘗試成為“視頻制作者”對于具備在聊天框輸入信息指令能力的龐大互聯網用戶群體而言,已經變得仿若一場游戲,而游戲式的傳播與生產代表的正是對抗權利分層固化的“大眾力量”。
威廉·弗盧塞爾(Vilém Flusser)曾在《技術圖像的宇宙》中預言,借由技術生產的加持,人們會近乎狂熱地利用鍵盤制作出難以磨滅的信息,享受成為創作者的游戲[5]。一方面,AI技術在用戶操作層面的超低門檻抹去了繁瑣的條件限制,提供了一個相對更為平等與自由的生產空間,固有的話語權力分配體系在技術的賦能下再次松動,容許部分曾被拒之門外的“普通網民”參與其中,進而探索新的分配規則;另一方面,這種無需太多成本的創作模式也降低了嘗試的“心理準入閥”,游戲式輕松愉快的參與讓用戶們脫離了傳統評價標準的凝視與束縛,敢于進行一些“天馬行空”的創作,從而挑戰由專業者制定的審判規則,達成相對自由與無拘無束的創作氛圍。總的來說,在AI帶來的對話式生產游戲中,大眾群體得到了抹去其技能虧欠與心理負擔的配平砝碼,視頻生產者被不同程度地拖拽到了新的起跑線上,期許更加公平、多元的話語空間,并由此促進傳播交往的繁榮。
(二)超大承載:持續模仿集結人類智慧
盡管視頻創作者通過輸入指令文本,并借助對抗式模擬的創作模式,似乎賦予了AI極大的創作空間與“自主權利”[6],但深入分析便可發現,所有生成式作品的真實源頭始終是人類創作的已有成品集合。學界關于其版權爭端話題的討論,也恰恰揭示了優質生成式影像內容的本質——它們并非個體所有,而是代表了被納入數據庫和模仿庫中的所有人類作品的精粹。從群體智慧的角度來看,生成式AI已超越了單純物體的范疇,它成為人類在知識獲取、保留和分享過程中認知能力的重要延伸[7]。換言之,它是人類整體智慧的集結與再調配的載體。生成式人工智能技術,作為集結人類智慧的新新媒介,利用其遠超普通人的學習能力,集納海量資源,并對這些原始智慧進行再理解和深度挖掘,從而實現傳承與提升。在此基礎上,視頻創作領域或將迎來前所未有的發展通路,實現嶄新的飛躍。
而將“內容”元素置于傳播過程鏈中作為傳播的一個關鍵要素后,這種飛躍就不僅停留于內容創作的水準和質量之上,更是影響到了智慧的播撒與擴散進程。生成式AI在吸納人類的“智慧”的同時,也為加速“智”的傳播提供了強大的動力。同時,Sora程序對生產效率的提升除了客觀上能夠將凝結“群體智慧”的產品推廣到更多更廣泛的受眾節點,幫助更多人接受智的“教育”之外,還足以利用自身強大的學習模擬能力實現對人類的反哺,從而延伸人的認知范疇。這種雙向互動的模式,使得“人類在機器的幫助下更加聰慧”的愿望在螺旋上升的循環中逐漸變為現實。特別是在跨文化交流領域,生成式AI的多語言能力和強接收模仿能力還能發揮出一些縮減文化折扣的作用,減輕由于文化語境、地理區隔、政治觀念等構筑出的“智”的傳播壁壘,助力智慧的跨“邊界”擴散,亦提升人類智慧集合圈的包容性與囊括范圍。
三、從機器宰制到真實幻滅:“視頻世界模擬器”引發交往危機
縱觀技術的發展歷程不難發現,智能技術的介入往往擁有“利于”人類的出發點,它們由人創造而來用以協助工作的工具。“視頻世界模擬器”的誕生從這種意義上說也是人在創造一個可以更好地用動態畫面存續和表達現實世界的工具,逐步接近于馬歇爾·麥克盧漢(Marshall Mcluhan)所說的“人類延伸的最后一環”[8],實現感知能力的無限延展。但是,這種“工具”也往往附帶著對人某種“缺點”的包容,并能夠利用它們逐步反客為主,侵襲傳播倫理甚至異化人與社會。就像智能分發在包容人的“選擇性心理”時引發“信息繭房”的猜想一樣,智能生成亦會在包容人的“惰性”的同時導向“媒介依賴”“單向度的人”等危機,提醒人們在為 Sora的技術突破喝彩的同時也不能不警惕可能伴隨而至的負面影響與異化效果。
(一)依賴與馴化:個體用戶服從機器思維
Sora 等生成式 AI 的運行邏輯讓作為用戶的創作者拿起了發布指令的“指揮棒”,成為AI的“命令者”,可以借由算力的支撐以極低的代價完成視頻作品的制作。這種低操作門檻極大地提升了創作的效率與便捷度,然而,與之相伴的卻是技術依賴的悄然滋生。在這種技術的縱容之下,過往需要從現實社會生活中汲取經驗性材料,并通過“靈感”將其串聯出個性作品的創作模式被創作者們放棄,置換成一種拋卻“思考”、立等可取[9]的簡單途徑。但是,在看不見的裝置黑箱中,“人類創作者”的角色卻在逐漸邊緣化,成為長串流程中的一個初始環節。這種邊緣化不僅削弱了創作者的主體地位,更使得他們在享受快捷生成的同時面臨著“不思進取”的風險,個人價值在機器的高效運作下被工具價值所取代, “創作”的靈韻在機械的復制中被消磨。
更為危險的是,使用機器、依賴機器的過程中還暗含著對機器思維上的迎合。人們為了達成“讓AI理解指令從而生成出正確的作品”的目的,必須不斷學習與機器溝通的技巧,而由于人與工具的差異性,這一過程中不乏需要讓渡自身的思維觀念以達成與機器的精準配對。人們意愿上的配合開始潛移默化地讓機器加入以往由人與人組成的傳播與交往鏈條,而 AI 強大的工具屬性會逐步展現出將他人取而代之的能力,將“人-人”改寫為“人-機器”,形成一個新的閉環。在這樣的閉環之中,機器反而成為規則的制定者,人看似擁有發布號令的指揮權,實際上卻遵從于AI程序的思維方式和交往條件,異化成了被機器宰制的“單向度的人”,甚至逐漸喪失保持自我思考的能力。
(二)仿真與篡改:擬態環境的再擬態化
多模態技術的發展以及對抗式學習模型的進步,讓Sora程序生成的作品不僅擁有復雜的元素堆疊和場景切換,還能夠極大程度上還原現實景觀,甚至讓虛構出的環境與物逃過人類的常識性判斷,不斷貼近“世界模擬器”的構想。高度的仿真能力持續吞噬著虛擬與真實的邊界,也讓人們對于真實的信任更加岌岌可危。20世紀 20 年代,美國著名新聞學者沃爾特·李普曼( WalterLippmann)曾提出“擬態環境”說,指出人們通過媒介認識的世界不等于現實,而只是敘事修飾過的“擬態”真實[10]。而在智能技術的發展之下,媒介建構的擬態世界不僅在構筑人們對世界的認知,也成了生成式 AI 抓取形成數據庫的素材。這意味著AI生成的所有內容本質上是對“媒介敘事”的再塑和模仿,它們僅僅能夠代表對人類觀念的表征而非對現實的表征[11],只是對媒介構筑的“擬態環境”的再擬態化。
斯帕羅(Sparrow)等人在《科學》雜志上提出并論證“谷歌效應”指出,人們對互聯網的記憶依賴能夠消除人與人之間分享記憶信息的需要,并瓦解將重要信息存入生物式記憶系統的沖動[12]。這意味著仿真的生成式內容雖然無法成為“真實”,但能夠填充入人的記憶之中,且可能不會在與他人的交談中被證偽和甄別,乃至因其在網絡空間中的長期停駐而成為多年之后群體的集體記憶。而集體記憶除了在傳播的儀式觀中承擔“賦予儀式感”的角色之外,也會在時間的推移之下成為“歷史”的一部分感性記錄,那么,如果 AI 創作的虛構內容在無意之間攜帶了偏見與傾向,這些錯誤的訊息就可能形象被留駐在記憶之中,成為歷史中的共識。而就世界格局而言,先進的智能技術只會發源于發達的少數國家,這些模型也優先被技術資源更強的數據與場景投喂,在高度仿真與強感染力的加持下,實現文化和意識形態入侵將變得簡單輕易,傳遞歧視與偏見也會變得更根深蒂固和難以察覺。
結語
人工智能介入到視頻影像內容的生產領域,存在于過往科幻小說中的“虛擬世界”,擁有了一個更具光環的名字,“模擬現實”“虛擬生存”成為AI發展的重要方向。盡管在目前看來,元宇宙依然是遙不可及的想象,與之伴生的概念炒作也消耗了不少科技魅力,甚至被人評價為引人眼球的“商務噱頭”,但為這一構想服務的通用人工智能技術卻始終在以迅猛的速度發展進步。從ChatGPT到DeepArt到Sora,從文本到靜態圖像再到活動影像,生成式人工智能僅用不到兩年時間已經到達了足以讓部分人類無法識別其內容生產的程度,并且持續引發著諸如“人是否會被AI替代”的討論。本文從技術框架的角度入手,通過分析Sora對傳播生態的影響,闡述其可能帶來的機遇與危機,回應了這一問題。Sora的誕生是人類在技術領域豐碑式的成果,其初衷一定是用以提高生產效率、提高內容真實度與質量,從而服務于人類的視頻創作工作,從目的上而言是無意于“取代”人類的;而從結果上來講,即使強大的模仿能力和巧妙的降維能力已經可以讓不少AI生成作品做到高度還原“以假亂真”,但其依然會出現思維邏輯方面的錯誤,讓AI在時空維度完全等同于人類在現階段并不可能,因此從結果論上直接判定其能夠取代傳統視頻生產亦是杞人憂天。人類不斷求證AI是否會取代自己更多展現的是一種居安思危式的心理訴求,就像筆者擔憂Sora的出現可能會異化人的思維、割裂人的交往,其本質是期望應用技術的人能夠不完全被“懶惰”操縱,不斷提醒自己動用主觀能動性避免成為技術的勞工,而非真的擔心人已經完全淪為技術的奴仆。
在人與機器的和諧共生道路上,機器是高效的工具,亦是提醒人拔高“技術素養”與“媒介素養”的鐘鳴,聞其聲就會反復自省回歸理性,就不會完全為“智能”所替代。
參考文獻:
[1]W.Peebles and S.Xie,Scalable diffusion models"with transformers[C].IEEE/CVF International Conferenceon Computer Vision,2023:4195-4205.
[2]郭全中,張金熠.作為視頻世界模擬器的Sora:通向 AGI 的重要里程碑[J].新聞愛好者,2024(04):9-14.
[3]Yixin Liu,Kai Zhang,Yuan Li et al.Sora:A Review on Background,Technology,Limitations,and Opportunities"of Large Vision Models[EB/OL].(2024-02-27)[2024-03-10].https://arxiv.org/pdf/2402.17177v1.pdf
[4]彭蘭.從ChatGPT透視智能傳播與人機關系的全景及前景[J].新聞大學,2023(4):1-16.
[5][巴西]威廉·弗盧塞爾.技術圖像的宇宙[M].李一君,譯.上海:復旦大學出版社,2021:73.
[6]高永杰,呂欣.生成式AI技術進化與圖像藝術生產范式革新[J].現代傳播,2023(9):159-168.
[7]喻國明,滕文強.生成式AI對短視頻的生態賦能與價值迭代[J].學術探索,2023(7):43-48.
[8][加]馬歇爾·麥克盧漢.理解媒介:論人的延伸[M].何道寬,譯.北京:商務印書館,2000:5.
[9]黃旦.作為人類文明進程動因的媒介[J].新聞記者,2023(6):3-10.
[10][美]沃爾特·李普曼.輿論學[M].林珊,譯.北京:華夏出版社,1989:240.
[11]陳露菡.作為技術圖像的AI繪圖:本質與未來走向[J].青年記者,2023(11):89-91.
[12]Sparrow,B.,Liu,J.Wegner,D.M.(2011).Googleeffects on memory:Cognitive consequences ofhavinginformation at our fingertips[J].Science,333(6043):776-778..