文生視頻技術的影響與倫理風險

2024-01-01 00:00:00李理路瑩瑩

媒體融合新觀察 2024年3期

摘要

Sora模型標志著向構建全面模擬物理世界前進的一大步，展示了生成式人工智能在現實復刻上的深遠能力。該模型的推出不僅開啟了視覺敘事的新篇章，而且能夠把抽象的想象力轉換成動態的視覺呈現，實現了將文字的精髓轉化為視覺藝術的過程。在這個由數字技術和算法驅動的時代，Sora正重新塑造著人類與數字世界之間的互動關系。本文以Sora為代表的大模型為例，探討文生視頻技術的出現在眾多創意領域的革命性潛力，包括電影、短視頻、微劇乃至新聞傳播等多個行業。然而，對人工通用智能（AGI）的追求往往伴隨著嚴峻的倫理風險，包括深度偽造內容的增多、對人權的潛在威脅、技術濫用的風險以及對知識產權保護的挑戰，誘發人們進行關于技術應用反思的討論，并審視技術進步對社會價值觀和認知框架的影響。為確保技術應用的長期持續性和負責任的進展，確保所生成內容的準確性和完整性顯得尤為關鍵。

關鍵詞

Sora 生成式人工智能倫理風險

自2022年11月ChatGPT發布以來，AI技術的興起象征著一次深刻的變革，它不僅重塑了人機互動模式，而且深度融入日常生活和各行各業的方方面面[1]。基于這一勢頭，OpenAI于2024 年2月發布了Sora，一款能夠根據文本提示生成視頻（Text to Video，T2V）的先進AI模型。這些視頻既可以是現實場景，也可以是想象中的場景。與之前的視頻生成模型相比，Sora的特點是能夠生成長達1分鐘的高質量視頻，同時保持對用戶文本指令的遵守[2]。Sora模型的卓越性能體現在其能夠構建細致入微的場景，包括多個角色在復雜背景下的特定動作，以及人物與場景元素和攝像機運動的一致性模擬。此外，Sora能夠有效地模擬物理世界的互動，實現不同主題和場景之間的無縫過渡，并且能夠在視頻風格和環境之間進行轉換，甚至實現視頻內容的時間延伸，即視頻的“續寫”。Sora不僅能夠從文本生成視頻，還能通過圖像和現有視頻資料生成新視頻，同時具備文本到圖像（Text to Image）的生成功能。Sora的技術進步得益于深度學習（Deep Learning）、擴散模型（Diffusion Models）和多模態變換器（Multimodal Transformers）等先進技術的綜合運用[3]。其創新之處在于將這些復雜的技術集成在一個模型中，實現從簡單文本到復雜視頻的直接轉換，標志著T2V技術的重大進展。

Sora所創作的內容被喻為“真實世界的模擬器”，其對物理世界的精確模擬展示了對現實世界規則的深刻理解和再現。這種全方位的模擬不僅僅是對現實世界各種要素的挖掘和重組，更是對人類與客觀經驗世界之間媒介角色的一次重新審視。Sora大模型作為未來媒介的濫觴，預示著數字文明的新范式，將重新定義對“真實”的認知。本文旨在探討Sora這一視頻生成模型的出現，將如何影響影視、短劇和傳媒行業的發展。在這一過程中，筆者將深入分析Sora技術的應用前景，以及它可能帶來的倫理挑戰，包括但不限于虛假信息的傳播、個人隱私的侵犯以及道德責任的模糊界限。通過對這些問題的探討，可以更好地理解Sora技術的雙刃劍特性，以及它在未來社會中的角色和影響。

一、Sora對影視、短視頻產業影響幾何？

每一次技術的進步，都會引發人類社會對既有規則的擔憂。依賴文生視頻大模型，Sora最先改變的極有可能就是影視行業的游戲規則。此次 Sora 憑借其卓越的文本理解和視頻生成能力，已經顛覆了人們對影視制作的傳統認知。從文生圖、文生文，到文生視頻能力的進階、迭代，這一技術將如何重塑影視行業的生產模式和創作關系？

（一）技術突破與創作自由的交匯

在傳統影視制作中，創作電影杰作是一個艱巨而昂貴的過程，往往需要數年的努力、尖端的設備以及大量的投資。以技術含量最高的科幻電影為例，《流浪地球》的特效制作耗時兩年多，最終完成了超過2000個特效鏡頭。據報道，電影預算高達5000萬美元，其中相當一部分用于后期特效制作。然而，先進的視頻生成技術出現預示著電影制作新時代正在到來，從簡單的文本輸入中自主制作電影的夢想正在成為現實。MovieFactory應用擴散模型從ChatGPT精心制作的腳本中生成電影風格的視頻，這是一個重大的飛躍。Mobile VidFactory更是能夠根據用戶提供的簡單文字自動生成垂直移動視頻。可以想象，隨著大模型技術的進一步應用，特效制作的時間有望從數月縮短至數天，這將極大地降低電影拍攝的時間成本和技術門檻，為電影制作帶來新的維度，將傳統的敘事藝術與AI驅動的創造力相結合。

盡管Sora目前僅能生成最長一分鐘的視頻，這一限制在一定程度上減少了其在內容創作上的靈活性。對于90分鐘左右的電影而言，無疑對Sora計算能力的精細程度、素材庫存儲的豐富程度提出了極高的要求。然而，對于短劇行業而言，一分鐘的視頻長度恰好符合微短劇的市場需求。據艾媒咨詢《中國網絡微短劇市場規模的研究報告》顯示，2023 年短劇市場規模已達到373.9億元，兩年內增長了近10倍，接近百年電影市場 549.2億規模的70%[4]。在短視頻和自媒體等社交平臺競爭激烈的當下，Sora能夠迅速生成與熱點相關的視頻內容，確保時效性，從而在流量競爭中占得先機。

（二）加速“視頻化社會”新生態進程

隨著數字技術的不斷進步，人類正見證著一場從文字主導到視頻主導的媒介轉型，這一轉變標志著“視頻化社會”的發軔。在這一社會形態中，影視作品，尤其是短視頻成為當下不可或缺的思想表達方式和信息傳遞載體。根據《2023中國網絡視聽發展研究報告》顯示，近四分之一新網民因短視頻觸網，短視頻“納新”能力遠超即時通信。新入網的網民中，24.3%的人第一次上網時使用的是短視頻應用，與其他應用拉開較大距離[5]。這一現象不僅證明了短視頻作為媒介的吸引力，也暗示了其在社會傳播中的潛在主導地位。但是，與文字相比，視頻的通用性還處在始發階段，遠未成為社會主導媒介[6]。ChatGPT等生成式人工智能技術通過深刻變革文本處理方式，打破了傳統信息處理的邊界，而Sora模型的出現則是降低視頻內容創作門檻的一個里程碑，顯著提高了視頻媒介的通用性和可達性。Sora的推出，促進了可視化媒介空間的構建，這一空間與現實世界相互作用和影響，進一步深化了虛擬與現實的交織，使得人類社會變成一個“現實—虛擬”連續體，其中視頻起著關鍵的作用[7]。

此前孵化過爆火虛擬形象“柳葉熙”的創壹科技，在2024年1月上線了短劇新作《柒兩人生》。該劇90分鐘的總時長中，有60%的內容采用了虛擬制片技術，上線不到 2 小時便迅速沖上熱搜，并在抖音平臺上獲得了高達4.2億次的播放量。這一現象不僅體現了虛擬制片技術的潛力，也預示了該技術在未來娛樂產業中的發展趨勢。更重要的是，以Sora為代表的視頻大模型的出現極大地打破了元宇宙發展的核心桎梏，為元宇宙等前沿領域的未來發展描繪出了充滿無限可能的美好藍圖。生成式人工智能技術的快速發展正在深刻地重塑視頻作品的媒介特性，推動著“視頻化社會”向更深層次的演進。隨著這一進程的加速，可以預見視頻將成為連接個體、社群乃至整個社會的關鍵紐帶，其在教育、娛樂、商業等領域的應用將更加廣泛和深入。

（三）游走在深度偽造與創新的邊緣

2024年2月9日上線的Netflix新劇《殺人者的難堪》運用AI換臉技術，創造出與主演孫錫久極為相似的童年角色，從五官細節到整個人的氣質，和孫錫久本人如同復制粘貼一般。觀眾紛紛表示“就算是親生的，都生不出這么像的。”這一運用不僅展示了AI在影視制作中的巨大潛力，也引發了關于AI技術使用的倫理討論。與 AI換臉技術相比，“文生視頻”的Sora表現得更為簡單粗暴，其對倫理觀念、對真實的理解乃至法律制度提出了更為嚴峻的挑戰。

在生成式人工智能的背景下研究虛假信息至關重要，因為先進的人工智能算法已經日益成為生成和檢測欺騙性信息的工具[8]。Sora等先進的人工智能視頻生成工具，已經將深度偽造（Deep Fake）技術推向了一個新的高度，即所謂的“真實偽造”（Real Fake），創造出一種新的現實感知：在這種現實中，觀眾難以區分何為真實，何為虛構。Sora之所以能夠達到這樣的效果，歸功于其對物理世界各個方面的精細模擬，即便在缺乏3D建模的情況下，也能展現出動態相機運動的3D一致性和對象的遠程一致性，包括對象的持久性以及與環境的簡單互動。例如在數字環境下，Sora能夠控制像《我的世界》這類游戲環境，在維持視覺保真度的同時遵循基本的游戲策略。這些新興能力表明，擴展視頻模型在創建人工智能以模擬物理和數字世界的復雜性方面是有效的。具體到日常生活中的物理規則，如食物被咬下時留下的痕跡，Sora生成的視頻能夠準確反映這些細節，使其產出的內容與現實世界的規律高度一致，進而挑戰人們對真實性的傳統認識。然而，盡管Sora在模擬現實方面取得了顯著成就，但它仍存在技術上的不足。例如，在處理空間位置和對象數量一致性方面的問題，這些問題暴露了當前AI視頻生成技術的局限性。隨著不斷訓練，未來的AI視頻效果或能做到與人工拍攝不相上下的程度，“扔進一部小說，出來一部大片”或許將照進現實。但是也必須警惕其潛在的濫用風險。虛假信息的生成和傳播可能會對社會秩序、公共安全甚至國際關系產生嚴重影響，認識到這一點是防范技術濫用的重要一環。

二、“風暴之眼”：Sora之后的新聞業將何去何從？

生成式人工智能技術，尤其是如Sora模型這樣的先進實例，標志著人工智能領域的一次重大轉型。它的核心突破不僅在于對數據進行深度解析和理解，更在于開辟了通過AI獨立創作內容的新紀元。這種技術進步將AI從一個主要聚焦于數據處理與分析的角色，轉變為具備獨立創作能力、能夠模擬現實乃至構建新的虛擬世界的創作者。在新聞傳播領域，生成式AI如Sora的應用預示著巨大的變革。這一技術能夠使記者和媒體機構快速生產出富有吸引力的視覺內容，為新聞報道添加更多直觀和生動的元素，從而增強觀眾的體驗和互動性。然而，這也帶來了假新聞和誤導性信息擴散的潛在風險，對新聞機構在信息核實和輿論引導方面的職責提出了更高的挑戰。鑒于此，新聞行業在享受生成式AI帶來的便利和創新優勢的同時，必須面對如何確保新聞內容真實性和權威性的重要課題。

（一）突破性：Sora在視覺報道中的應用

以Sora為代表的生成式人工智能技術正引領新聞視覺報道進入一個全新的時代。該技術通過迅速構建包含豐富視覺元素的報道和解釋性視頻，極大地拓展新聞內容的表現力，并顯著提升報道的吸引力和觀眾的參與度。Sora的能力在于模擬真實環境和場景，幫助記者以前所未有的方式傳達復雜的新聞故事，使得原本成本高昂、技術要求嚴格的視頻制作變得簡便易行。

盡管Sora的虛擬創造能力為新聞報道帶來了前所未有的機遇，但它也引發了對新聞真實性的深思。學者鄧建國表示，“新聞報道追求真實（facts），而Sora全是虛擬（fictional），它唯一可以被新聞業利用的也許是建構在新聞事實基礎上的情景再現。”[9]特別是在無法直接獲取現場圖像的災難報道或突發事件中，通過生成高度逼真的動畫來模擬事故現場，既可以幫助公眾更直觀地理解事件，也對事故原因的探究起到了重要作用。以大型自然災害的報道為例，記者可以使用Sora生成一個模擬的災害現場視頻，展示災害發生的過程、影響范圍以及救援行動的布置。這種虛擬重現不僅能夠提供給觀眾更為生動的視覺體驗，也有助于在不可到達的災區進行“現場報道”，從而在不增加現場風險的情況下傳達關鍵信息。此外，Sora技術的應用潛力遠不止于當下新聞的呈現，它還能夠穿越時空的界限，為歷史事件的再現提供強大的支持。通過精心制作的虛擬視頻將觀眾帶回歷史的關鍵時刻，不僅能增強歷史事件的傳播效果，更能以全新的維度為該事件賦予教育與啟示。

（二）危險性：新聞倫理的價值對齊問題

在OpenAI尚未公布Sora模型的具體公開日期之際，其對于新聞倫理和治理的潛在影響已引起業界的廣泛關注。Sora模型的未來發展預示著在提升視頻制作效率和降低成本方面的巨大潛力，但同時也可能引發專業視頻制作領域的職業風險。過于逼真的AI生成視頻可能導致虛假新聞的擴散，對新聞倫理構成嚴重威脅。因此，確保大型生成模型的可信度和安全性成為亟待解決的問題。在眾多應對策略中，模型對齊技術尤為關鍵，目標是使模型的行為和輸出與設計者的意圖及道德標準保持一致，這觸及技術發展、道德責任和社會價值之間的價值對齊[10]。隨著Sora模型在生成內容能力上變得越來越強大，如何避免其被濫用于產生仇恨言論和虛假信息等有害內容，已成為一項緊迫的任務[11]。

為應對由Sora帶來的挑戰，除了內部對模型的精細對齊，還需強化外部安全措施。這包括內容過濾和審查機制、使用權限和訪問控制、數據隱私保護，以及透明度和可解釋性的增強。另外，Sora作為多模態模型（文本到視頻模型），由于能夠理解和生成包括文本、圖像、視頻等各種類型的內容，給安全性又帶來了額外的復雜性。傳統的內容驗證和事實核查手段面對這種新型內容生成模式顯得不再有效，這不僅加劇了濫用和版權問題，也增加了監管和管理的復雜度。因此，開發新的技術和方法以識別和過濾由此產生的有害內容，成為確保技術健康發展的必要之舉。例如，OpenAI通過使用檢測分類器來鑒別視頻是否由Sora生成，并部署文本分類器以識別可能的有害文本輸入，作為防范措施之一[12]。

三、如何策略性引導Sora 的發展與應用？

Sora的問世及其突破性的技術功能，對視聽產業乃至整個傳媒領域產生了深刻的影響。悲觀主義者甚至拋出了“取代人類”的論調。既然 Sora帶來的沖擊無法回避，那么關鍵就在于如何策略性地引導Sora的發展與應用。

首先需要明確認識到，生成式人工智能技術，如Sora本質上仍是一種技術的延伸，類似于為人類提供機械臂的輔助工具。從傳播媒介的角度來看，歷史上每一次新技術的出現，如報紙、廣播、電話、電視和互聯網，都曾引起社會對其所帶來變革的驚嘆。隨著社會的演進和技術的迭代，技術進步本質上是社會發展的催化劑，每一次創新都是一個新的起點，舊技術終將被更先進的技術所替代。面對Sora等新技術的發展，相關行業從業者首先需要做的是理解、接觸并深入了解其背后的底層邏輯，這恰恰是從賦魅到祛魅的過程。當對新技術背后的生成邏輯有足夠認識的時候，恐懼感自然就會消失。

目前，Sora尚處于發展階段，未達到廣泛應用的程度。然而，其發展趨勢已經引起了廣泛的關注和期待。可以預見，隨著Sora等大型模型的逐步開源，它們將為內容創作者提供前所未有的工具，使得視頻內容的創作、編輯和個性化定制變得更加高效和靈活。在新聞報道和某些欄目制作中，由于對真實性有著嚴格的要求，Sora可能暫時無法直接應用。然而，在文藝節目制作、大型活動的宣傳、影視劇動畫片的創作、多語種節目的譯制與推廣，以及新媒體內容的制作與傳播等方面，Sora的應用前景顯得尤為廣闊。只要媒體機構能夠妥善把關，確保內容的真實性和質量，就可以采用這種“拿來主義”的策略，將Sora等文生視頻大模型作為強大的輔助工具，以提升內容創作的速度和質量。

在利用Sora等大型模型的同時，相關行業也需要從自身出發，對技術進行訓練和改進，使其真正成為創作的助手。盡管Sora在視頻生成領域展現出巨大潛力，但它仍無法獨立完成完整的創作過程，尤其是在對生成內容進行詳細修改或優化時。此外，Sora在理解復雜語言指令和捕捉微妙語義差異方面的局限性，可能導致生成的視頻內容無法完全達到創作者的期望。這一限制意味著Sora在視頻編輯和內容增強方面的應用仍有其不足之處，它更多地扮演著參與者的角色，而非獨立的創作者。以HBO的《權力的游戲》為例，這部長篇電視劇的成功不僅在于其宏大的敘事和復雜的人物關系，還在于創作者對細節的精心打磨和對情感層面的深刻挖掘。這樣的作品需要創作者投入大量的情感和智慧，以及對人類社會和心理的深刻理解，這些都是目前Sora等AI模型所無法單獨實現的。

如果說短視頻的成功往往依賴于瞬間的創意，那么新聞報道則需要融入人文關懷和情感考量，而感人至深的長篇影視作品則更加離不開人類獨特的視角和情感投入，這些都是當前技術所無法完全復制的。因此，雖然Sora等生成式 AI 技術為傳媒行業帶來了新的工具和可能性，但人類的創造力和情感智慧仍然是不可替代的。行業應當在充分利用這些技術的同時，保持對人類獨特價值的尊重和發揮。

結語

Sora模型以其能夠生成長達60秒的1080P 高清視頻的能力，在文本到視頻（Text-to-Video）領域中展現出顯著的競爭優勢。這一技術進步不僅超越了市場上其他僅能生成幾秒鐘短視頻的模型，如Runway、Pika和Stable Video Diffusion，而且預示著在視頻內容創作領域樹立新的行業標準的可能性。此外，Sora的高質量視頻輸出和先進的物理引擎技術，使得制作具有高度逼真物理現實主義的視頻內容成為現實。Sora的技術成就標志著人工通用智能（AGl）領域的重大進展，預示著人工智能將更深入地融入我們的日常生活，并可能重塑我們的工作方式和對概念的理解。

然而，互聯網技術的發展趨勢是朝著“知難行易”的方向發展，隨著文本到視頻技術的競爭日益加劇，我們預計將看到市場上產品的持續改進。在這個過程中，需要關注幾個值得注意的挑戰，特別是在知識產權保護和模型訓練資源透明度方面。為防止生成深度偽造視頻和不當內容的產生，人文情懷和邏輯倫理的融入是關鍵。我們需要采取措施確保人權得到保障，如對生成視頻進行可靠水印以追蹤其來源，以及利用區塊鏈技術提升信任度和可追溯性。此外，為了確保技術應用的可持續性，優化生成過程以降低計算資源消耗和環境影響也是必不可少的。面對這些挑戰，跨學科的合作至關重要，需要共同制定綜合框架、監管策略和技術創新，以促使文本到視頻的人工智能應用更加道德和負責任。

參考文獻：

[1]OpenAI.ChatGPT：Get instant answers，find creative inspiration，learn something new[EB/OL].（2022-11-30）[2024-03-25].https：//openai.com/chatgpt.

[2]OpenAI.Sora：Creating video from text[EB/OL].（2024-02-15）[2024-03-25].https：//openai.com/sora.

[3]Liu Y，Zhang K，Li Y，et al.Sora：A Review on Background，Technology，Limitations，and Opportunities of Large Vision Models[J].arXiv preprint arXiv：2402.17177，2024.

[4]艾媒咨詢.2023-2024年中國微短劇市場研究報告 [EB/OL].（2023-11-22）[2024-04-22].https：//report.iimedia.cn/repo13-0/43507.html？acPlatCode=IIMReportamp;acFrom=recomBaramp;iimediaId=97110.

[5]劉欣.網絡視聽成為第一大互聯網應用！《2023中國網絡視聽發展研究報告》發布[J].中國廣播影視，2023（8）：42-43.

[6]孫瑋.“視頻化社會”的來臨——從ChatGPT展望媒介通用性變革[J].探索與爭鳴，2023（12）：55-62，193.

[7]孫瑋.技術文化：視頻化生存的前世、今生、未來[J].新聞與寫作，2022（4）：5-14.

[8]Amaro I，Barra P，Della Greca A，et al. Believe in Artificial Intelligence？ A User Study on the ChatGPT’s Fake Information Impact[J].IEEE Transactions on Computational Social Systems，2023（3）：1-10.

[9]李曉璐，賀涵甫.首個文生視頻模型Sora 是人類助手還是對手？[N].廣州日報，2024-02-23（09）.

[10]Shen T，Jin R，Huang Y，et al. Large language model alignment：A survey[J].arXiv preprint arXiv：2309.15025，2023.

[11]Huang Y，Sun L.Harnessing the power of chatgpt in fake news：An in-depth exploration in generation，detection and explanation[J].arXiv preprint arXiv：2310.05046，2023.

[12]OpenAl.Safety at OpenAI[EB/OL].（2024-02-15）[2024-03-25].https：//openai.com/index/sora/#safety.

[13]王樹義，肖驍，倪考夢等.Sora的職業影響：知識工作者應對AI核心技能替代的策略[J].圖書館論壇：2024（03）：1-10.