Sora的意識形態效應及其治理

2024-06-19 00:00:00曹克亮

統一戰線學研究 2024年3期

"摘 "要：Sora作為生成式人工智能大模型，開啟了全新的視覺政治和意識形態塑造格局。Sora基于對視頻和圖像潛在代碼的時空補丁進行操作的變壓器架構，可以生成一分鐘內的高保真視頻。依靠強大的視頻生成能力，Sora正在實現傳統政治美學和政治倫理的智能轉向。政治美學轉向表現為政治宣傳和意識形態塑造的政治任務對視覺可感物再分配和再布局的轉向；政治倫理轉向表現為政治敘事走向深度圖像化時代，政治倫理所具有的社會性、規范性、權利與責任的統一性，以及公共利益導向等機制都將與圖像自覺和視覺審美緊密聯系。Sora的意識形態效應表現為，它是一種人工智能私人屬性的意識形態綜合機器；它是視覺暴力與意識形態注意力強制機器；它讓自然語言認知逐漸弱化，開始凸顯視覺機器意識形態去理性化效應。人類社會要警惕Sora的負面意識形態效應特別是其對團結和共識的可能消解，加以前瞻性防范和科學治理。Sora的意識形態問題需要技術治理、人文治理、法律治理同向同行、協調發力，實現視覺政治時代的共識增進和團結凝聚。

關鍵詞：Sora；視覺政治；生成式人工智能；意識形態風險；技術治理；OpenAI

中圖分類號：D64；TP18 """文獻標識碼：A""""文章編號：2096-3378（2024）03-0166-13

Sora被定義為“世界模擬器”（world simulators），能夠在可變持續時間、分辨率和寬高比的視頻和圖像上聯合訓練文本，生成一分鐘的高保真視頻。Sora的出現預示著通過擴展視頻生成模型并構建物理世界通用模擬器形成了一條極具前途的路徑。作為世界模擬器的Sora在技術路線上有何高明之處，讓其在視頻生成領域一鳴驚人？Sora的視頻模擬和圖像傳播又將引發何種人工智能意識形態效應？Sora需要怎樣的意識形態治理邏輯？人們如何在圖像政治失真時代重塑共識與團結？這些問題使我們關注Sora的意識形態效應和視覺政治議題。

一、Sora的技術路線及其政治邏輯

Sora不僅可以生成視頻還能生成圖像，不僅理解自然語言還能模擬物理世界的規律。Sora如同智能魔法師一般模擬著現實世界并“智造”著虛幻場景。Sora以其強大的視頻生成能力，正在實現傳統政治美學和政治倫理的智能轉向，使視覺可感物分配和政治敘事深度圖像化時代即將開啟。

（一）Sora的技術路線

在Sora的官方介紹中，它是一個使用文本創建視頻的視覺大模型。該模型基于對視頻和圖像潛在代碼的時空補丁進行操作的變壓器架構，生成具有多個角色、特定類型的運動，以及具有主體和背景的復雜場景視頻。作為通用視覺大模型，Sora的生成優勢體現為：能夠生成涵蓋不同時間、角度比和分辨率的視頻圖像，延長視頻時長至1分鐘，提高視頻精美度、逼真度。該模型不僅理解用戶在語言提示中提出的具體要求，甚至包含對這些事物在物理世界中的存在關系和存在方式的理解。Sora在官網介紹中說：“該模型對語言有深入的理解，使其能夠準確地解釋提示并生成引人注目的字符來表達充滿活力的情感。”這表明它正試圖“理解”物理世界的運行邏輯和客觀規律。Sora生成高保真視頻的關鍵是在壓縮空間內將視頻數據轉化為數據“補丁”（patches）并進行有效標注。補丁其實就是數據的“有效提示”。補丁作為一種高度可擴展且有效的視覺數據表現形式，可在不同類型的視頻和圖像中訓練生成模型。有效提示需要以人類語言的精準描述作為前提，因此，ChatGPT大語言模型是Sora大視覺模型的靈感來源。因為擁有文本標記的有效提示，ChatGPT的文本輸出具有意識形態屬性。由此可見，Sora和ChatGPT都需要在精準的人工和自然語言有效提示下，才不至于生成具有明顯邏輯錯誤、違反物理規律的事物或者具有明顯意識形態偏見問題的視頻和文字。

視頻補丁實際上是一種將視頻數據壓縮后存儲于較低維度潛在空間的潛在表示，Sora在這個壓縮的潛在空間中接受訓練并生成高質量視頻。OpenAI需要首先用科學和強大的算法去建設和完善視頻壓縮網絡模型，該模型具備將原始視頻數據作為輸入和輸出的一種潛在表示形式的強大算法能力。另外，視頻訓練還需要相應的解碼器模型，以便該模型將生成的視頻延遲映射回到像素空間之中。在Sora的訓練中，不僅要有正常干凈的原始視頻數據補丁作為提示，還要有噪聲補丁，就像ChatGPT的文本提示或“人工標注”這樣的調節數據信息。植入噪聲補丁的目的在于訓練“擴散”能力，只有具備精準擴散、識別和回溯視頻數據信息的能力，才能升級視頻生成與文本描述的映射關系，從而提高視頻作品的生成質量。

從文本生成到視頻生成的訓練需要大量帶有相應文本字幕的視頻資源，Sora利用DALL·E3中的重新字幕技術，訓練出一個具有高度描述性的字幕生成器模型。Sora還利用ChatGPT的大語言模型將簡短的用戶提示轉換為較長的詳細字幕描述，發送到視頻模型潛在空間。這使得生成視頻能夠準確遵循用戶提示。此外，Sora快速生成高質量視頻的關鍵在于人們能夠用精準、詳細的語言去描述想要創建的視覺圖像、提供更多視覺場景信息，以及Sora能夠準確理解語言描述。目前，Sora并未全面開放，僅對一些視覺藝術家、設計師和電影制作人提供訪問權限，以獲取改進該模型的有效反饋。這就是人工智能生成內容中必不可少的對抗性訓練環節，“可以使用Sora來評估關鍵區域的危害或風險”。

Sora并非完美無缺。準確模擬復雜場景的物理原理、理解現實中的因果關系對它很有難度。例如，它的視頻中可能存在“一個人咬了一口餅干，但餅干沒有留下咬痕”的情況。它還會混淆空間細節，例如左右位置。它難以精確描述隨著時間推移所發生事件的真實順序。Sora的生成視頻可能存在歧視性內容、虛假信息、意識形態安全等方面風險。由于大規模訓練對能源的極大消耗，它也可能引發能源危機和生態政治風險等問題。OpenAI表示從現實世界的使用中學習，是創建和發布越來越安全的人工智能系統的關鍵。

（二）Sora的視覺政治邏輯

在Sora出現以前，世界上已經有很多視覺大模型，如Midjourney、CogVideo、Google Imagen、Meta AI OPT等。可以想象的是，各類視覺模擬器會將人類帶入更加虛實難辨、真假難分的全新視覺世界。同樣，它們引發的潛在問題和風險不容忽視。首先，當Sora作為世界模擬器時，它帶來了世界真實性和真相議題的認知困境，識別信息圖像真假和區分虛擬現實變得更加困難和緊迫。其次，它以虛擬視覺全面鋪陳和泛化的方式對人們的傳統認知習慣、認知方式和判斷能力都提出了另類挑戰。最后，它也可能引發智能視覺圖像運動擴大化的風險，進一步固化人們的感官注意力、想象力、審美判斷能力等。保羅·維利里奧在《視覺機器》中表達了同樣的擔心：“如果這種視覺運動性被轉換成固定性，即通過某種光學儀器或不良習慣而固定視覺，那就等于無視并摧毀感覺和自然視覺的必需條件。”^［1］顯然，Sora等各類生成式人工智能視覺大模型的不斷涌現，極有可能將人類帶入視覺機器筑造的深度圖像世界之中。在智能視頻生成變得更加普遍逼真和不斷泛化的視覺世界內，視覺固定和感官衰退極有可能引發政治審美無意識問題。當人們通過觀看（以前是文本，現在更多是短視頻、圖像）去塑造政治意識與民主認知時，實際上，人們都在被視頻的圖像秩序所規定。誰掌握精美視頻制作和虛擬圖像傳播的技術和話語權，誰就有條件引導人們的政治偏好和意識形態，操作政治偶像和誘導大眾意見。生成式人工智能視覺秩序規定的深度擴大化，將造成人們言說性政治權力的喪失和語言表達能力的退化，造成非視覺和達成語言隱喻性理解與共識的條件匱乏，造成意義表達的視覺單一客觀化危機。用法國哲學家雅克·朗西埃的說法就是“看得見的表象限制了言說的力量”^［2］。從Sora的文本生成視頻實例來看，“眼見為實”或許不再適用。在“表象限制言說”的時代，政治美學和政治倫理也必然開啟某種視覺轉向。

1．政治美學轉向。視覺圖像政治時代，政治美學轉向表現為政治宣傳和意識形態塑造的政治任務對視覺可感物再分配和再布局的轉向。這也是對雅克·朗西埃政治可感物分配思想的再深化。政治可感物分配思想意在表明，政治體制和政治權力決定了在政治公共空間之中，哪些聲音和圖像能夠作為政治話語和大眾圖像被聽見和看見，哪些話語和圖像是噪音和偽造圖像。Sora的出現讓視頻及其可感物被引入圖像政治再分配領域。圖像政治必須有能力且有效地對文生視頻的技術場域和虛擬鏡像空間進行視覺分配。否則，一方面，一些政治主體會被排斥于新政治共同體和視覺秩序之外，造成新視覺政治環境下政治動員和意識形態塑造的失地、失真、失效。另一方面，一些人極有可能被錯誤和虛假視覺所引導或遮蔽，陷入政治認識的無知之境和政治共識達成的虛幻漩渦。泛圖像化的政治認同傳播趨勢擴大化，還可能造成人們對政治引導和意識形態塑造的游戲化、無感或反感傾向。總之，在視覺政治或意識形態機器學時代，我們更要關注Sora開啟的“一場永無止境的‘系統捕獲—個體逃逸’的追逐游戲”^［3］這一政治議題。

隨著Sora視頻生成內容的不斷增多和傳播泛化，各種可能的虛假信息和極具創意、無厘頭的虛擬作品會被生產出來。短視頻創作將變成一場視覺生產的競爭游戲，共識凝聚的機制和方式也就發生了轉變。新的視覺共識或不再是專家或精英共識，而是個體和大眾基于視覺審美自主化的平民共識，以及基于生成式人工智能工具創造的視頻圖像感性共識。視覺共識變成純粹觀看和感性審美的產物。1張圖片或1分鐘短視頻可能勝過千言萬語的宏大敘事。每個人都可能被短視頻的政治傳播所吸引和感染，也有可能對短暫且缺乏完整政治敘事邏輯和精準語言描述的短視頻或圖像發出解釋和評論的聲音。這樣一來，共識的例外狀態——異識，也就極易發生。人工智能所產視頻圖像失真或被惡意引導所造成的認識論斷裂、網絡極權、道德審判也將變得常態化。就意識形態的團結塑造而言，人們將從傳統的印刷（語言文字）團結走向圖像（視頻圖片）團結。網絡共同體的團結機制被深刻地塑造于生成式視頻和圖像世界之中。生成式視頻圖像的不斷擴大化、任意化，以及解釋權的自主化、多元化，勢必對傳統政治共同體形成和共識塑造機制產生合法性的質疑。網絡視頻世界和自媒體短視頻平臺的去中心化趨勢，對傳統政治的話語共識和意識形態團結建構所造成的沖擊已經可見一斑。基于短視頻審美，“公開的話語表達有助于深化道德共識、匯聚社會批判，但與此同時，短視頻的特有屬性所形成的輿論失焦也可能導致群體極化下的無底線道德審判等問題”^［4］，必須引起足夠重視。

2．政治倫理轉向。政治倫理轉向表現為政治敘事走向深度圖像化時代，政治倫理所具有的社會性、規范性、權利與責任的統一性，以及公共利益導向等機制都將與圖像自覺和視覺審美緊密聯系。關注或參與政治進程和政治敘事的主體，可能通過圖像審美的自覺行為完成對政治認同和意識形態共識的融合。Sora、ChatGPT等生成式人工智能構造了智能影像時代新的元政治學主體。這里必然涉及Sora等生成式人工智能影像的真實性議題，以及人們對信任和團結的認知方式和達成機制的變革。

阿蘭·巴迪歐在《追尋消失的真實》中提出：“洞穴之喻向我們呈現了一個囿于虛假形象的世界。這是一個外表（semblant）的形象，對所有囿于洞穴的人來說，它表現為能夠存在之物的不容置辯的形象。”^［5］巴迪歐主張的“洞穴人”認知過程實際上顯示為視覺當下的圖像事件發生過程。我們生活于智能圖像和視覺生成的洞穴世界，其中的政治認同、價值認同、觀念認同等問題，都由虛擬鏡像空間的圖像敘事所引發。它不斷形塑人與人之間的主體間性的信任、人與世界之間的聯結方式。Sora作為圖像事件的“世界化成的過程，越來越多被以有損壓縮-重新生成為發生學機制的AIGC之創造性活動所介入，這就導致‘宇宙’（我們眼里的‘物理宇宙’）與‘元宇宙’不斷深層次地疊加，‘自然進程’（natural process）與‘人工創造’（artificial creation）不斷深層次地交織以至進入無可區分之域（zone of indistinction）”^［6］。“無可區分之域”正是圖像政治時代政治倫理轉向的空間之境，數字虛體下的身份是政治倫理轉向的主體之境，共同的觀看行為是政治倫理轉向的行動準則，視覺審美是政治倫理轉向的美學旨趣，圖像運動事件是政治倫理轉向的行為過程。參與政治和表達認同的一般形式變為圖像閱覽和審美一致性行為。人們的團結塑造機制就是對共同關心的視頻圖像的集體閱覽和評價行為。

視頻圖像最顯著的特點是直觀和凝視，短視頻的普及化和大眾化帶來了視覺政治所需知識、智力的平等化。但是，它也會塑造出被智能影像牽引的智識進化主體，呈現審美不斷平庸化的“諸眾”面相。邁克·哈特（被稱為“電子書之父”）和安東尼奧·奈格里（意大利哲學家和政治理論家）語境中的“諸眾”不同于也不是無產階級，它是福特制時代資本主義生產運作方式和主體生成方式的典型代表。他們是工業資本主義階段以非物質生產和情感勞動方式被剝削的個體形象。在意識形態的團結觀念里，他們是被抽象勞動形式和實質吸納的個體，難以形成有效共識、缺乏團結行動。視頻圖像讓阿爾都塞復數性質的意識形態國家機器再生產體系變得越來越容易集中于視覺生產體系之中，意識形態的操作變得更加可視、可控和高效。

政治倫理轉向深度圖像化時代，讓理查德·羅蒂所主張的“真理是被制造出來的，而非被發現的”^［7］成為可能。Sora讓智能生成視頻圖像內容變得容易且虛假性增多，極有可能引發“說謊者紅利”。技術精英和政治精英的政治操控和聲望塑造在變得普遍的同時，也變得更加智能和穩固。“隨著OpenAI等公司在大眾市場上發布其產品，能夠創造逼真圖像、模仿音頻和書寫令人信服的人類文字的人工智能工具的使用量激增。這些技術現在正越來越多地被用于創建政治內容。”^［8］深度偽造和視覺欺騙的大行其道，可能帶來政治話語團結困境、社會凝聚力機制渙散、公眾信息識別環境惡化等難題。這正是我們思考政治倫理轉向對Sora文生視頻所涉政治的真實性議題和團結議題必須要考慮的地方。

二、Sora的意識形態效應

阿爾都塞在《論再生產》中談到了8種“意識形態國家機器”（法文縮寫為AIE），它們分別是學校機器、家庭機器、宗教機器、政治機器、工會機器、傳播機器、出版-發行機器、文化機器。阿爾都塞認為每種AIE對應一種“機構”或“組織”實體，每一個AIE組織實體都組成一個獨立系統。這些意識形態系統相互交織、共同發揮作用。阿爾都塞強調意識形態塑造的組織實體性、“物質性”，以及非意識形態性事物塑造的意識形態效果^［9］。這說明兩點：一是意識形態不是由觀念物塑造而是由現實物塑造，且這種塑造在物質機構的有意識“生產”中進行；二是意識形態扎根于非意識形態的現實，即意識形態由非意識形態性的現實活動和實踐支撐。因此，作為意識形態的AIE各個系統都在非意識形態的各種功能現實中獲得立足和擴展，由現實世界中的物質實踐功能上升為具有意識形態屬性的文化塑造功能。雖然非意識形態現實支撐了意識形態塑造，但二者不能化約和等同。非意識形態現實所具有的意識形態性恰恰是意識形態塑造最高超的機制。這對于談論Sora的意識形態效應非常關鍵。第一，Sora到底屬于意識形態中的哪種機器？Sora是否屬于意識形態綜合機器？第二，8種意識形態國家機器都具有明顯的“非暴力性”，那么Sora是否具有暴力性？

（一）Sora：一種人工智能私人屬性的意識形態綜合機器

意識形態塑造依賴于非意識形態性的物質實踐活動及其現實物的支撐。目前，Sora本身作為文本生成視頻大模型領域最強大、最先進、最智能的視覺機器，具備用智能機器表達意識形態功能的意識形態效應。Sora隸屬于私人機構、“非營利性機構”OpenAI，其意識形態效應并沒有縮減、衰退或改變。Sora的意識形態屬性奠基于智能機器物質使用性功能和視覺審美實踐之中。作為視覺智能機器，Sora顯然將視覺藝術審美政治、數字化非物的意識形態效應發揮到了極致。

1．視覺藝術審美政治智能機器。Sora目前推出的各類1分鐘短視頻都是一種視覺創作和藝術創造。藝術審美與政治相連自古有之，如今更深入到數字化和智能化實踐領域。審美和政治可以塑造“共識”和“團結”，這是二者結合的最主要前提。藝術創作和審美是一種塑造感性共同體共識和團結的文化生產機制，政治是一種塑造理性共同體共識和團結的權力生產機制。意識形態塑造建基于理性、智力平等與感性審美共通融合之上，達成觀念“共識”和行動“團結”。Sora真實且完整、智能且有效地結合了視覺藝術與政治認同的雙重功能。“大模型擁有巨大的整合力，正在實現新型的知識大一統。這種彌散化的超能力會進入知識生產的各個領域，沒有個體可以逃脫這種超能力的捕捉。”^［10］正是基于這種能力，Sora具有藝術與審美、視覺與政治的意識形態性。這種意識形態性被深深隱藏于個體性的視頻生成與審美的愉悅體驗之中。“政治進入到審美才能廣大，……審美作為更大的詩學和元政治，本身已包括了政治，且大于政治。”^［11］如果說審美就是政治，那么Sora就是藝術審美與政治結合并分配的工具。天馬行空的視頻創作和智能審美取向，讓晦澀的政治團結和共識落實于視覺可見性這一感性領域，取得共識和團結凝聚效應。在這一點上，我們可以將Sora稱為視覺審美-元政治學智能機器，或AIE效應下的共識與團結智能機器。它不是單純的傳播機器、出版發行機器或文化機器，而是一種帶有人工智能私人生活審美屬性的意識形態綜合機器。

2．數字化非物意識形態效應智能機器。Sora的產品是一種數字化圖像信息——“非物”。在韓裔德國哲學家韓炳哲看來，視頻消費與視頻生產占據了人們感官的大部分注意力，深陷其中的人們開啟了視頻圖像的信息拜物教時代。各類視頻圖像接二連三地闖入人的感官世界，將人塑造成視覺信息的接收機體。“智能手機通過把世界生產（herstellen）為圖像，確立（stellen）了世界，這就是說，它獲取了世界。”^［12］Sora通過將世界生成為“超實在的現實性”圖像來獲取世界。視覺圖像獲取（截留、控制）了虛擬世界中各種認知、信任、團結的敘事邏輯，政治的認同與共識亦在其中。事實上，我們已不再完全處于莎娜·祖博夫（Shoshana Zuboff）所言的“監視資本主義時代”，我們應該處于保羅·維利里奧所說的“視覺機器時代”。我們不是擁有視覺機器，而是被視覺機器所“獲取”。我們不僅被監控，還出讓了視覺注意力，出讓了用于自我監控和審視的眼睛。Sora不僅是注意力經濟學，也是視覺政治學。它能夠實現智能視覺的確權、調節和一切統治，實現統治認同和共識凝聚的可視化。在對視頻的持續觀看、點贊、評論、認同中，共識和團結獲得了前所未有的政治塑造機制和意識形態效應。Sora帶來的視覺時代不同于相機和攝影塑造的“機械復制時代”。視頻和圖像不再作為珍貴的政治記憶文物而被珍藏，相反可以被大量生產、大量制造、持續傳播。Sora視頻帶來了視覺的震撼，人們的共識在對一個個震撼視頻的瀏覽中獲得。這體現出人工智能大模型對共識和團結凝聚的“視覺獨裁”。過多的視頻生產和審美體驗，久而久之容易引發人們的思想愚鈍和目光呆滯。

（二）Sora：一種視覺暴力與意識形態注意力強制機器

政治的權力及其意識形態效應具有極其復雜的結構和運作過程。歐洲中世紀的宗教神權通過壟斷《圣經》文本的解釋權，獲得了絕對的統治地位。近代資本主義通過印刷語言和技術，塑造了想象的共同體。在數字資本主義和人工智能時代，大數據和算法的暴力讓隱私監控與生活展示、文本知識與圖像閱覽、視覺政治與注意力經濟都展現出了另一種暴力類型。“ChatGPT實現了意識形態智能生成與分發的個性化、適配化和整體化”^［13］，成為“機器意識形態家”。當Sora不斷擴展創意視覺審美邊界、壟斷知識共識凝聚路徑時，也就成為“視覺意識形態家”。Sora開啟了“我看故我在”的視覺哲學盛宴。“我思故我在”中的“我”是獨特內省主體和反思主體。“我看故我在”中的“我”卻是缺少反思判斷的感性主體。就個體意識形態而言，Sora的視覺暴力體現為，視覺感性行為成為主導心智認知和意識形態進化的銳利武器。“在效果上，不僅藝術而且人類精神也進入了‘后真相’時代。”^［14］就國家意識形態而言，“Sora及OpenAI的崛起同樣意味著國家信息主權的全球性爭奪，政治傳播的數智化迭代放大了我們對第三世界國家及‘失語’群體的觀照，由Sora所塑造的景觀社會及民族想象將加劇政治地緣的緊張關系”^［15］。

1．視覺震撼與視覺規訓。Sora是塑造數字景觀社會的“世界模擬器”，展現了具有系統認知與模擬整體世界視野的能力。Sora將視覺暴力和對意識形態注意力的強制歸于智能生成視頻之下，極有可能帶來與ChatGPT類似但又有所不同的新型政治情感連接方式和意識形態效應。這種政治情感認同的連接方式和意識形態效應，沿著“從工具使用到技術崇拜，從人際傳播到人機傳播，從它異關系到交往具身”^［16］的邏輯進行。Sora極具視覺沖擊力的生成畫面、極具科幻想象和智能震撼力的“奇點工具”性能，讓人們陷入視覺暴力的政治美學秩序之下。就數字資本主義而言，它生產了新的數字景觀，控制了人類的視覺偏好與視覺想象。在經濟、政治、教育、意識形態塑造上，它展現出意識形態塑造的視覺支撐或視覺屏蔽控制能力。“對于資本主義來說，一旦人的眼睛被傾注了資本主義意識形態的數字符號所迷惑，那么對他們的剝削、控制和規訓就會變得更為容易。”^［17］就政治傳播而言，Sora深度偽造的視覺暴力讓新聞專業主義者難以產生應有的效力，讓虛假政治信息、議題和視覺融合，造成“深度后真相”的政治傳播難題，極有可能引發“全球范圍內政治誠信的危機和民粹主義政治的興起”^［18］。Sora可能引發平臺型國家視覺意識形態機器的大爆發，讓視覺暴力的政治表達更具機構性和組織性，更易沖擊地緣政治國家意識形態。

2．視覺分配與注意力強制。目前，Sora代表了人類視覺工業和人工智能領域的最高水平，意識形態塑造的視覺注意力強制機制也可能全面開啟。文本語言和視頻語言都是人類注意力和感官分配的形式，當其發展為平臺（類似ChatGPT語言大模型、Sora視頻大模型）階段時，就實現了大規模、整體性的工業化感官塑造階段，即注意力的強制階段。平臺對人們的注意力進行收集、分析、引導、調節，誕生了當下數字資本主義階段的注意力經濟和注意力政治學。大型科技公司和人工智能平臺壟斷了人們的感官分配形式，它的強制機制與國家機器塑造意識形態的強制形式明顯不同。意識形態國家機器雖然也應用非暴力的形式發揮功能，但目的性更強，管控也更加直接，意識形態塑造更加多元化。ChatGPT、Sora等生成式人工智能則完成了對人的意識形態塑造的視覺敞開和自由想象的釋放。“現代社會的視覺政治技術的另一個側面則是隱蔽的并且以訴諸主體自由的方式發生的，這種技術就是‘鏡像’的自我認同。”^［19］Sora的意識形態注意力強制表現為：它不直接塑造和規訓（個體）主體，通過視頻生產和觀看引導主體塑造“鏡像”，讓（個體）主體變成“鏡像主體”（非個體性的視覺主體），從而實現對人的意識形態塑造和規訓。這也是阿爾都塞語境下，意識形態能夠把個體（個人）喚問為統一性意識主體的思想關鍵。對數字平臺和各類大模型而言，真正的（個體）主體和內在本質是什么并不重要，主體喜愛怎樣的文本和短視頻更重要。以此，讓主體生活在視覺景觀之中。

Sora的強大能力讓注意力強制變得更加容易。以當代西方政治傳播為例，視覺政治及其傳播內容的生動性、接收的直觀具體性、塑造共識和認同的視覺共鳴性，讓西方政治傳播和意識形態塑造走向新開端。視覺政治傳播將意識形態塑造帶入審美更加個性化、認同更加具體化、政治態度更加偏激或撕裂化的新階段，進而造成“政治傳播中的實質與形象、事實與虛構、現實與表達、真相與假象之間原本存在的灰色地帶被進一步擴大，修飾與欺騙、引導與操縱的邊界變得不再明顯，政治勸服的操作空間和說服能力大大增強”^［20］。Sora的視覺政治傳播讓意識形態塑造變得智能高效，也讓資本主義國家的意識形態塑造轉向對政黨政治競選者個人形象的塑造；將部分群體共識塑造為國家的全民共識，引發政治極化和輿論撕裂現象。共識和團結凝聚的話語機制轉向情感性、娛樂性和直觀可見的庸俗政治，理性民主和價值認同機制退化為粗暴的視覺感性政治共識。

（三）Sora：自然語言認知弱化與視覺機器意識形態的去理性化效應凸顯

Sora高質量視頻的生成，有賴于自然語言的精準描述、理解以及圖像復現技術。人類文明的顯著標志性事件之一就是語言和文字的發明。隨著短視頻時代到來，人類的語言認知能力正在顯著退化，進入視覺認知時代。

1．自然語言認知的弱化。國際知名媒體與數字社會研究學者何塞·范·迪克評價YouTube的視頻分享時提出：“YouTube這樣的網站最引人注目的是它們在日常生活中的常態化——人們已經普遍接受了連接媒體在社交和創意的各方面的滲透。全球數以百萬計的用戶已經將YouTube和視頻分享視為他們日常生活習慣和慣例。”^［21］在“讀圖”和“閱視”的視覺認知時代，基于自然語言的認知弱化似乎是不可逃避的必然趨勢。就意識形態塑造而言，視覺審美遠比自然語言和文本閱讀更直接、更高效。傳統意識形態塑造機制隨著生成式人工智能大模型邁進“世界模擬器”階段，無可阻擋地進入鏡像視角。“從宏觀層面看，Sora等大模型的能力涌現來自對可量化信息的學習與理解，其高度復雜的算法邏輯在靠近人類思維模式的同時可能生成不同于人類認知邏輯的社會知識，從而反作用于人對世界的認知，以模擬世界與現實世界的對照關系，印證或推翻部分現有認知，增加人類社會的認知維度，從而拓展人類知識邊界。”^［22］我們正在經歷的全民“狂刷”短視頻時刻，正是這種鏡像認知的真實寫照。不僅如此，Sora的視頻生成既是“無中生有”，還是“虛實難辨”。人們通過觀看視頻進行認知，會誕生一種元宇宙的幻象認知方式，沉浸于視覺的感性認知邏輯會導致認知綁架或“干擾認知，削弱內容生產的豐富性，或催化人們的速食化內容消費，將人們的認知限制在平庸水平”^［23］。

馬克思在《德意志意識形態》中批評青年黑格爾派意識形態家時指出：“青年黑格爾派的意識形態家們盡管滿口講的都是所謂‘震撼世界的’詞句，卻是最大的保守派。如果說，他們之中最年輕的人宣稱只為反對‘詞句’而斗爭，那就確切地表達了他們的活動。不過他們忘記了：他們只是用詞句來反對這些詞句。”^［24］這對我們理解青年黑格爾派的語言“詞句”意識形態和Sora時代“視頻”意識形態具有對比和啟發意義。曾經用“震撼世界的”語言詞句塑造意識形態的實踐逐漸式微甚至走向衰亡。如今，“視覺文化使人們沉浸在五彩繽紛、生動形象的影像世界里，由以往的利用文本把握世界到如今的利用圖像把握世界，實現了從語言范式向圖像范式的跨越”^［25］。因此，短視頻知識傳播的興起引發了人們對視覺認知正當性、正義性的討論。人們擔心短視頻對認知過度裹挾和壟斷。這種擔心既包括技術、政治、知識精英對觀念、知識及其傳播的權力壟斷，也包括各種智能工具和大型生成式人工智能模型對權力收集方式和認知解釋權的壟斷。與此同時，短視頻一貫的泛娛樂化傾向和去中心化邏輯會導致泛知識、泛邏輯、泛認同、泛團結等意識形態塑造的相對主義風險。“在‘泛知識’的話語下，也隱藏著一定的風險，當娛樂也是知識、知識徹底沒有邊界時，舊的宏大意識形態被消解了，恐怕新的再也難以建立起來。”^［26］

由此觀之，人類曾經依靠自然語言進化和交互理解，達成認同與團結是一項長久且持續的歷史過程。哈貝馬斯用“商談倫理學”來解讀和定義人類的相互交往和認同邏輯，本尼迪克特·安德森把印刷品和印刷語言作為孕育民族意識興起和想象的共同體團結的重要依據。然而，當Sora開啟后人類主義全新的視覺認同范式時，虛假與實際、幻象與真實、認同與理解、共識與團結的塑造機制已然發生巨大變化。法國思想家、導演居伊·德波描述的基于商品生產及其消費的資本主義景觀社會，正在發展為基于虛擬圖像和視覺生產消費的數字景觀社會。視覺機器式的意識形態塑造正在弱化自然語言知識和認知傳播的傳統模式，甚至走向視覺意識形態的極權主義和霸權主義。

2．視覺機器意識形態的去理性化效應凸顯。Sora讓人們通過觀看和欣賞達成對意識形態塑造的“想象力相遇”。這種視覺想象力相遇是獨裁式、決斷式、去理性化的。我們在數字景觀社會中通過不同銀幕和相同視頻達成連接、對話和交互、共識。但是，“景觀意識，它是一個被壓扁的世界的囚徒，這個世界被景觀的銀幕限制住，而在這個銀幕的后面，它自己的生命被流放，景觀意識也只能看到一些虛構的對話者，他們單方面地用其商品和商品的政治去維持這個意識。景觀，在它的整個廣度上，是它的‘鏡像符號’”^［27］。今日，我們使用的商品大多數都披上了數字物和虛擬物的外衣，數字景觀社會通過對視覺和感官注意力的俘獲來維持鏡像符號認知。通過不在場的觀看和視覺轉移行為，我們消除了真實與虛假的原有界限，抱著真實在場的態度和觀念去認知世界、實現所謂的理解。這種隱去不在場又假裝在場的認知是經視覺機器所中介的認知行為，它雖然具有獲取和觀看的便利性和即時性特點，但會帶來認知和共識凝聚的“慢性病”。它雖然具有開放性特點，但會引發語言理解和商談認同的封閉性。它雖然具有個體私人屬性的特點，但會造成普遍的均質化思維和平庸意識形態效應。它雖然具有自持的娛樂性特點，但會讓人染上知識碎片化和去理性化的認知“怪病”。

三、Sora的意識形態問題治理

隨著ChatGPT、Sora等生成式人工智能大模型的不斷發展、進化、完善，它們將逐步融入人們工作、生活、交往的方方面面，融入政治、經濟、文化、社會意識形態的各個領域。它們的意識形態效應也將逐步變得微粒化、液態化、氣泡化。意識形態微粒化表明，意識形態的生成、發展、作用機制都在走向深度且精準的數據解析時代。身體數據的解析有可能誘發性別歧視、種族歧視政治風險；觀看數據的解析有可能進一步引發“信息繭房”的視覺固化和認知僵化；視覺數據的解析讓感性認知和情緒價值對政治移情和社會共識產生重要影響。意識形態液態化表明，處于智能視覺生成和觀看時代的個體正變得脆弱、暫時、易傷，社會關系和認知團結不再擁有永恒的關系和紐帶。傳統意識形態塑造基于共同的歷史、習俗、語言和文化教育，但意識形態液態化中的共同體塑造更加看重靈巧輕便、多態建構的視覺特性。視覺時代的意識形態“液態監視的核心特征是監視體系的彌散化、監視方式的隱蔽性與監視權力機制的不確定性”^［28］。意識形態氣泡化表明，意識形態在議題領域、內容格調、存在方式、作用機制等建構邏輯中，幾乎將公共性與私人性、政治性與非政治性、趣味性與嚴肅性、虛擬性與現實性、解構性與建構性等全部取消，只剩下視覺生活的布展和視覺暴力的沖刷。意識形態主體的社會性、公共性、建構性被牢固地確定在視覺觀看和審美之上，反復視覺刺激帶來的是空洞的交流，并沒有彌補個體公共性的缺失和認同方式的衰減。它使得“主流意識形態詢喚機制也早已無法在個體的‘身份同一性’的前提上運作”^［29］。

因此，Sora既不能達成視覺盛宴對審美的救贖，也不能拯救生活和沉醉于智能視覺中的人的精神政治。Sora極致創意和畫面的擴張可能會引發視覺時代的“愛欲之死”。雖然人們通過觀看了解世界，卻不能對世界和他人感同身受。如果說意識形態學是一種維護忠誠的學說，那么，Sora將把忠誠、共識、團結的認知方式和路徑窄化并美化為觀看本身。Sora的意識形態效應與傳統意識形態國家機器運作所產生的效應明顯不同，意識形態問題治理路徑也必然有所不同。

（一）技術治理

Sora的強大視覺生成能力建基于擴展視頻生成模型和變壓器架構，通過循環網絡、生成對抗網絡、自回歸變壓器和擴散模型，實現對視頻數據生成建模的精準綜合運用。針對ChatGPT、Sora等可能產生的意識形態風險，必須用技術鉗制技術、用魔法戰勝魔法，實現有效監管和治理。一方面，OpenAI自身正在與相關視覺藝術家、設計師和電影制作人合作展開對抗性測試，防止可能出現的意識形態偏見風險；積極開發檢測工具和優化內容審查程序步驟，以智能手段檢測智能生產，提高Sora內容生成的透明度和可靠性。另一方面，各類短視頻平臺要有技術能力識別和監控智能生成視頻及其傳播，提醒人們辨別虛實真偽，防止智能視頻生成大模型的過度濫用和作品的病毒式傳播。

首先，要加強對各類短視頻傳播平臺涉及政治安全、意識形態安全內容的算法監管。“建立健全算法推薦服務的嵌入式自我監管體系及‘知情同意’機制、推動算法推薦技術標準及算法推薦倫理建設”^［30］，實現技術治理與倫理治理同步施策、同向發力。其次，在文本生成視頻大模型科技領域，積極推動“主權人工智能”發展。主權人工智能“指國家支持人工智能基礎設施建設，用符合本國文化和思維方式等的數據訓練大模型，支持本地產品形成生態系統等”^［31］。“主權人工智能”是確保生成式人工智能為我所有和為我所用的必然要求。同時，要把推動視頻生成大模型在我國新聞媒體、社交視頻網絡、影視行業等垂直領域中的應用安全放在更加重要的位置；以垂直領域的大模型應用和主權人工智能相結合的方式，發展安全、可靠、節能和有效率的生成式人工智能技術，保障意識形態塑造和治理的可控性。最后，積極推動和保障數據安全護欄機制建設。在發展生成式人工智能大模型過程中，數據安全尤為重要。針對可能出現的“數據投毒、模型后門、對抗樣本、數據泄露、模型竊取、軟件漏洞等安全隱患”^［32］，國家數據局、網絡信息管理部門等相關單位要通過數據安全戰略規劃設計，織牢全生命周期、全媒體領域的數據安全大網。

（二）人文治理

生成式人工智能發揮作用必須依靠和借助人的觀看力量。為此，要加強對生成式人工智能意識形態效應的人文治理，推動意識形態技術治理和人文治理同向同行、協調發力。

首先，加強對人工智能意識形態風險的安全教育，提升公眾識別和判斷虛假信息、意識形態偏見和誤導性內容的能力。提升公眾的數據意識和媒介素養，達成對生成式人工智能生成內容所涉價值觀念、潛在意圖、輿論政見的正確理解和謹慎態度。加強公眾在人工智能應用場景中的數據敏感性，謹慎對待自身數據安全和意識形態敏感信息安全。其次，加強對新型人機關系的倫理規約和守護，防止“智能鴻溝”對人的主體性地位、認知團結和共識凝聚的潛在威脅。當前，智能鴻溝正在“加劇社群內部分化，部分弱勢群體或將面臨智識的淘汰，又或是成為算法霸凌的受害者，動搖普遍意義上的人本主義立場”^［33］。ChatGPT、Sora雖然強大，但依然是人類智能創造的工具。人類社會不能以人機關系遮蔽人際關系，不能讓智能機器判斷代替人類價值判斷，不能讓機器數據和算法共識代替人類理解和交往共識。最后，加強對中華優秀傳統文化的數據更新保護、提升文化自信，應對所謂“文化中心主義”和“文明優越論”的意識形態風險。ChatGPT和Sora的文本和視頻生成能力需要大量的數據訓練來提高，這些數據大多以英語語料庫為基礎。“語料庫的不均勻分布可能導致生成內容反映以英語為中心的觀點和價值觀，限制了其他語言和文化的表達”^［34］，這極易引發文化價值觀生成和傳播的西方“文化中心主義”，進而造成“文明優越論”等偏見。為此，我們要一體化推進中國式現代化進程中的數字文化強國建設，打造漢語語言文化數據語料庫，為增進中華優秀傳統文化認同、凝聚中華民族團結共識奠定堅實基礎。

（三）法律治理

2023年8月15日，《生成式人工智能服務管理暫行辦法》正式施行。該《辦法》明確強調“提供和使用生成式人工智能服務，應當遵守法律、行政法規，尊重社會公德和倫理道德”^［35］。Sora的意識形態效應法律治理應當進一步明確治理原則、責任主體和整體義務建構邏輯。

首先，法律治理要堅持“風險控制首要原則，全面監管原則，技術收益與責任風險對應的技術治理原則”^［36］相結合。明確技術風險、倫理風險、意識形態風險主要承擔者；確保生成式人工智能治理“遵循數據利用安全范式，基于風險分類分級規制，實現上下游的合作共治”^［37］。其次，在政府主導前提下，強化多方參與的敏捷治理模式。要堅持政府主導，人工智能企業、行業協會、技術專家、倫理審查委員會、大眾等各方共同參與，綜合運用法律法規硬性約束和行業發展指南、倫理規約等軟性約束，實現敏捷共治。“一方面，通過‘硬法’約束對人工智能風險進行直接規制。另一方面，通過‘軟法約束’對人工智能風險進行間接規制。”^［38］最后，加強內容審查和對傳播主體的法律監督機制建設。ChatGPT和Sora都存在內容創作者或傳播者自發或受操控而被動生成有害虛假信息的可能性。內容創作者作為“守門員”，內容傳播者作為“傳遞員”，都需要以“理性人”視角和第一注意力原則，盡力保障內容的信息安全，承擔風險管理的主體責任。美國和歐盟對生成式人工智能內容生產場景、主體責任做出了詳細的法律規定。我國也應該綜合運用各種法律法規對創作者內容進行法律監管和監督，通過對個體創作者和平臺傳播者自監督義務的綜合治理體系建設，降低內容意識形態安全風險。

四、結語

法國啟蒙運動時期唯物主義哲學家拉·梅特里曾在《人是機器》中這樣描述：“在發明詞匯、知道說話以前，人是什么呢？只是一種自成一類的動物而已，他所具有的自然本能遠不及其他動物多，因之那時候他并不以萬獸之王自命，那時候他之別于猿猴和其他動物也就像今天猿猴之別于其他動物一樣，可以說只在于面部更富于不同的表情而已。”^［39］早期人類如同一個長不大的“嬰孩”，只有通過不斷觀看來認知周圍世界。當語言、詞匯發明后，法律、藝術、科學、政治隨之建立，人類精神才展現出耀眼的文明光芒。但是，人類并沒有丟棄作為本能的觀看能力，我們發明了各種用于觀看的工具（顯微鏡、望遠鏡、深海探測器、空間站等），就是為了更好地觀察和認知世界。如今，Sora不再滿足于觀看世界，它大膽地想要模擬世界，實現從虛擬世界映射現實世界的抱負。在模擬和映射世界圖景的時刻，人類不僅打開了現實世界的虛擬窗口，也擴展了認知和觀念的現實窗口。Sora以視覺團結構造了認知團結，以視覺共識構造了意識形態共識。Sora的出現或許就是視覺政治世界里的“嬰孩時刻”。當然，人類社會也要警惕Sora的負面意識形態效應特別是其對團結和共識的可能消解，加以前瞻性防范和科學治理。

參考文獻：

［1］ "保羅·維利里奧．視覺機器［M］．張新木，董舒，譯．南京：南京大學出版社，2014：5．

［2］ "雅克·朗西埃．審美無意識［M］．藍江，譯．南京：南京大學出版社，2020：11．

［3］ "施暢．機器之眼：從操作圖像到智能視覺［J］．南京社會科學，2022（12）：135-144．

［4］ "李凱林．謠言、信息繭房與群體極化：短視頻平臺網絡暴力的治理［J］．甘肅行政學院學報，2023（3）：106-113+123+128．

［5］ "阿蘭·巴迪歐．追尋消失的真實［M］．宋德超，譯．南寧：廣西人民出版社，2020：9．

［6］ "吳冠軍，趙憲章．Sora：從技術哲學到文藝學的思考（筆談）［J］．文化藝術研究，2024（1）：10-15+111．

［7］ "羅蒂．偶然、反諷與團結［M］．徐文瑞，譯．北京：商務印書館，2003：iv．

［8］ "胡泳．人工智能驅動的虛假信息：現在與未來［J］．南京社會科學，2024（1）：96-109．

［9］ "路易·阿爾都塞．論再生產［M］．吳子楓，譯．西安：西北大學出版社，2019：176．

［10］ "高奇琦．基于大模型的知識生產與啟蒙辯證法［J］．江蘇社會科學，2024（1）：46-56+241-242．

［11］ "陸興華．藝術-政治的未來：雅克·朗西埃美學思想研究［M］．北京：商務印書館，2017：4-5．

［12］ "韓炳哲．非物：生活世界的變革［M］．謝曉川，譯．上海：東方出版中心，2023：36．

［13］ "曹克亮．ChatGPT：意識形態家的機器學轉向及后果［J］．統一戰線學研究，2023（4）：134-144．

［14］ "尚杰．藝術與技術［J］．社會科學戰線，2022（1）：17-24．

［15］ "陳文泰，孫仲伯．重回鏡像之維：生成式AI浪潮下Sora的技術邏輯與媒介生態迭代［J］．新聞愛好者，2024（4）：40-44．

［16］ "張愛軍，楊程曦．智能交往與微粒社會：人與ChatGPT交互的政治情感連接以及政治情感風險與調試［J］．

行政論壇，2023（6）：32-42．

［17］ "吳紅濤．數字景觀生產及其視覺政治［J］．學習與實踐，2023（4）：31-39．

［18］ "姬德強．深度造假：人工智能時代的視覺政治［J］．新聞大學，2020（7）：1-16+121．

［19］ "方剛．視覺文化轉向的三種理路［J］．中州學刊，2019（10）：137-140．

［20］ "龐金友，趙潔．當代西方政治傳播的視覺轉向與民主困境［J］．吉首大學學報（社會科學版），2023（3）：87-98．

［21］ "何塞·范·迪克．連接：社交媒體批評史［M］．晏青，陳光鳳，譯．北京：中國人民大學出版社，2021：144．

［22］ "郭全中，張金熠．作為視頻世界模擬器的Sora：通向AGI的重要里程碑［J］．新聞愛好者，2024（4）：9-14．

［23］ "彭蘭．智能生成內容如何影響人的認知與創造？［J］．編輯之友，2023（11）：21-28．

［24］ "馬克思恩格斯選集：第1卷［M］．北京：人民出版社，2012：145．

［25］ "杜成斌，劉璇．新時代主流意識形態話語視覺化傳播的創新路徑研究［J］．湖北社會科學，2023（12）：160-168．

［26］ "王家東．短視頻知識傳播的興起：制度化歷程與正當性建構［J］．中國電視，2023（10）：87-94．

［27］ "居伊·德波．景觀社會［M］．張新木，譯．南京：南京大學出版社，2017：138．

［28］ "郭小安，趙海明．觀看的無奈與正義：數據社會液態監視的彌散性與能動性［J］．新聞與傳播研究，2022（10）：34-46+126-127．

［29］ "王欽．直播的政治學：“交流閉環”與“社會的氣泡化”［J］．東方學刊，2020（2）：110-115+132．

［30］ "彭煥萍，陳瑤．短視頻推薦中的算法操控及其協同治理［J］．中國編輯，2023（3）：86-90．

［31］ "黃堃．多國看重“主權人工智能”競相研發本地語言產品［N］．新華每日電訊，2024-02-07（8）．

［32］ "推動人工智能安全發展［N］．經濟日報，2024-01-03（10）．

［33］ "馮子軒．生成式人工智能應用的倫理立場與治理之道：以ChatGPT為例［J］．華東政法大學學報，2024（1）：61-71．

［34］ "鄭泉．生成式人工智能的知識生產與傳播范式變革及應對［J］．自然辯證法研究，2024（3）：74-82．

［35］ "生成式人工智能服務管理暫行辦法［J］．中華人民共和國國務院公報，2023（24）：39-42．

［36］ "袁曾．生成式人工智能治理的法律回應［J］．上海大學學報（社會科學版），2024（1）：28-39．

［37］ "劉金瑞．生成式人工智能大模型的新型風險與規制框架［J］．行政法學研究，2024（2）：17-32．

［38］ "鄧悅，許弘楷，王詩菲．人工智能風險治理：模式、工具與策略［J］．改革，2024（1）：144-158．

［39］ "梅特里．人生機器［M］．顧壽觀，譯．北京：商務印書館，1959：32．

責任編輯：龔靜陽

統一戰線學研究2024年3期

統一戰線學研究的其它文章: 總體國家安全觀與香港23條立法的制度正當性; 作為知識的宣傳：大革命時期中共圍繞統一戰線的意義生產與現實啟示; 習近平總書記關于把握兩岸關系大局的“四個堅定”重要論述的敘事邏輯與內涵意蘊; 習近平總書記關于把握兩岸關系大局的“四個堅定”重要論述的敘事結構及價值意蘊; 習近平總書記關于把握兩岸關系大局的“四個堅定”重要論述的理論意涵; 新質生產力賦能中華民族現代文明：關系、支撐與實踐