


內容摘要:Sora展示了文本生成視頻的“世界模擬器”的全新可能性,標志著媒介生產自動化與媒體形態一體化的臨界點,開啟了人類傳播史上又一“谷登堡時刻”。我們需要超越技術、產品、應用和資本等層面,從人類傳播變革的角度,為理解Sora提供一個更加開闊而深入的視角。現代印刷術開啟的“谷登堡時刻1.0”通過工業化信息生產和傳播方式實現了信息傳播持續線性增長的潛能,跨越長達數百年的大眾傳播時代,塑造并定義了現代社會。而AI技術開啟的“谷登堡時刻2.0”通過數據和算法實現了信息傳播的指數化增長,代表了人類傳播的又一次根本性變革,開啟了智能傳播新時代。這一輪變革顛覆并重構了人在信息傳播中固有的主體地位,AI生成內容將占據絕對主導,全新的人機融合的合成社會即將到來。如何駕馭技術變革帶來的前所未有的高度不確定性和模糊性,成為最大挑戰。我們亟須進一步把握當前這場智能傳播浪潮的規律與本質,以全新的問題域去審視和反思技術、傳播與社會的互動。
關鍵詞:Sora;生成式人工智能;AIGC;ChatGPT;智能傳播;谷登堡時刻
課題:中央高校基本科研業務費專項資金;國家社科基金重大項目“互聯網環境下新聞理論范式創新研究”(編號:21amp;ZD318)
DOI:10.3969/j.issn.2095-0330.2024.03.001
引言:Sora沖擊波:人類傳播的又一次根本性變革
Sora的突現令世人矚目,收獲諸多贊譽。一時間所有人都想知道,該模型到底是如何運作的,它是根據什么數據進行訓練的,為什么現在突然發布它,它的真正用途是什么,以及它未來的發展對行業、全球勞動力、整個社會和環境的影響如何,等等。Sora展現了文本、圖片和視頻等各類媒體之間無縫的自動化生產與跨越的全新可能性,與一年前的ChatGPT一樣,掀起全球輿論的又一場沖擊波。
但是迄今為止,對Sora的認識主要停留在新聞效應層面,即從技術、產品、應用和資本等層面所作的解析和主觀研判。也就是說,對以ChatGPT和Sora等轟動性應用為代表的AIGC浪潮,各界的認識主要還停留在感性認識層面,部分上升到知性層面,還缺乏系統性的理性認識。人類傳播變革為我們理解Sora提供了一個更加開闊的視角。在諸多命名和論斷中,“谷登堡時刻2.0”可能是最恰當也是最貼切的命名。
人類正處于一個“加速、擴增和民主化”的時代。從印刷術的發明到科學革命、工業革命和核能革命,再到個人計算機和互聯網,托馬斯·L.弗里德曼(Thomas L.Friedman)將當前的生成式AI時刻稱作人類的“新普羅米修斯時刻”。他認為,相較于以往的變革,當前的變革并非由單個的發明如印刷機或蒸汽機所推動,而是由一系列相互關聯和增強的技術進步組成的超級循環所驅動。這個技術超級循環包括了從感知世界、將物理信息數字化、處理數據、機器學習、分享信息到采取行動的全過程,人工智能在這一循環中起到了重要作用。同時,我們不該忽視傳播在這個技術超級循環過程中所扮演的核心角色,它是連接各個技術環節的關鍵紐帶。從感知世界到采取行動的過程中,信息的生產和分發是至關重要的。人工智能不僅進一步加速了這個過程,還推動著社會信息傳播范式的轉變。
在這個意義上,我們可以說Sora沖擊波的本質是人類傳播繼谷登堡現代印刷術之后的又一次根本性變革。顯然,ChatGPT和Sora僅僅是這一輪技術浪潮的開端而已,更多突破性的技術、產品與應用還將層出不窮。但是,這一切都離不開“谷登堡時刻”的基本邏輯和框架。那就是,15世紀中葉現代印刷術的誕生,使圖書出版從手工作坊走向工業化生產。而今,人類信息生產和傳播超越人的環節進入一個數據和技術驅動、信息量可以實現指數級持續增長的全新時代。今天的人類社會,顯然還沒有為迎接這一新時代做好基本的準備。也因此,ChatGPT和Sora會帶來如此巨大的全球震動。
一、觀察S o r a 的三個視角及“ 三個時刻”
對于現代印刷術的影響,啟蒙運動者格奧爾格·克里斯托弗·利希滕貝格(Georg ChristophLichtenberg)說:“比起彈丸中的鉛,排字盒中的鉛更多地改變了世界。”雖然圍繞Sora的評價眾說紛紜,但是,結合年鑒學派費爾南·布羅代爾(Fernand Braudel)的時段理論,基本上可以分成三個視角:技術和產品層面的短時段視角,產業格局和行業變革的中時段視角,以及社會傳播變革與人類文明進程的長時段視角。三個視角交織綜合在一起,造成人們對Sora認知和評價的多樣性。
我們圍繞三個視角,概括Sora引發的變革,可以發現幾個著名的“時刻”。一個是“iPhone時刻”。2023年3月23日GTC大會上英偉達CEO黃仁勛將ChatGPT的出現比喻為“iPhone時刻”,其特指一個革命性的轉變時刻——喬布斯在2007年發布的第一代iPhone,標志著手機行業迎來了重大變局。從技術、產品和應用視角,以開啟移動時代的“iPhone時刻”來比喻,很生動直觀。另一個是“衛星時刻”,也被稱為“Sputnik時刻”。蘇聯在1957年發射人類首顆人造衛星Sputnik 1,蘇聯這一劃時代成就當即在西方世界引發了一場“衛星地震”,尤其是在美國人當中喚起了一種強烈而復雜的感受。因此,以“Sputnik時刻”來比喻國家創新和科技發展面臨的挑戰,形象貼切。克勞斯-呂迪格·馬伊(Klaus-R diger Mai)將谷登堡稱為“500年前塑造今日世界的人”。“或許可以說,谷登堡的印刷機是從中世紀晚期進入近代的社會范式徹底轉變的標志,因為它通過改變傳播而深刻地影響了人們的生活,從而改變了社會。”更重要的轉折是,“個體——一個此前無人了解的思想史單位——從此踏上了世界的舞臺,之前還依賴于上帝的主體迅速成為行為者和決策者。在傳播領域,個體成為作者,個人獲得的著作權保障了其作為作者的身份。人一躍成為創造者,而且也自知這一身份。”因此,如果要更宏觀、深入、系統地洞察Sora沖擊波的變革與影響,我們認為將其稱為“谷登堡時刻”,更契合本質,也更富有學理。傳播是人類和社會存在的基本方式。一部人類傳播史,就是一部人類文明史。回顧人類信息傳播變革的歷程,我們會發現,無論是互聯網還是ChatGPT,抑或是Sora,都是傳播變革宏大進程中的一朵浪花。它們并非突如其來的創新,而是歷史演進邏輯中的一個關鍵節點。從傳播歷史的維度審視Sora的意義,可以發現更深遠的進程和邏輯。
如果說15世紀中葉谷登堡推動印刷術普及引發的變革可以稱為谷登堡時刻1.0,那么,今天ChatGPT和Sora引發的革命可以稱為谷登堡時刻2.0。谷登堡時刻1.0開啟大眾傳播時代,確立了人的主體性。而谷登堡時刻2.0正式開啟智能傳播時代,將顛覆并重構人的固有主體地位。AI生成內容將占據絕對主導,人機融合的全新的合成社會(Synthetic Society)將到來。生成式AI以及深度偽造、類人機器人、增強現實和虛擬現實等技術建構的合成社會,將從人類生存方式上模糊真實和虛擬的界限。
這幾個“時刻”可以大致對應于布羅代爾的短時段、中時段和長時段的劃分。當然,它們之間的界限并不是涇渭分明的,而是有著相當程度的重合。不同的視角為我們理解Sora呈現了不同的邏輯,具有不同的深度和廣度。
從人類傳播歷史進程看,這一輪以ChatGPT和Sora等生成式AI為代表的智能傳播的新突破,很可能開啟第二次谷登堡時刻。正如基辛格等人所言,“生成式AI提出了自啟蒙運動以來從未經歷過的哲學和實踐挑戰。一項新技術(生成式 AI)正試圖改變人類認知過程,這是自印刷術發明以來從未經歷過的震動……隨著它的能力變得更廣泛,它們將重新定義人類知識,加速我們現實構造的變化,并重組政治和社會”。 盡管生成式 AI技術的研究仍處于起步階段,但隨著技術的迭代和各種AI 應用和產品的發展,這項顛覆性技術或成為撬動第四次工業革命的杠桿,引發包括傳播機制變革、生產方式變革、科研范式變革、教育形式變革和生活方式變革等在內的人類社會更深層次的變革,從而徹底改變人類的生活、學習和工作方式,甚至人類的思維。其最大的變革就是實現了以數據和AI技術驅動的信息傳播的指數級增長。
相較于智能傳播,20世紀80—90年代的網絡傳播和21世紀頭10年的社交傳播,處于兩次谷登堡時刻的過渡階段。互聯網革命的短短30年間,人類信息傳播從大眾傳播、網絡傳播、社交傳播轉變為智能傳播。全局性的革命似乎才真正啟航,而過去30年更像是一場“超級熱身賽”。當然,目前這一變革浪潮的序幕才剛剛拉開,其未來演進的圖景和產生的影響,依然充滿更多的未知和風險。
二、谷登堡時刻的共同特性:高度的不確定性和模糊性
迄今為止,人們對Sora影響的預測可謂悲喜交加。OpenAI聲稱,Sora將成為實現通用人工智能(AGI)的重要里程碑,是朝著AGI邁出的關鍵一步。特別是隨著Sora技術的發展和普及,AI在創造性任務中扮演的角色將持續拓展。目前透露出的狀況正預示著各行各業都將經歷一次創新和變革的浪潮。Sora不僅僅是一個視頻生成模型,作為一個能夠模擬世界的“數據驅動的物理引擎”,它能夠從大量真實世界的視頻中理解物理定律和現象。
人們對Sora的主要擔憂是其社會和道德影響。Sora的出現可能會進一步模糊真實與虛構之間的界限,涉及大量的深度偽造和虛假信息,從而加劇“后真相”狀況,我們無意中建立了一個“宣傳引擎”(propaganda engines)的世界,并越來越接近難以區分真假的時代。作為一個先進的AI視頻生成模型,Sora能夠提供更直觀的3D建模和動畫工具,促進教育和培訓,加快電影和游戲制作流程,推動虛擬現實和擴展現實內容的創新。但它也可能導致影視、游戲、廣告和短視頻等相關行業的運行模式出現變革,而大量失業則將構成重大社會風險;Sora改善和簡化視頻敘事的同時,也可能加劇互聯網虛假信息傳播,助長政治傳播和社會偏見等風險;它還可能被用來影響選舉,危及公共衛生措施,甚至可能因潛在的虛假證據而給司法系統帶來負擔。史蒂文·利維(Steven Levy)稱Sora可能成為“虛假信息的大災難”(misinformationtrain wreck)。加州大學伯克利分校的哈尼·法里德(Hany Farid)認為,Sora技術如果與AI 驅動的語音克隆(voice cloning)相結合,可能為深度偽造開辟出一個全新前沿。因此,如何確保Sora這樣的先進技術不會成為虛假信息的傳播工具成為一項巨大挑戰;如何防范其被用于制造虛假信息、惡意誤導公眾將成為一個亟待解決的社會議題;如何界定機器生成視頻的版權歸屬、防止濫用侵權行為成為法律法規和倫理規范需要面對的重要問題;監管層和技術開發者共同面臨著來自隱私安全問題的嚴峻考驗。
從短期來看,Sora可以被視為一種工具,在技術維度仍然有很多問題需要解決,但有評論家提醒人們不該忽視Sora的雙重性。AI是資本邏輯在當代的重要體現。對于OpenAI來說,Sora的重點不止于視頻,還應考慮其戰略維度。通過消費者產品、企業銷售以及開發者社區建設,OpenAI在當前的人工智能領域占據了領先地位。具體而言,通過消費者產品和企業解決方案的實踐,OpenAI不斷提升其技術水平,為生成式模型設立了新的標準。同時,通過社區建設,其AI應用更為廣泛和深入。在對AGI的定義和目標上,OpenAI也不斷探索著這一領域的邊界,試圖定義和構建未來AGI的可能形態。此外,ChatGPT和Sora等生成式 AI對人類全量知識進行整合的能力,對以知識傳授為主的教育理念帶來了巨大挑戰。當我們探索Sora能力的含義時,還必須考慮生活在一個眼見不再可信、真實與人造之間的界限變得越來越模糊的世界給人帶來的心理影響,其可能引發關于信任、信仰以及數字增強世界中人類經驗本質的重要問題。
這種巨大的不確定性和模糊性,同樣發生在印刷革命之后。事實上,直到今天,圍繞印刷術的社會影響及其變革意義,依然存在極大的分歧。這一方面涉及究竟如何認識傳播在社會建構和變革中的角色與作用,另一方面涉及關于技術對傳播的影響與作用機制的認識。迄今為止,人們對信息傳播在人類社會發展中的重要性,都缺乏基本的認識,其經常從屬于政治、經濟和技術等因素。而事實上,傳播更可能是政治、經濟和社會,甚至也是技術發展演進的關鍵因素。馬克思認為:“火藥、指南針、印刷術——這是預告資產階級社會到來的三大發明。火藥把騎士階級炸得粉碎,指南針打開了世界市場并建立了殖民地,而印刷術則變成了新教的工具,總的來說變成科學復興的手段,變成對精神發展創造必要前提的最強大的杠桿。”馬歇爾·麥克盧漢(Marshall McLuhan)更加突出了印刷術對資本主義經濟發展的關鍵作用。印刷術引起工業革命——“事實上,活字印刷是一切裝配線的祖先”。
美國史學家、傳播學家,媒介環境學派代表人物伊麗莎白·愛森斯坦(Elisabeth Eisenstein)認為,作為文藝復興、宗教改革、科學革命三大思想運動的“變革動因”,印刷術是一個完全獨立的技術構件,對當時及其后的政治、經濟、社會等方面都有重要影響。她對各學科廣泛認可并引用的馬克斯·韋伯的《新教倫理與資本主義精神》中對資本主義起源和西方理性化內在動因的解析,以及更被廣泛引用的托馬斯·庫恩(Thomas Kuhn)的《科學革命的結構》對科學范式轉變的內在原因的分析,都提出了強有力的質疑,并都將印刷術掀起的大眾傳播作為上述變革真正的根本動因。馬克斯·韋伯主張新教倫理觀念和生活方式為資本主義精神的形成提供了重要的精神動力。他認為,新教徒對勤勉工作的重視、對世俗事務的合理安排,以及對經濟成功作為神賜福分的解讀,為早期資本主義的發展提供了道德上的正當性和精神上的推動力。然而,他忽略了“這一切都和宗教思想的傳播有關,沒有印刷機,宗教改革這樣一場重大的革命是不可能完成的”。印刷術的出現是新教革命重要的先決條件。它使知識的存儲和傳播更為便捷和廣泛,從而加快了知識積累的速度;通過大量復制而保持一致的文本,為封建傳統知識權威的崩潰和現代知識體系的建立鋪平了道路,為資本主義和理性化的興起提供了更為具體和實質性的基礎。愛森斯坦的研究提供了一個清晰的邏輯來解析資本主義和西方理性化的復雜起源,即傳播革命是加強韋伯所說的新教倫理與資本主義精神之間關系的一個決定性因素。愛森斯坦還提供了一個新的視角,用以理解科學知識如何在早期現代歐洲得以迅速傳播和接受。托馬斯·庫恩聚焦于科學領域內部的變化,討論了科學理論和實踐中的范式轉變,即科學發展并非通過逐步積累知識,而是通過一系列的革命性轉變,這些轉變涉及基礎理論和觀念的根本性更替。科學共同體在一個穩定的范式下工作,直到積累起來的反常現象和問題導致現有范式不足以解決,隨后發生一場科學革命,產生新的范式。而愛森斯坦則認為,印刷術的發明和普及使得科學知識可以更廣泛、更迅速地傳播,使更多的人能夠接觸到這些知識,并參與到科學辯論和研究中。這種信息傳播的加速可能促使了科學理論的更迅速接受和集體思維的變化,從而有利于科學范式的形成和更替。
同樣,將傳播視為變革的最根本驅動,來理解和研判Sora的發展趨勢和社會變革,可能才是最經得起中長時段檢驗的視角。技術不僅僅是一個工具或者平臺,其傳播和采納過程實際上是一個動態的、交互的過程。作為技術體系的傳播邏輯不僅是參與控制的內在機制的形式,更多是參與社會構建的闡釋機制的增量。換言之,智能技術的傳播方式不僅影響信息的控制和管理(包括算法、數據處理和用戶界面設計等),也影響信息的社會構建作用的發揮。它深度參與社會認知的形成和價值觀的塑造,并在社會構建中逐漸形成新的社會實踐、交流方式和思維模式。
三、Sora文本生成視頻的原理與機制
如何理解Sora沖擊波,首先需要從其底層的核心技術革新和潛在發展來理解其意義。同時,這也將為理解此類技術對傳播學所產生的沖擊的內在驅動力提供基礎。了解這些技術的本質和發展軌跡對于預見它們將如何影響傳播至關重要。
Sora在技術層面被視為“視頻生成的GPT-2時刻”。它的主要功能是將文本描述轉化為視頻內容,這一過程的核心在于解析語言表達背后的復雜場景和動態視覺信息。正如OpenAI在其技術論文中所解釋的,Sora是基于之前在圖像數據生成建模方面的研究而構建的,如圖像生成器DALL-E和GPT大語言模型等。以往的研究采用了循環網絡、生成對抗網絡(GANs)、自回歸Transformer和擴散模型等多種方法,但其往往專注于某一狹窄的視覺數據類別、較短的或固定大小的視頻。Sora則超越了這些限制,并且在生成不同持續時間、寬高比和分辨率的視頻方面有了顯著的改進。它通過結合對語言的深刻理解和視覺上下文以及準確解釋提示來保持敘事的一致性,從給定的提示中捕捉角色的情感和個性,并將它們作為富有表現力的角色特征在視頻中呈現出來。處理視覺數據的統一表征(unified representation of visual Data)是Sora技術的核心突破,對于大規模訓練生成模型以及生成各種視覺內容的能力而言必不可少。從視覺數據到視覺子塊(visual patches)的轉變是Sora處理視覺內容的關鍵,即將圖像分割成序列化的時空子塊(Spacetime Patches),并將其作為視頻處理的基本單位。簡言之,Sora 是通過對視頻數據的學習來理解現實世界的動態變化,并用計算機視覺技術模擬這些變化,從而創造出新的視覺內容。但值得注意的是,Sora學習的不僅僅是視頻,也不僅僅是視頻里的畫面、像素點,它還學習視頻里面那個世界的“物理規律”。
生成式AI技術的歷史可以追溯到20世紀50年代的隱馬爾可夫模型(hidden markov models,HMM)和高斯混合模型(ga u s s i a n m i x t u r emodels,GMM)。從最原始的編程技術控制計算機實現內容輸出,到大規模數據庫的可用性增強和計算設備性能的提高帶來的可用性增強,從生成對抗性網絡(GANs)到大規模數據集的可用性不斷增強,直到深度學習的出現,生成模型的性能才有了顯著的提高。生成式模型在自然語言生成(natural language generation)、圖像生成(image generation)和多模態機器學習(multimodal machine learning)等領域的發展遵循著不同的路徑 ,但最終聚焦在自注意力模型(transformer)架構上。作為一種神經網絡架構,transformer模型在自然語言處理(NLP)領域(如ChatGPT)引發了一場革命性變化。同時,它也是Sora的技術底座。阿列克謝·多索維斯基(Alexey Dosovitskiy)等人將transformer原理應用于圖像識別,將transformer模型(通常用于處理語言和文字的模型)轉化為處理視覺內容的工具,突破了transformer模型在計算機視覺應用中存在的局限,使模型在理解整個圖像的內容和結構上變得更加靈活和高效。
作為對視覺自注意力模型(vision transformer,ViT)概念的進一步擴展,視頻視覺自注意力模型(video vision transformer,ViViT)被應用于視頻的多維數據。它通過將視頻分解為時空子塊(spatiotemporal patches),并將這些子塊作為transformer模型內的詞元來處理,同時捕捉視頻中的靜態元素和動態元素,并建模它們之間的復雜關系。在此基礎上,莫斯塔法·德加尼(Mostafa Dehghani)等人提出原生分辨率視覺自注意力模型(native resolution visiontransformer,NaViT),將其用于處理任意寬高比或分辨率的圖像,進一步拓寬ViT應用范圍。這在視覺識別領域是一個重要突破。
擴散模型(diffusion models)對Sora的影響顯著且意義重大,尤其是在數據利用和生成能力方面。它以少量數據作為訓練基礎,不僅提高了數據的利用效率,還極大地拓展了其生成各種高質量視覺內容的能力。這種能力對媒體內容創造、游戲開發、虛擬現實等眾多領域都具有深遠的影響。更進一步,隱性空間擴散模型(latent diffusionmodels)為視頻內容的高效處理和高質量生成開辟了新的途徑。這種在隱性空間內進行高效數據處理和生成的能力,使Sora在視頻合成和編輯領域的能力得到顯著增強,不僅提高了效率和質量,也增大了在資源受限的設備上進行高級視覺內容創建和修改的可能性。
擴散自注意力模型(diffusion transformer,DiT)成為Sora得以實現的最關鍵技術。它允許更有效地處理圖像貼片,使其在有效利用計算資源的同時,生成高質量的圖像。DiT為Sora提供了一個強大的框架,以便更深入地學習和模擬復雜數據分布,這對于視頻內容的生成尤為關鍵。在生成高質量圖像方面,DiT比傳統擴散模型擁有更低的計算成本。這種技術的使用標志著在利用深度學習模型進行內容創造方面的一個重要進步,對于增強現實、電影產業、游戲開發以及自動內容生成等領域都有著潛在的深刻影響。
四、Sora標志著媒介生產自動化與媒體形態一體化的臨界點
OpenAI承認目前Sora存在的一些局限,包括物理準確性差(難以模擬復雜的物理動力學原理,導致視頻可能不完全符合現實世界的原則)、連續性錯誤(保持較長視頻序列的連續性仍然是一個挑戰,對象位置或行為偶爾會不一致)、對因果關系的把握有限、空間細節不準確。但是,Sora的后續演進必將沿著現有的變革邏輯繼續深化下去。
對于Sora的社會影響和可能圖景,人們基本還是基于各自不同學科、不同視角來思考。但是,Sora正在多個方面重新定義AI視頻生成模型的標準,也產生了一些已經確定的新變革。
1. 物理世界模擬器
以往的AI生成視頻大部分是基于“大模型+大數據”架構,難以突破AI幻覺問題。Sora已經具有了“世界模型”的雛形,其生成的視頻是基于對真實物理世界的理解和重建。一方面,通過觀察和學習海量視頻數據,Sora 能夠通過掌握視頻世界中時空子塊單元之間的物理規律建立需遵守的模式,進而利用這些模式約束時空子塊的組合。例如,它能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景。另一方面,Sora 對來自物理世界的人、動物和環境等的模擬是在沒有經過3D、物理等明確數據標記的情況下發生的,完全得益于規模效應,這種涌現能力被看作其最引人注目的突破性特征。它不僅證明了DiT模型可以通過海量數據的學習,以“直覺”的方式理解整個物理世界,并表達各種物理規律,還指出了一條通向AGI的可行的技術路線。
2. 視頻時間長度、分辨率和寬高比
Sora的最大支持長度達到60秒,目前整個行業所公布的單個連貫性視頻的最大長度是1 6秒,行業的普遍水平是2—4秒。Sora在時長上的突破得益于NaViT技術,Sora能夠生成寬屏的1920×1080p視頻、豎屏的1080×1920視頻以及它們之間的各種格式,可以為不同類型的設備創建任何分辨率的視覺內容。這種能力的提升大大擴展了自動生成內容在不同場景和平臺中的應用范圍,進一步推動了媒介形態的一體化發展。
3. 鏡頭切換、畫面流暢性和時空一致性
此前AI生成視頻產品都是單鏡頭單生成,Sora生成的視頻,能夠在保持主體一致性的前提下實現多角度鏡頭無縫切換,整個畫面干凈流暢。雖然目前還沒有技術論文直接涉及該特征,但Sora能夠生成動態攝像機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間保持一致的移動。這也表明生成式AI在理解和表現復雜敘事結構方面取得了巨大進展,是電影、電視和在線視頻內容生產領域的重大變革。
4. 各類媒介形態的自動化生產和無縫一體化轉換
多媒體內容制作將變得更加高效,內容創作者可以在不同的媒介形態之間更加輕松地轉換和再創造內容。特別是對于內容生產和分發的生態系統來說,這是一個根本性的變化。然而,實現高質量的無縫一體化轉換仍然面臨挑戰,如要確保轉換的準確性、保留內容的意圖和情感、處理復雜或模糊的內容以及確保轉換內容的自然流暢性。
以Sora為代表的AI生成視頻技術的不斷發展,無疑將塑造文化規范、影響經濟模式并挑戰法律框架。它的社會影響超越了真實性和隱私,涵蓋技術在塑造人類經驗中的作用等更多問題。
五、兩次谷登堡時刻:變革的邏輯與進程
簡單地說,傳播就是信息的生產、處理、傳遞和接收的過程。我們可以將傳播簡化為信息的生產和傳遞兩個關鍵過程。顯然,谷登堡印刷術開啟的機械復制的廣泛應用是智能技術出現之前最大的一次變革。這一次變革的主要作用,就是使人類傳播擺脫了人類生理條件和自然條件的局限性,借助科學和工業革命,印刷術開啟了傳播信息的大規模生產和傳遞,實現了信息傳播的線性增長,人類進入大眾傳播階段。我們把它稱為第一次谷登堡時刻,即谷登堡時刻1.0。不可否認,該時刻的來臨有著中國發明印刷術等一系列準備和鋪墊。但是,真正的爆發還是在歐洲,其迎來了長達數百年的大眾傳播時代。
第一次谷登堡時刻的來臨始于印刷機這項革命性發明。印刷革命在所有方面都是其他革命的起源,推動了歐洲文化、宗教和政策的發展。尼古拉·德·孔多塞(Marquis de Condorcet)將印刷機視為人類思想進步的里程碑之一。它確保了文藝復興的成果能夠經久不衰,也保證了像中世紀那樣對知識和思想的遮蔽永不會再次發生。西格弗里德·H.斯坦伯格(Sigfrid H.Steinberg)在其著作《五百年的印刷史》中指出:“印刷史是整個文明史不可分割的一部分。”他認為,無論是政治、憲法、教會和經濟事件,還是社會學、哲學和文學運動,如果不考慮印刷術對它們的影響,都無法完全理解。盡管威爾伯·施拉姆(WilburSchramm)將印刷機視為大眾傳播的開端,但在相當長的一段時間內它仍是一種“未被承認的革命”——作為引起傳播變革的動因,它在關于文藝復興、宗教改革和科學革命的敘述中被低估了。愛森斯坦強烈呼吁將印刷史帶入現代性的問題核心。她指出,“不能僅僅把印刷術當作復雜因果關系中的許多要素之一,這是因為傳播變革使因果關系的性質變了”。
“一個歷史時期已經因印刷革命而開啟。不僅是火和鐵的發現,抑或是國家和戰爭的發展,信息的傳播同樣創造了文化和文明。”這場由印刷術引發的革命性變革,使人類復制信息的能力發生了一次飛躍,使知識的大規模傳播成為可能,改變了人類存儲和檢索知識的方式 ,而且深刻影響了社會結構、經濟活動和文化形態,可以說是現代世界發展的重要基石。在費爾南·布羅代爾看來,大眾傳播不是一個單純自生自長的現象,更不是傳播活動的總和,其復雜性只有在經濟生活以及社會生活的整體中才能被理解,而經濟生活與社會生活是在不斷變化的;同時,其復雜性本身也不斷在進化和演化,隨時會改變其意義或影響。作為大眾傳播的一個重要起點,谷登堡印刷術標志著大規模信息傳播時代的開始,信息傳播從精英化轉變為大眾化,從而對信息標準化、觀念和知識的廣泛傳播、社會動員與改革、新聞出版業的興起等產生了深遠的影響。
如果說第一次谷登堡時刻是由機械復制開啟的,那么,第二次谷登堡時刻,即谷登堡時刻2.0,則是由擬像開啟的。生產被再生產所取代,真實連同其參照物一起消失了,只剩下比真實還要真實的“超真實”,以及代碼相互參照且對立的、自娛自樂的狂歡。法國哲學家讓·鮑德里亞(JeanBaudrillard)將傳播描述為“一場大型的同義反復的操作,一場大型的自我實現的預言”。這意味著在某種程度上,傳播的過程不再服務于傳遞新信息或創造新的理解,而是變成了一種循環的自我確認的活動。在這個過程中,信息的傳播不再引發深刻的溝通或實質的變化,而是成為一個自我強化的模式,即便這些信息可能是冗余的、重復的或者缺乏實際內容。鮑德里亞的論述并不是一個絕對的判斷,而是一種批判性反思。他讓我們對信息傳播機制保持批判性思考,并警惕其可能對個體認知和社會結構產生的長期影響。如今的狀況是,生成式AI進一步將擬像從視覺和符號領域帶入認知領域。
從以TikTok為代表的由數據和算法驅動內容分發變革的上半場,到以ChatGPT和Sora為代表的生成式AI的下半場,智能傳播將大眾傳播、網絡傳播和社交傳播都變成了特例。數據主義將數據看作信息社會人類生活的中心。歷經原始神秘主義和近代人文主義,人類社會已經進入數據主義主導的時代。數據正在成為人類社會發展的核心要素。也正如尤瓦爾·諾亞·赫拉利(Yuval NoahHarari)認為的,如果把人類看作數據處理系統的發展過程,人類社會的發展可以劃分為認知革命時代、農業革命時代、工業革命時代和數據革命時代。在數據革命影響下,新媒體技術理論和實踐應用深刻改變著人類的傳播活動、傳播行為和傳播觀念,并驅動著人類走向萬物互聯的新世界。然而,人工智能生成內容(AIGC)的生產模式實現了整體性的信息傳播格局顛覆,第一次奪走了人類對信息流的主導,使傳播指向一個無限的開放系統。如今看來,盧西亞諾·弗洛里迪(LucianoFloridi)關于“三級技術”的論斷似乎正成為現實。作為使用者的技術與作為敦促者的技術一旦被媒介技術關聯在一起,形成技術—技術—技術的連接方式,技術就會開始呈指數級發展。智能和自主將不再是人類獨有的特性,一個超歷史的、依賴于三級技術的社會可以脫離人類而獨立存在。
生成式AI不僅對人類經濟和社會秩序的組織原則發起挑戰,它還是具有政治和文化顛覆性的自主技術的又一個例證,扮演著塑造知識、傳播和權力的角色。在凱特·克勞福德(Kate Crawford)看來,“人工智能既不人工,也不智能”,它完全依賴于一套更廣泛的政治和社會結構。AI還是一種權力,是技術和社會實踐、機構和基礎設施、政治和文化的綜合體,既反映又產生社會關系和對世界的理解。因此,我們只有在理解了新技術如何改變價值觀、權力結構和社會結構之后,才能知道什么是真正的進步。
六、谷登堡時刻2.0將如何重構傳播格局
第二次谷登堡時刻剛剛拉開序幕,盡管ChatGPT和Sora等強勢“出圈”,但是,未來智能傳播的新的主導性技術、應用與企業,依然不明朗。盡管AIGC助推了AI芯片的全球需求,催生了英偉達這樣市值高達2萬億美元的超級企業,但是,智能浪潮的產業格局并沒有塵埃落定。
當然,根據傳播變革的邏輯,在基礎、模型、應用和制度的四層架構下,大致的圖景開始有了一定的邏輯和輪廓,為我們把握這場變革提供了很好的理解框架。
其一,底層的關鍵基礎設施是以TCP/IP為基礎的互聯網元架構奠定的、信息傳播開放的全球一體化基礎設施。隨著其承載的網民數量突破50億大關,這一基礎設施使ChatGPT和Sora等創新性突破能夠第一時間被全球網民使用,并迅速積累了數億級的用戶規模,其與資本相互推動和催化,形成加速發展態勢。
其二,以AI算力為基礎的大模型體系,成為當下技術博弈和產業競爭的核心。美國牢牢占據著大模型領域的主導地位。當前最具代表性的大模型都集中在美國。例如,OpenAI的GPT—4模型、谷歌的PaLM 2 AI模型、Anthropic的Claude大模型、Google Deepmind團隊開發的Gemini,以及Meta開發的一種新的開源大語言模型LlaMA等。其中,算力是保證美國在AI大模型上占據領先優勢的關鍵。美國擁有世界上最大的云計算企業。據Synergy研究院發布的2023年第四季度全球云計算市場份額排名,亞馬遜(31%)排名第一,微軟azure(24%)排名第二,Google云(11%)排名第三,阿里云(4%)排名第四,美國企業合計占比達66%。芯片則是另一個關鍵因素。高性能的芯片能夠提供更加高效的計算能力,加速訓練過程。美國芯片制造商英偉達在科技創新和整個產業生態中處于引領地位。財報顯示,其2023年第四季度營收同比激增265%,達221億美元。截至2023年12月,中國已發布大模型約238個,10億級參數規模以上基礎大模型有79個(美國為100個),中美兩國大模型的數量占全球大模型數量的近90%。生命未來研究所(Future of Life Institute)在《全球AI市場中新興的非歐洲壟斷企業》(EmergingNon-European Monopolies in the Global AIMarket)報告中指出,歐洲普遍缺乏開發AI大模型所需的資金、數據和計算資源。歐洲可能主要扮演一個使用者的角色,即通過接入其他國家開發的大模型API來開發應用,其關注的重點更傾向于開源、可持續與綠色安全等。任何技術革命在其歷史進程中都不可避免地被嵌入國家角色并產生作用力,也不可避免地會引發國家間的新的博弈與新的競爭,人工智能也不例外。人工智能已經成為數字權力重要的呈現載體,走向全球技術競爭的中心舞臺。大國采取多種手段參與全球“AI競賽”的同時,也帶來了“AI監管競賽”,推動了AI外交新框架的形成 。
其三,主導未來信息生產和傳播的AI智能體即將出現。應用無疑是新格局中最豐富、最活躍也是最不明朗的部分。作為一個動態系統,AI智能體能夠感知環境并針對環境采取行動,它與“智能實體”概念緊密相連,又區別于“自動工具/程序”。比爾·蓋茨提供了一個更加直觀地理解智能體的方式——一種能對自然語言作出響應,并能根據它的用戶知識完成許多不同任務的由AI驅動的個人助理。他認為,智能體不僅將改變每個人與計算機的交互方式,而且將顛覆軟件產業,帶來計算領域的最大變革,對醫療保健、教育、生產力、娛樂和購物等領域帶來重大影響。
總之,谷登堡時刻2.0標志著人類社會信息傳播范式的根本轉變。首先,人的主導性地位被極大削弱,尤其是人作為內容創作者的核心主體地位被削弱。其次,信息擺脫人的局限性,呈現技術和數據驅動的傳播能力和數量指數級無限增長的趨勢。最后,人類社會將進入一個人機全面融合的合成社會,可能發生社會、政治、經濟和文化不可預知的巨大變化。OpenAI首席執行官薩姆·奧特曼(SamAltman)在迪拜舉行的世界政府峰會上表示,讓他在人工智能方面夜不能寐的危險是“非常微妙的社會失調”,這可能會給系統造成嚴重破壞。
七、谷登堡時刻2.0的社會影響與變革趨勢
正在到來的第二次谷登堡時刻,信息和知識的生產和傳播將從過去的大眾媒體、社交媒體等轉向大模型和智能體。這一輪傳播變革將更加全面建構未來社會,重構世界格局,塑造人類文明新的圖景。隨著智能傳播快速成為新的“時代背景”,圍繞智能媒體、算法、人機關系等焦點的各類研究如雨后春筍般出現。智能傳播生態正在構建全新的傳播邏輯,預示著未來社交媒體文化的終結與連接邏輯的嬗變。智能技術的發展構建了新的傳播景觀,改變了大眾對外部世界的認知方式,形成了新的社會關系。智能傳播以強勢的姿態浸入現實生活,打破現實和虛擬的界限,構建了更為多元的景觀世界。
互聯網開辟了“空間革命”,智能手機的出現帶來“時間革命”,生成式AI則可能形成“思維革命”,重塑各行業生態乃至整個世界。由數據和算法驅動的智能傳播正在給我們的工作和生活帶來前所未有的便利,不斷拓寬我們對信息處理和知識生成的認知邊界。正如喻國明等人所言,生成式AI將在信息層面、個體層面和連接層面引發深刻的變革,推動傳媒產業革新和社會數字化生存的發展。然而,這一進展同樣伴隨著深刻的挑戰。人們開始質疑,當算法越來越多地介入我們獲取信息、作出決策乃至形成社會關系的過程時,我們是否還能保有作為獨立個體的基本權利。算法對個體自主性所蘊含的知情權、選擇權、拒絕權等基本權利的消解,使作為主體的“人”逐漸走向數據化、群體化,最終成為技術工具的客體,喪失人的自主性。曾潤喜等人發現,具有多重過濾、滿意原則、算法黑箱、自我進化等特征的AIGC生成和傳播的“漏斗模式”是改變用戶認知的重要機理。該模式可能加劇用戶兩極分化、社會操控和偏見,制造民意分歧和政治腹語,激化人機關系悖論等認知風險。生成式AI不僅進一步重塑著社會,還造成了人的異化,重塑著人的交往、人的思維和人的勞動,威脅著人的主體性發展。我們必須警惕這種技術可能對人類自我認知和自主性造成的根本性改變。
AIGC為知識生產、連接與傳播帶來革命性影響,實現了知識生產全面數據化,知識連接全場景化,知識傳播復集中式。劉智鋒等對AIGC技術及其生成內容特征進行了梳理,提出AIGC技術對知識生產與傳播所帶來的革新與挑戰。作為“知識新媒介”,AIGC已經展現出從個人知識向公共知識傳播演化的過程。當機器生成的知識成為公共知識,成為公共對話、討論和社會運作的資源,必然對公共輿論、公共交往與公共生活產生重要影響。可見,生成式AI嵌入公共治理領域也將展現出巨大潛力,需要未雨綢繆,預判其可能帶來的失靈、失信、失德、失向等風險,使其成為一個可用、可信、可靠和可親的“推動者”。有學者提出,我們需要擺脫傳統的方法論個人主義、物化認識論和零和博弈思維,將人類與生成式AI的關系視為智能關聯主義,用以理解智能技術帶來的科技革命。生成式AI的突破需要人文社會科學研究者提供新的認識世界的框架,探索出適宜于智能關聯主義的人文應用場景。正如陳衛星所認為的,智能傳播是“基于信息生產的數據鏈組合,這就需要不斷確認數字符號和實踐經驗的關系,或者從操作形態上確定數字符號與經驗世界的相關性系數”,“基于人與人之間的關系建構是獲取并維系意義感、價值感、存在感的來源,并以此成為智能傳播的認識論的基石”。此外,生成式AI技術具有賦能現代政治傳播的巨大潛力。但它也可能助推政治的極化,造成“過多或過少”的民主,以及導致虛假消息的泛濫。對技術的響應度是政治傳播現代化的重要指標,我們要把握住歷史機遇,但同時也要以“超越機器”的反省能力建構新世界的政治傳播規范。
智能傳播將帶來人類信息傳播范式的根本轉變,也意味著舊有治理范式的失效和缺失。由此而激發的新興治理方法、新型制度和政策能力建設以及治理機制不斷被構建,以歐盟的GDPR、數字市場法和AI法案等為代表。AI已經成為一個迫切的橫跨不同利益相關方的優先事項。與此同時,全球AI治理格局也呈現出AI治理領域迅速增加的復雜性。“必須確保在接受任何技術變革的不可避免性之前評估其影響”的認識在很早之前就已經形成。“科林格里奇困境”表明,技術在起步階段可以相對容易地進行監管,但在那個階段,我們對其影響和監管原因的了解也處于起步階段。當技術得到部署并廣泛傳播時,對技術實施社會控制就變得更加困難。因此,治理的關鍵在于時機的把握,應根據生成式AI的主流化進程,探索“先發展,再治理”和“邊發展,邊管理”兩種節奏的靈活組合。但AI治理的實施仍具挑戰性。機器學習系統不透明的算法和不可預測的結果會妨礙人類對AI行為的可控性;數據碎片化和系統之間缺乏互操作性導致對組織內部和跨組織的數據治理難度增加;科技巨頭和監管機構之間的信息不對稱給立法帶來了挑戰 ;等等。
無論是作為對新威脅的應急反應,還是作為為新技術提前構筑的“防波堤”,這一輪制度建設與科技創新一道決定著人類的發展進程,也在快速成為大國博弈的核心戰場之一。為此,我們亟須進一步把握當前這場智能傳播浪潮的規律與本質,以全新的問題域去審視和反思技術、傳播與社會的互動。
(作者方興東系浙江大學國際傳播研究中心求是特聘教授,烏鎮數字文明研究院院長;鐘祥銘系浙江傳媒學院新聞與傳播學院助理研究員,烏鎮數字文明研究院研究員)