1972 年,休伯特 ·德雷福斯(Hubert Dreyfus)在《計算機不能做什么》一書中對“認知模擬”(Cognitive Simulation,簡稱 CS)和“人工智能”(Artificial Intelligence,簡稱 AI)兩個計算機子領域的實踐持悲觀態度 [1]。他認為,“只要‘人工智能是否可能(實現)’的問題還是一種經驗性的問題,這個問題的答案便只會是—在認識模擬或人工智能中幾乎不可能再取得有意義的進展”[2]。如今,情況發生了改變,“生成式 AI”(Generative AI)突破了從前僅能進行邏輯符號規則運算的“符號式 AI”(symbolic AI)的認知局限,在一定程度上擁有了處理上下文環境的能力。當人工智能的“符號主義”(symbolicism)全面轉向“聯結主義”(connectionism)后,新近 出 現 的 ChatGPT、Sora、DeepSeek 等 生 成 式AI 無一例外都展現出一個開放性系統的“涌現”(emergence)特征。輸入參數—生成結果,這一過程依托于系統內部各個模塊的交互、系統與環境的交互及系統的自我組織 [1]。生成式 AI 以其全新的自組織方式將觸角伸向了藝術創作等領域,正如列夫·馬諾維奇(Lev Manovich)所言,“計算機通過各類型媒介中現有表征的大型數據集來預測新的圖像”[2]。這一情況的出現帶來了新的藝術創作意識,其與人類過往通過“表征”(representation)創作出真實或想象場景的圖像有所不同。但這似乎并不能動搖德雷福斯的結論,因為完全模擬人類大腦的技術還遠未成熟[3]?!耙圃斐鲆粋€足夠像我們的裝置,在我們的世界中行動和學習,似乎也是不可能的?!盵4]
在當下生成式 AI 的發展浪潮中,德雷福斯的結論有助于我們理解“人工智能不能做什么”這一問題,但無法消除生成式 AI 給藝術創作者帶來的焦慮與困惑,因為對于處于發展進行時的AI 技術而言,相比“人工智能不能做什么”,公眾更關心的是“人工智能能做什么”,即人工智能在未來的藝術創作中將扮演怎樣的角色?它會重新定義藝術創作的主體嗎?我們能否脫離德雷福斯哲學式的思考方式,去思考人工智能的困境及其所帶來的挑戰?
一、美學的技術化評判標準:AI生成影像的“優化”思路
AI 生成影像是“人工智能生成內容”(AIGenerated Content,簡稱 AIGC)在數字影像創制這一藝術領域的應用實踐。當下的 AI 生成影像藝術實踐仍處于起步階段,并且伴隨著技術突破不斷發展。2023 年,文生視頻模型 Runway還保持著 AI 生成視頻最長時長 16 秒的紀錄,2024 年 2 月 15 日這一紀錄便被 OpenAI 推出的Sora 所打破,文生視頻達到60 秒的長度。同年,StreamingT2V 將這一時長延伸到 2 分鐘和理論上的無限長。在這一過程中 Sora 獲得極大的關注度,引發了新一輪關于AI 生成影像的討論,但學術界對此的看法各不相同。一派懷揣著技術樂觀主義觀點,認為Sora 作為“世界模擬器”(worldsimulators)是一種“強大的媒介”,“具有現實建構能力”,并且可以和 500 多年前的印刷術、100 多年前的“火腿電臺”(ham radio)、20 多年前的 Web 2.0 比肩 [5]。另一派則認為 Sora 包含了將 AI 技術“黑箱化”的傾向,難以產生藝術杰作,因為“視頻模型無法模擬出創作者的情感動態”[6]。還有一派保持著理性和中立的立場,認為Sora 被視作“傳統電影的延續和新生”的同時,仍需要解決“語言的邏輯和視覺的邏輯之間建立起真正的互通關系”的難題,因而“它至多只能是作為輔助人類進行創作的工具和手段”[7]。
圍繞著 Sora 產生的這些爭議,并非“杰作的力量”[1] 的老調重彈,當下藝術理論的主流觀點,并沒有像電影剛剛誕生時看待電影那樣將 AI 生成影像視為技術變革時代的“藝術救世主”,而是更加關注技術的目的、藝術媒介的歷史回路及其對人類生存狀態的影響等問題,并對 AI 生成影像的價值與社會影響表達了深切的憂慮。
關于 AI 生成影像的美學與創造力問題同樣存在爭議。在馬諾維奇等人看來,正因為藝術長久以來都被認為是典型的人類控制的領域,而且其不可解性和復雜性不會因為算法的出現而有絲毫的減少,所以美學和人工智能的相遇才是如此的關鍵 [2]。馬諾維奇整理出當時人們設想的定義人工智能藝術的三種主要方案。第一種是將圖靈測試擴展到人工智能藝術上,把通過測試的作品認定為屬于當代藝術或某一歷史時期的藝術。對這一方案馬諾維奇持否定態度,他認為圖靈測試是為了判斷機器和人之間的智力相似性而設計的,并不能將其套用在對審美和創造力的判斷中 [3]。第二種方案是將程序化設計、機器學習、深度神經網絡和風格遷移等計算機技術應用于藝術創作過程中。第三種方案是繼續探索計算機生成人類藝術系統所不具有的新系統,從而打破人類文化的元模式 [4]。馬諾維奇持有一種非人類中心主義視角,這使他對未來人工智能藝術前景的預測經常表現出盲目的樂觀,忽略了人類至今未能建構出一套完整的 AI 藝術審美評價體系的問題。其過分強調 AI 藝術具備開創新視覺文化潛能的論調,也掩蓋了至今人們仍然無法辨析“AI 藝術究竟和人類藝術有何不同”這一根本性美學問題的事實。
從技術出發,目前的 AI 生成影像帶來了驚人的視覺效果,對 AI 生成影像審美價值的評判標準主要為“效果”“細節”和“幀數”等技術化指標。為了讓 AI 生成視頻擁有視覺吸引力和強烈的動態效果,模型的“優化”功能成為決定生成質量的關鍵要素。在 OpenAI 官網給出的介紹性文獻《視頻影像的創生模型作為世界模擬器》中,“高保真”(high fidelity)被當做 Sora對比其他文生視頻大模型的重要優勢,這種定位也暗含著“優化”追求的目標;而 Sora 的技術原理和方法則被解釋為“利用一種轉換器架構來進行時空補?。╯pacetime patches)的操作”,在一個“擴散模型”(diffusion model)中對文本、影像、圖像進行轉化 [5]。簡而言之,Sora 在 AI生成影像領域引發的范式轉變來源于技術整合,其通過新的建模技術(一種將擴散和轉換器結合在一起的擴散轉換器模型)靈活并廣泛地處理不同時長、長寬比、分辨率的視頻和圖像,成為一種視覺數據的通用模型。盡管該文獻并未包含完整模型和具體實施細節,但是“時空補丁”和“擴散模型”兩個技術概念已構成了理解 AI 生成影像底層邏輯的核心。
“時空補丁”對應“大語言模型”(Large Language Model,簡稱LLM)技術中的“文本詞元”(texttokens),其主要用于整合大量的視覺數據模型,“是一種高度可擴展的有效的表征(representation)”[1]?!拔谋驹~元”是通過“分詞化”(tokenization)的過程,即將文本劃分為具有獨立語義的詞元來完成對文本的預測和生成[2]?!皶r空補丁”的工作流程與之類似,是將原始視覺數據“分割化”的過程。具體而言,“時空補丁”工作流程是首先將視頻壓縮,然后通過視覺編碼將之轉化為“補丁”,最后將這些“補丁”的表征分解為零散的“時空補丁”(圖 1)。在這里,視頻或圖像本身可被視為一種對現實的“表征”,“時空補丁”則是對“表征”的破壞與重建。通過大量的模型訓練和對原始長寬比、分辨率的維持,Sora 能夠靈活且有效地處理各種視覺數據,生成高質量的影像內容。
“擴散模型”(又稱“去噪擴散模型”,Denoising Diffusion Model,簡稱 DMM)是當前圖像生成技術的主流方法之一,其通過在圖片中加入“高斯噪聲”(又稱“正態噪聲”,Gaussian Noise)[3]來模擬擴散現象,并且通過逆向過程從(隨機)噪聲中生成圖片。簡而言之,該模型通過加噪和去噪的雙向過程出色地實現了對圖像生成質量的提升,尤其適合生成高分辨率、類似照片的仿真圖像。在最早提出這種方法的論文中,帕斯卡爾·文森特(Pascal Vincent)等人將“去噪自動編碼器”(Denoising Autoencoders)定位為“一種新的無監督學習表征的訓練原則”[4],擴散模型通過向圖像添加噪聲,也就是將圖像的表面“像素化”,拆解為一個個小的“技術方塊”,再從中進行篩選、重組,幫助圖像在大量的、隨機的數據中表現得更加穩定,進而生成一個新的、質量更高的圖像,無論是“時空補丁”還是“擴散模型”,它們的目的都是確保生成過程中“圖像 / 影像”輸出結果的準確度、穩定性和精細度,這只是一種單向的、矢量化的技術思路。
這一“優化”思路本身就帶有一種美學標準技術化的特征,極大地影響了人們對AI 生成影像的美學價值評判,并造成了美學標準與技術標準的概念混淆。大眾目前對AI 生成影像的追捧一定程度上也源于 AI 圖像 / 影像的“高保真性”。這種技術主義傾向不只關乎技術進步,還牽引出藝術創作意識的改變對影像認知環境的影響。正如威廉·弗盧塞爾(Vilém Flusser)對“寫入”和“寫上”的區分—如果說用刻刀鑿字的“寫入”過程是費力的、緩慢的,如同刻“紀念碑”,那么用毛筆涂寫則是匆忙的、傳遞性的、“文件性”的??梢?,從“寫入”到“寫上”的轉變已成為一種舍棄一切存在(Sein)而僅僅追求生成(Werden)的做法 [1]。可以說,AI 生成影像的創作意識已從弗盧塞爾所言的“寫上”進入“生成”階段,這一過程是自動化和連續性的,是通過“時空補丁”和“擴散模型”對圖像/ 影像的表征進行“破壞”繼而“重建”完成的?!凹夹g物”涌現化的存在模式與“藝術物”表征化的存在模式有很大的不同,人類在其中的位置則變成了“交互”而非“存在”的主體。交互過程發生在人類的提示語句 / 圖像 / 影像和人工智能的自動機制之間,因此在這種指令邏輯隱形的結構中,海德格爾所稱的那種使用者與工具交互的“在手狀態”消失了 [2]。
圖1 “時空補丁”的工作流程。圖片來源:OpenAI官網。

二、表面、競速與游戲:AI生成影像的美學表征
“在手狀態”的消失導致了當代美學評價體系對 AI 生成影像評判標準的價值認知偏移。如此一來,重塑 AI 生成影像的美學評判標準,就是發現、認知 AI 真正美學價值的前提。首先,AI 生成影像所借助的表征形式不再是符號修辭學所“代表”和呈現的那個映射現實之物,而是經由“時空補丁”“去噪擴散”等數字技術手段所帶來的“擬像”的建構性生產。其次,當下的AI 生成影像將人類對真實和虛擬的懷疑都轉化為一個遠大目標—“對物理(真實)世界的模擬”[3]。為實現這個目標,OpenAI 在“討論”(Discussion)部分并未對藝術創作的情感表達、人類與新影像之間的關系等問題做出回答,而僅僅只是列舉當下 Sora 模型在模擬現實方面的缺陷—“它不能準確模擬許多常見的、由互動產生的物理現象,如玻璃碎裂。其他的互動,例如吃食物,并不總能表現出正確的物體狀態變化”[4]。而解決技術缺陷又被定義為未來人工智能生成影像領域主要的努力方向。AI 生成影像的技術底層邏輯和技術持有者的“遠大目標”共同為其美學表征定下了基調,即“模擬”大過一切。
這一建基于“擬像”技術的“模擬”行為和以安德烈·巴贊(André Bazin)為代表的建基于物質現實的攝影影像本體論(The Ontology of thePhotographic Image)有著明顯區別。巴贊根據攝影的復制邏輯,建立了電影與客觀世界—攝影對象之間的現實主義對應關系,其理論基礎在于“電影的實在”(cinematic reality),也即影像存在的確定性[5]。在巴贊看來,“照片作為‘自然’現象作用于我們的感官,它猶如蘭卉,宛如雪花,而鮮花與冰雪的美離不開植物與大地的本源”[6]。然而,AI 生成影像在“涌現化”的創作過程中缺少明確的索引性,難以找尋到其藍本或原型,更遑論與客觀世界之間的對應關系。因而,AI 生成影像的美學表征問題并非巴贊式的影像本體論問題,而是技術邏輯掩蓋下的與人類現實的關系問題。我們不能以技術標準來衡量“美”,但可以從“優化”“擬像”“生成”等技術環境出發,發現 AI 生成影像在美學上的具體呈現。具體而言,AI 生成影像的美學表征體現出三個方面的內容,分別是去深度化與離身性的表面美學,去拓撲化和新巴洛克式的競速美學,以及去歷史化和隨機性的游戲美學。
(一)表面美學:去深度化與離身性
從AI 生成影像的技術原理來看,“去深度化”是其顯著特征。無論是“時空補丁”的壓縮與切割,還是“擴散模型”在影像表面的加噪與去噪,二者都體現出一種只針對“表征”的操作流程。就AI 生成影像與人類的互動關系而言,“表面”同時作為“界面”(interface)具備著“交互性”?!氨砻孀鳛橐粋€空間界限的概念,為界面交替 /切換(commutation)所取代”[1],其影像生成過程需要人類進行指令輸入才得以完成。車致新在其對抖音的討論中,將抖音的反深度化界面設計和獨特的視覺形式概括為一種“表面美學”,因為在抖音中除了“表面”一無所有 [2]。抖音所代表的短視頻界面的無深度和 AI 生成影像的“去深度化”有一定的聯系和區別。一方面,抖音和AI 生成影像的“交互性”都必須在界面上完成,二者對界面設計都有技術要求,而且這一技術要求均以“優化”為目標。另一方面,短視頻通過讓人的注意力在一個“表面”與另一個“表面”之間滑動來塑造一種沉浸式體驗,而 AI 生成影像的機制具有離身性,人類僅在輸入指令的時間段與界面互動,因此也就無法復現在短視頻消費中所獲得的“沉浸”。
在 Sora 推出的第一批 AI 生成影像中,我們可以看到城市的“表面”(《東京街頭的女子》)、物體的“表面”(《玻璃球中的禪公園》)、動物的“表面”(《猛犸象》)、人類的“表面”(《在云上閱讀的男子》)、歷史的“表面”(《加利福尼亞的歷史影像》)、藝術的“表面”(《跳迪斯科的卡通袋鼠》)等 48 個對現實的模擬影像,這些影像不僅包含了物理世界的現實,也包含了人類的社會現實、歷史現實與文化現實。盡管我們可以忽略掉其中的技術瑕疵,比如人物動作的不自然、不能準確生成腳趾數量、雪與人物服裝的矛盾等,但是這些影像仍然是“不及物”的—其相對完整地再現了外部世界的表面,卻動搖了影像得以存在的外部秩序,在對表征的破壞與重建過程中,在“涌現”的生成機制中,“終止與外部世界的聯系”[3] —由表面而來,向著表面而去,這是離身性的另一重含義所在。
(二)競速美學:去拓撲化與新巴洛克式
借用法國哲學家保羅·維利里奧(Paul Viri-lio)“電影即戰爭”[4] 的說法,我們同樣可以說“AI 生成影像即戰爭”。維利里奧認為,電影場和戰場一樣都是知覺場,現代技術的超越帶來了電影系統和武器系統向間接視覺運動的升級,從而產生了一種“競速美學”—知覺的加快、
時空的加快、身體的重塑等現象同樣意味著知覺的消失、時空的消失、身體的消失 [1]。對于 AI 生成影像而言,這場“戰爭”不僅僅關乎技術競賽、對“優化”的不間斷追求,而且也關乎對時空和視覺的雙重占領。一方面,AI 生成影像塑造了一種新的“地形”,形成了時空的“去拓撲化”,這種虛擬真實消除了我們對距離和維度的認識[2]。另一方面,視覺的加速體現在“新巴洛克式”的生成模式之中,在“潛在空間”(Latent Space)中對影像不斷破壞和重建,其主導力量不再是情節或故事,而是“模式”—無限重復的、自身封閉的、規則操控的結構與算法的模式 [3]。簡而言之,“競速美學”帶來的是對時空感知能力的破壞,以及視覺的繁復與空洞。
全球首部人工智能算法自動生成電影《我們的終結者 2 重制版》(OurT2Remake)呈現了“萬花筒”般的影像世界,各種畫風和影像類型充斥其中。全片片長82 分53 秒,被劃分為25 個小章節,這些小章節分別由不同的 AI 模型生成,最終拼湊出一部所謂“電影長片”。在 2024 年 2 月 21 日發布預告片后,該片于 2024 年 3 月 6 日上映。影片翻拍自《終結者 2》(Terminator2:JudgmentDay,1991),通過將 ChatGPT 發布之后所引發的技術恐懼內化為敘事的一部分,展開了人類與 AI 之間的戰役。在片中,各類時空、人物、畫面交織在一起,同時破壞了空間和時間的拓撲結構,指向一種無根基的、純粹的數字時空。各類算法、模型的綜合運用也未能保證基本敘事情節的完整,在眼花繚亂的競速影像中,影片向“新巴洛克式”風格邁進,進而滑入了空無深淵。影片中出現的許諾—“AI 將讓這個世界變得更好”(圖2)—看上去更像是一種安慰,因為在速度之中,一切都消失了。
圖2 《我們的終結者2重制版》中出現的“AI將讓這個世界變得更好”的臺詞。圖片來源:Youtube網站。

(三)游戲美學:去歷史化與隨機性
AI 生成影像的游戲美學不僅體現在它的“交互性”上,也體現在它對電子游戲影像的征用上。在 Sora 推出的 48 個模擬影像中,有一個是模擬電子游戲《我的世界》(Minecraft)“像素風”的生成影像,其完整還原了該游戲的界面、角色行動視角及環境生態。在此之前,同為 AI 模型的英偉達推出的深度學習超級采樣技術(DeepLearning Super Sampling, 簡 稱 DLSS3.5) 已 經被用于電子游戲的光線效果重建,以提升畫面的幀率和色彩等方面的呈現效果。如果說 DLSS3.5的技術應用仍然是為了“優化”的整體目標,那么 Sora 在模擬“像素風”時所生成的游戲世界則是為了突出“它在構建、實施連貫性原理這個方面的實力與強力”[1]。克里斯汀·達利(KristenDaly)在《電影 3.0:互動影像》(Cinema3.0:TheInteractive-Image)一文中指出,“互動成為數字媒體必然的結果”,因此“世界不再是畫面,而是游戲”[2]。Sora 影像和基于游戲引擎制作出的“引擎電影”(Machinima)均為“互動影像”。通過將二者進行對比,我們可以探知 AI 生成影像是如何將“世界”編碼為“游戲”的,并揭示出蘊含其中的游戲美學—其對游戲風格的模擬是一種“去歷史化”的表征方式,是脫離了“敘述”的隨機性界面展示。
基于《我的世界》游戲引擎制作而成的引擎電影《我的三體》(TheThre-BodyProbleminMinecraft)改編自劉慈欣的科幻小說《三體》。創作者利用游戲的“像素風”嘗試還原原著中所描繪的“三體世界”。與 Sora 版“我的世界”將模擬游戲界面和視角視為作品目的不同,《我的三體》將“游戲引擎”背后的意涵視為服務于敘事的表現手段。當然,Sora 對于敘事的摒棄可被解釋為技術條件的限制,但其“去歷史化”的游戲美學特征并不來源于此,而是來源于影像的隨機性及觀看者和影像之間關系的改變。正如列昂 ·葛瑞威奇(Leon Gurevitch)在分析谷歌地球的虛擬場景時所指出的那樣,“數字模擬不再與客體空間保持傳統關系,攝影機變成了空間的組成部分”[3]。如果說《我的三體》對游戲影像有意的排列組合是為了構建一個將觀看者納入其中的敘事空間,是一種歷史化的敘述方式,那么在Sora 版《我的世界》中,攝影機或者說敘述空間成為生成空間的組成部分,而觀看者則被排除在外,他們所看到的僅僅是隨機性生成的界面展覽。
以 Sora 為代表的 AI 生成影像將再現的、結構的、拓撲化、歷史化的美學表征破壞殆盡,并將其重建為離身的、新巴洛克式的、隨機的界面展覽。這一進程改寫了葛瑞威奇所謂“游戲效應”美學。葛瑞威奇認為“游戲效應”將會使影像跨媒介空間的建構方法從“交易電影”轉向“互動電影”[4]?!敖换ァ被蛘摺盎印边@一本應成為關鍵性美學表征的元素在生成式技術邏輯之下也被削減為機械化的重復勞動指令,在“生成”取代“寫上”之后,其美學潛能還有待進一步發掘。在世界影像化的時代,這一動作同時帶來的是尼古拉斯·尼葛洛龐蒂(NicholasNegroponte)所說的“數字化生存”[5] 程度的加深,人類的生存空間被大大小小的屏幕所占據,“點擊”“劃動”等動作成為日常生活的一部分。那么,在這一頻繁的、必不可少的動作背后,AI生成影像能給人類帶來新的藝術體驗嗎?和人類藝術作品相比,AI 生成影像所帶來的藝術體驗又有何不同?
三、感覺的邏輯:作為“不相關影像”的AI生成影像
AI 創作體現的上述三種表征,正是其與在現實物理場域呈現的傳統藝術產生審美差異的關鍵。AI 生成影像以界面展覽的形式取消了其與現實之間的聯系,而當人類與之發生互動時,除了有“輸入”和“點擊”這些身體動作的參與,還有觀看和體驗的權力介入。在AI 生成影像表面、競速、游戲的美學表征之下,其實還蘊藏著另外一個特征,即 AI 生成影像與人類之間不存在傳統藝術作品與人之間的那種“感覺邏輯”[1]。
想要正確建構當下有關AI影像的審美體系,就必須正視AI 生成作品對“感覺邏輯”的破壞,而德勒茲對審美發生的一系列分析可以為當下有關 AI 影像的審美體系建構提供啟示。德勒茲認為,“藝術作品是感覺的一種生存物,而不是任何別的什么:因為它自在地存在”[2]。在對法國畫家塞尚的繪畫分析中,德勒茲強調了“形象”的重要性—“所謂形象,就是被拉到了感覺層面的、可感覺的形狀;它直接對神經系統起作用,而神經系統是肉體的”[3]。在對培根繪畫的論述中,德勒茲進一步指出,所謂“感覺的邏輯”并非建立在“形象—感覺—肉身”的相關性之上,而是建立在“情動—身體”的關聯性架構中—在一種色彩、一種味道、一種觸覺、一種氣味、一種聲音、一種重量之間,應該有一種存在意義上的交流,從而構成感覺的“情感”時刻(非再現性的時刻)[4]。
因而,藝術作品所依靠的“感覺的邏輯”是“非再現性的”“情動—身體”的關聯性架構,那么,以“再現”和“模擬”為目標的 AI 生成影像目前可否被稱為“藝術作品”?德勒茲說:“只要畫布未損,畫面上的年輕人便會永遠微笑?!盵5] 我們是否可以說“只要 AI 未損,界面上的年輕人便會永遠微笑”?Sora 所呈現出的人物動態、擬真環境、畫面細節均不以接近創作為目的,而是以模擬現實為追求,在它生成的影像中不僅有“永遠微笑的年輕人”,還有城市、物體、動物、歷史、藝術的“表面”。這也說明這些影像更加靠近自然影像的范疇,并朝著“AI 藝術”邁進。雖然AI 生成影像脫離了人工的創作痕跡,同時兼具上述“表層化”的美學表征,但其仍然可以被視作一種“感知物”:一方面,AI 生成影像還未成熟,處于發展階段,其最終形態尚未確定;另一方面,技術開發和加速進程讓 AI 生成影像成為未來影像的一種確定形態和主要發展趨勢。在不能對 AI 生成影像的藝術本體作出判斷時,從“感覺的邏輯”及其“相關性”入手,也就是從藝術作品與人類之間發生交互的“情動—身體”架構入手,仍可一窺其表層之下的真實面貌。
在AI 生成影像中,“感覺的邏輯”發生了變化,這種“相關性”因此被“不相關影像”所取代。對于德勒茲來說,過去在繪畫中出現的對象的表征是一個時間性的綿延過程,“感覺”不是存在于光線與色彩的無人介入的空氣之中,而是存在于身體之中 [1]。對于 AI 生成影像而言,其影像是表面和離身的,身體僅僅依靠輸入指令無法參與到界面的隨機生成過程中,“交互”的動作反而破壞了原本對時空和偶然性的感知。在肖恩·丹森(Shane Denson)看來,AI 生成影像“本質上是完全過程性的,這表現為從它們的數字接收和傳遞到它們在計算播放設備中的實時處理”,“這種基本過程性推翻了影像作為離散包裝單元的本體地位,并將其自身影射到我們自己對感知信息的微時間處理中,從而擾亂感知人類主體的相對固定性”[2]。也就是說,AI 生成影像的技術時間破壞了我們感知信息的微時間,它將實時生成的技術過程重建為基于“交互”的行動過程,超出了人類感知的范疇。這不僅影響到人類對其產生情感交互的現象學效果,而且也與人類的主體性不相關—其不再適應人類感知過程的頻率,因此不再必然出現于“情動—身體”的架構中[3]。
在《不相關影像》(Discorrelated Images)一書中,丹森以數字模擬鏡頭光暈為例,來說明這種不相關現象。丹森認為,數字模擬鏡頭中的光暈導致了敘境空間和非敘境空間的微妙混淆,光暈實時模擬了相機的物理特性(只要求被看到,以便我們感知到更多的模擬真實),同時也包含夸張的展覽性目的(乞求我們去看到這種光線和虛擬鏡頭之間互動的驚人的模擬效果)[4]。在 AI 生成影像中同樣如此,例如在 Sora 發布的“下雪的東京”(圖 3)的十幾秒影像中,生成技術所模擬的鏡頭光暈效果營造了一個真實的飄著雪的戶外空間。鏡頭以一個俯視的視角跟隨著兩個行人運動,觀者仿佛置身于東京的街頭,能夠察覺到光線照射在雪花和櫻花上的區別,也可以看到遠處天空中云層的光邊。不可否認,影像所呈現的效果建立起了觀者和如夢似幻的“模擬現實”之間的感知聯系,吸引觀者“進入”到影像當中。但與此同時,觀者并未真正“進入”到該影像當中,因為鏡頭光暈將觀者的注意力轉移到了效果本身上,通過虛擬攝影機的流暢運動,細節的逼真性突出了影像的人工性。
圖3 Sora發布的生成式影像“下雪的東京”。圖片來源:OpenAI官網。

在羅蘭 ·巴特(Roland Barthes)的“刺點”(Punctum)理論中,這種“相關性”在影像(巴特是以照片為例的)中與人類的生命體驗相聯結。在《明室》一書中,巴特對“研點”(Studium)和“刺點”作出了區分?!癝tudium”是指照片中的文化含義,屬于信息層面,是“我”被照片的內容所喚起的情感,“這種感動是通過道德和政治的理性中介起作用的”?!癙unctum”則是照片所帶出的“刺點”,偶然刺痛“我”的東西,“作為一個‘細節’存在的同時,這個‘Punctum又不合常情地充滿了整張照片”[1]。巴特舉了很多例子來說明“我”與照片之間的相關性,其中一 個 是 查理 ·克利 福 德(Charles Clifford) 拍攝的《阿蘭布拉》(TheAlhambra,圖 4)。
一棟老房子,一個帶陰影的門廳,房頂上的瓦,老式的阿拉伯風格的裝潢,靠墻坐著的人,空蕩蕩的街道,一株地中海地區常見的樹(查理·克利福德拍攝的《阿蘭布拉》),這樣一張老照片(攝于 1854 年)打動了我:這很簡單,我只是想到“那里”去生活。這個想法深深地藏在我心頭,我不知道源于什么:炎熱的氣候?關于阿波羅的地中海神話?無人繼承?退休?隱姓埋名?高尚情操?不管是什么(源于我的自我,我的動機,我的幻覺),我就是想到那里去生活,“講究地”生活—而這種講究,一張旅行照片是永遠滿足不了的。[2]
圖4 《阿蘭布拉》,[英]查理·克利福德攝影,1854—1856年。

在巴特的論述中,“刺點”是“我”和照片相關聯的中介。這一中介并非在形象層面對照片內容的認知,也不僅僅是肉身對該照片所產生的情感反應,而是一種深層次的“情動—身體”架構,它既關乎“感覺的邏輯”,也關乎“我”生存的方式和意義。沿著巴特的“刺點”理論路徑,我們不禁自問:“我”真的想去AI生成的影像中生活嗎?
在這個意義上,AI 生成影像作為一種“不相關影像”破壞了時間性、偶然性上的感覺綿延,中斷了感覺邏輯的運作過程,而“情動—身體”的關聯性架構被重建為丹森所說的“新陳代謝”過程。在丹森看來,“新陳代謝”是沒有感覺或情緒的情動,這個代謝影像是變化的典型影像,它反映了一個觀點,即新陳代謝本身的沉浸式、無差別的(非)視角—一種物質情動—作為過渡的媒介分布在身體和環境中 [1]。也就是說,AI 生成影像的“不相關性”所引發的不僅是“感覺的邏輯”被破壞和重建,而且也帶動了整個媒介環境或者說人與影像關系的改變。
結語
AI 生成影像作為“不相關影像”喪失了“情動—身體”架構,成為一種無生命影像,并指向“人—機”關系不確定性的未來。具體而言,AI 生成影像在技術層面上破壞了傳統影像美學理論的表征,追求“高質量”的影像美學評判標準加重了審美領域中的“技術決定論”傾向;破壞圖像的“再現”、重建圖像的“界面”的創作方法,生成了競速時代新的展覽化影像形態;在感知層面破壞主體感知的時間性綿延,成為自動化“新陳代謝”過程?;氐轿恼麻_頭德雷福斯所提出的“人工智能不能做什么”的問題,若從“不相關性”的視角出發,這一問題的答案就不應僅是“人工智能并不能依靠模擬大腦來生成影像”,而且還應有“它在改變我們的大腦”。
由此,對 AI 生成影像美學表征的分析最后仍然無法回避和人類現實相關的道德問題,AI能否引領一個更加美好的未來?這個問題的答案需要在人類的具體可感知的實踐生活中去尋找。在史蒂文 ·斯皮爾伯格(Steven Spielberg)導演的科幻電影《人工智能》(A.I.:ArtificialInteligence,2001)的開場段落,是一群人在會上討論是否要制造一個擁有“愛”的能力的小孩機器人,一位黑人女士提出了一個至關重要的問題:“社會彌漫著仇視機器人的氣氛,問題不是制造會愛的機器人,真正的問題是……人類能不能愛他們?”對于 AI 生成影像而言,這一問題變成了“當虛擬現實完全能夠模擬真實世界的時候,真正的問題是……人類能不能愛這個世界?”