

基金項目:2023年教育部人文社會科學規劃基金項目“技術現象學視角下的城市空間感官生態變遷研究”(23YJAZH023);湖北科技學院科研創新團隊項目“元宇宙與傳媒發展研究”(2022T06)
作者信息:鄧志文(1972— ),男,湖北麻城人,博士,湖北科技學院人文與傳媒學院教授,主要研究方向:美學、技術哲學。
【摘要】近日,OpenAI推出了代表了目前文生視頻最高水平的模型Sora,成為生成式人工智能發展史上的里程碑。然而,Sora還是存在著一些技術上的缺陷和不足。從時間現象學角度看,Sora外在時間結構“陣容”殘缺,只有客觀時間,沒有主觀時間和內在時間意識,導致其無法描述人類的心理時間,不能解釋事件的因果關系和建構復雜有意義的事件及情節。此外,滯留和前攝的缺席,導致其無法連接動作和結果;缺少內在時間性動態生成結構的介入,Sora亦難以展現隨著時間推移而發生的事件。因此,從技術層面增加數據模型的意向性實踐和提升意向性設計的算量、算法,完善內外兩個時間性結構,成為提升Sora現實表現的關鍵。
【關鍵詞】文生視頻 Sora 時間性結構 生成式人工智能 現象學 滯留與前攝
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2024)6-046-07
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.006
從虛擬現實到元宇宙,從ChatGPT到文生視頻,生成式人工智能以摧枯拉朽的技術偉力不斷創造著一個又一個科學神話和熱門話題,并以其驚艷的表現“俘虜”了世人的目光,其迭代速度可謂日新月異。目前,文生視頻正被廣泛地應用于企業宣傳、數字化人、科普創作、線上社交等領域。[1]2024年伊始,OpenAI又隆重推出了新一代文生視頻大模型Sora。作為生成視頻領域的“王炸”,Sora再一次刷新了人們對人工智能技術的認知,該消息迅速登上熱搜并成為各大新聞網站的頭條。Sora突破了之前Runway、Pika、Meta等公司的AI文生視頻最多只能持續十幾秒且單鏡頭單生成的“天花板”,能根據用戶的文本指令生成長達1分鐘的高質量視頻。逼真的視覺效果令Sora在一夜之間“爆紅”,其精湛的技術表現亦讓人們嘆為觀止,就連馬斯克也驚嘆地表示“人類愿賭服輸”。Sora強大的視頻生成能力,使其在社交、創意產業、視覺藝術、新媒體、影視制作、教育培訓、虛擬現實和增強現實、娛樂等領域有廣闊的用武之地。它標志著人工智能在理解現實世界并與之互動方面發生了質的飛躍,這似乎昭示著通用人工智能“一統天下”的時代已經近在眼前了。
就在人們對Sora頂禮膜拜和贊不絕口的浪潮中,一些理性的聲音也開始浮出水面。其實,在此之前,已有學者對生成式人工智能的潛在風險表達了關切,如倫理風險、信息失序風險、科技安全風險、價值導向風險,還包括系統性偏見、價值觀對抗、觀點霸權、刻板印象、虛假信息等問題。Sora作為熱點話題也自然進入了人們討論的視野。《環球日報》記者曾以Sora為話題采訪了劉偉、吳甘沙、楊靜等多名人工智能領域專家和企業界人士。在喜憂參半中,他們都對Sora這個新生事物持較為辯證、客觀和理性的態度。任何技術產品都不是完美無缺的,我們應該對Sora的現實表現與應用前景秉持理性和謹慎的態度。一些人還對Sora可能帶來的各種風險憂心忡忡。他們認為,Sora強大的擬真能力使得人工經驗和真實經驗的邊界更加模糊,并對人們日常經驗產生負面影響,從而影響人們的實在觀。在人工經驗與真實經驗的雙重介入下,人們要形成對客觀世界的準確認知恐怕是比較難了。[2]“當生成式人工智能信息來源的真實性無法保障時,將嚴重影響用戶知情權和決策權的行使,從而演變為人機對抗的不利局面,使得科技發展可能脫離人類可控范圍。”[3]尤其對以真實性為生命的新聞業來說,在Sora的使用上更要慎之又慎。
盡管Sora的走紅有OpenAI公司營銷和眾多媒體背后推波助瀾的因素,但應當承認,作為生成式人工智能的一種,即通過大規模數據庫/集的學習和分析,進而生成與訓練數據相似的、具有一定邏輯性和連貫性的語言文本、音頻、 圖像、視頻等內容,Sora也和ChatGPT一樣,是邁向通用人工智能時代的重要里程碑。截至目前,對文生視頻以及模型Sora的關注不在少數,但多見于網絡新聞、發帖評論和對專業人士的采訪,以及《解放日報》《證券日報》《上海證券報》《聯合時報》《北京商報》《電腦報》《環球日報》上的12篇介紹性文章,①內容多是介紹和普及文生視頻和Sora的技術特點、應用價值和應用領域,包括對相關專家的采訪,不具有嚴格意義上的學術性,真正關于文生視頻(遑論剛剛問世的Sora)的學術研究嚴重滯后。②筆者在這里要提出的問題是:Sora作為代表迄今最高水平的文生視頻模型,其現實表現有何不足之處?原因何在?
一、“能”與“不能”:文生視頻模型Sora的技術可供性與現實表現
只有從現象學的視角出發,人們才能獲得正確的術語以談論作為事物表現語境的世界。這里要用到的第一個現象學術語叫意向相關項。在現象學理論中,意向相關項意指事物被體驗的方式或被賦予的意義。意向相關項類似于詹姆斯·吉布森提出的可供性,后者用于解釋有機體在環境的支持或限制下展開行動的可能性。[4]在技術哲學領域,可供性指的是技術為人們所能提供的服務資源及其限度。Sora是人工智能技術對現實世界的一種體驗方式,后者賦予它在現實中的表現和意義。如果人工智能技術能讓Sora的某種行動或表現成為可能,那么它就向Sora提供了一種可供性。智能技術的可供性決定了Sora實際上感知、理解世界和建構視頻的方式和能力,也決定了Sora的可供性和現實表現。Sora的技術可供性主要體現為其技術上的進步及其價值和意義,這并不純粹源于它的客觀屬性,還依賴于技術主體的屬性,正是人類這個意識主體的認知資源即技術水平決定了Sora達到的高度。生成式人工智能的技術可供性為Sora的未來發展既提供了無限的可能,又在某種程度上限制它的現實表現。那么,生成式人工智能技術為Sora提供了哪些方面的可供性即意向相關項?Sora的現實表現又如何呢?
如果說以前的生成式人工智能如ChatGPT實現了從文字到文字、文字到圖片的靜態信息轉換和表達,文生視頻則實現了在連續的時間序列中保持場景的一致性,能描述物體的動態關系和光影變化,從而需要更強的時空建模能力和更高的算法技術。新一代文生視頻模型Sora則在此基礎上向前邁出了一大步,它不僅能將文字、圖片和視頻等數據轉換成高質量的視頻,還突破了此前文生視頻受時長限制的瓶頸。Sora“按照預定的要求和規則,將用戶輸入的數據生成為特定的場景”,[5]通過復雜的深度學習模型,如生成對抗網絡和變分自編碼器,來捕捉動態變化和細節。無論是飄動的衣物還是水面倒影,Sora都能以接近真實物理世界的方式將其呈現出來。作為一款基于數據的物理模擬引擎,通過大規模的數據模型訓練和數據驅動,Sora體現出對真實世界中的人、動物和環境的不俗的模擬能力。總之,它能生成多個角色、特定類型的運動、背景復雜細膩的場景、綜合多樣的鏡頭運動、逼真的人物和生動的角色表情等。借助世界模型,Sora理解真實世界的能力得到質的提升,它可以描述簡單運動的物理規律,理解物體在物理世界中的存在方式,如演示視頻中真實的光影反射、運動方式、鏡頭移動等,世界模型是其重要標簽。Sora對語言有深入的理解,可以在單個生成的視頻中創建多個鏡頭,精準地保留角色和視覺風格。無論是視頻的長度、真實性、穩定性、連貫性、一致性、分辨率,還是對文本的理解,Sora均代表了目前文生視頻的最高水平。“Sora具有三維空間的連貫性、模擬數字世界、長期連續性和物體持久性、與世界互動的技術特點,是文生視頻領域取得的重大進步和突破。”[6]
雖然OpenAI公司尚未發布Sora的公開使用版本,但人們可以通過其官方網站發布的48個演示視頻一睹Sora的技術魅力。其中有一個是根據文字“一位時尚女性自信且隨意地走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上”生成的長達60秒穩定輸出的多鏡頭高清視頻(見圖1、圖2)。舉凡細膩的人物表情、復雜的場景、完美的服裝搭配、炫目的燈光效果,抑或清晰可見的積水街道上的建筑和人物的倒影、晃動的耳環、飄動的裙擺、人物臉上的雀斑、街道兩邊的廣告招牌和商鋪、各色路人等,無一不更新著人們對生成式人工智能——文生視頻創作能力的認知。讓虛擬和現實融為一體的概念,真的不再是紙上談兵了。
盡管強大的智能技術讓Sora在理解人類語言和文字方面實現了質的飛躍,并提供了理解、重建和模擬這個世界的可能性。但現象學的本質還原告訴我們,技術不能擺脫其發展水平的限制,也無法等同于人的智力,Sora的可供性因此是有限的。艾倫·圖靈提出的具身智能指出,只有具備和人一樣的身體并與世界交互,才能完全理解物理世界的基本法則。意識一開始就是主體間性的,意向性來自人們互動的意向性實踐。通過與他人的實際互動而形成的意向性具有物理和社會的雙重屬性,恰如海德格爾所言,意向性意味著我們“在世界中存在”。人類生活在豐富多彩、變化萬千的生活世界中,那里是非科學的世界,充滿了偶然性、多變性和不可預測性。當Sora以理論的方式對待事物時,這種重要的或原始的在世界中存在的方式就被錯失了。建立在數據模型基礎上的Sora主要同理想化和精確的對象打交道,沒有與生活世界發生交集,意向性無法形成,生成的是刻板的、模式化的虛擬世界或數字世界,其視頻也只是生活世界的摹本或副本,與豐富而深刻的真實世界差之千里,其意向相關項(意義等)相當有限。例如,由于視頻包含了靜態圖像的空間信息和時間維度,要求文生視頻模型能夠理解和預測隨時間變化的動態場景和事件,但目前的智能技術尚不具備這個可供性。
筆者也從該演示視頻中發現了不少技術空洞的痕跡,如圖2中的時尚女性表情(即便有微笑)單一僵硬且無變化,嘴巴(口型)、眼睛(眨眼等)等具有豐富微表情表達能力的部位也始終未發生哪怕是極為細小的變化;圖1中街道上行人的步態及頻率節奏基本一致,無速度和肢體動作上的區別,顯示出虛擬數字人的同質化痕跡。從整體上看,畫面上人物及其動作還留有較深的動漫印記。總的看來,正如開發Sora模型的OpenAI公司所言,Sora難以準確模擬復雜場景的物理原理(如玻璃破碎),無法完成對事件因果關系的呈現和解釋,混淆了空間細節,不能精確描述隨著時間推移發生的事件等。那么,Sora現實表現的不足和缺陷背后的原因是什么?現象學的時間性理論或許能從哲學層面上指點迷津。
二、外在時間性結構殘缺:Sora無法描述復雜事件和完成情節敘事
現象學研究的所有事物,包括意向對象或意向活動,都滲透著時間。正是在時間性領域,現象學達到了被它考察的事物的第一原理的高度。時間性結構也適用于所有的主觀和客觀的事物。現象學認為,時間性包括世界時間(客觀時間)、內時間(主觀時間)和內在時間意識三個結構層次。然而,生成式人工智能都是以數據為基礎,“數據是智能成長的‘營養或技術推進的‘燃料”。[7]Sora也不例外,其技術原理是,先將大量的視頻數據集壓縮到一個低維潛在空間,然后將其分解為時空嵌入,從而將視頻轉化為一系列的編碼塊(視覺塊嵌入代碼),相當于小方塊的形式,最后,Sora再根據客戶提供的文字描述提取包含時間和空間信息的小方塊生成新的視頻。Sora內容生產所依賴的技術主要是算量、算法和算力,在規則和技術理性中將現實世界簡化為模型,將抽象的問題變成可以量化、計算的對象。如此一來,作為沒有意識和意向性(依靠人類將意向性設計在模型中)的技術載體,Sora只具有客觀時間,而不能自主地運用主觀時間和內在時間意識來呈現事件和組織事件。外在時間性結構的殘缺,導致Sora在呈現事件和事件關系以及構建情節方面無能為力。
(1)沒有主觀時間的參與,Sora難以呈現復雜的事件。主觀時間“屬于心靈活動和經驗即意識生活事件的綿延和序列”,[8]主體的意向和感覺按照時間順序被安排的方式都發生在主觀時間中,它圍繞著知覺、感覺經驗、回憶、想象等活動展開。作為一種現象,客觀時間依賴于主觀時間,事件或事物之所以能用鐘表來度量從而成為一個持續性的存在,是因為我們主觀經驗到一連串心理活動。正是因為主體擁有主觀的內時間,客觀時間的流動才得以對世界呈現。對于世界時間的顯現而言,我們意識經驗的時間之流是顯現得以進行的前提。
其一,由于主觀時間的缺席,Sora無法模仿人類感覺經驗生成回憶、夢境、心理活動、幻想、想象等內容,難以完成對復雜而有意義的事件的敘述。如果Sora既不預期也不回憶,也就不可能把事件組織成時間性模式。事件的真相、結果、意義或發展趨勢依賴于主觀時間上的記憶、心理活動、想象等協同完成,以形成豐富的意義極。敘事不僅是對過去的回顧,還在前瞻的意向中形成,包含著對未來可能發生也可能不發生的一些行動的敘事。[9]即便這些事件可能發生在過去,抑或發生在將來,甚至從未發生過,它們都處于與敘事者的時間關系中。這正是Sora不能解釋事件因果關系和描述復雜物理事件的原因,演示視頻中也只能展現人物簡單的動作(漫步)。其二,Sora不能描述人物的心理體驗,人物形象塑造的方式單一。Sora對時間的體驗只有物理時間而沒有心理時間。作為心靈的體驗,心理時間依賴于主觀時間(正是Sora不具備的)的存在。在日常生活中,我們有時候埋怨時間漫長,有時候卻責怪時光倏忽,這不過是主觀時間帶給我們的一種心理感受而已。Sora無法像影視制作的編導們那樣,將事件實際發生的時間延長數倍表現劇中人物的煎熬或無聊,或將實際時間進行壓縮表現時光易逝和某些人類用肉眼不易覺察的動作或細節,或省略掉無敘事價值的時間等。因此,不能處理主觀時間數據模型的Sora無法通過生成相關場景和事件來描述或呈現人物的心理時間。演示視頻中的女性的自信和愜意可以從步態和輕松愉悅的表情中看出,但Sora卻無法通過主觀時間營造具體場景或鏡頭來展示她的內心世界和情感。
(2)內在時間意識的缺席導致Sora無法解釋事件之間的關系,難以完成復雜敘事并建構有意義的情節。內在時間意識是對主觀時間的內在時間性的覺察或意識,是主觀時間顯現的條件,其建構意識生活中所發生的各種行為的時間性,并使得這些內在對象的顯現按照時間來排序。換言之,主觀時間事件需要內在時間意識來組織和安排,后者被賦予一種形而上的優先性,極具思辨色彩。只有時間性的三個層次同時在場并形成一個閉環,才能形成主體的意向性并完成對復雜事件的完整敘述。敘事要求具有一種元認知能力,即與自身感覺體驗拉開一種反思的距離的能力。在拉開反思距離后,Sora要想塑造有意義的情節,完成自身敘事,不單是機械地在保存有大量視頻數據的模型庫尋找和提取某些生活事件并簡單地拼接在一起,而是需要反思性、選擇性地提煉事件的意義,并決定如何將它們按照自身的意圖有序地組織在一起。事件的意義依賴于Sora用以展示這些事件之間關系的敘事結構,從好的敘事結構中還可以獲得超越事件本身的意義。世界本身是以有序的時間方式被建構的,但我們體驗這種秩序的方式卻取決于Sora的體驗建構方式,而這需要Sora運用內在時間意識才能完成。
Sora內在時間意識的缺失,導致其在將事件組織成一個有意義的順序(情節)方面束手無策,這就是它無法解釋事件的前因后果和來龍去脈的原因。在理想狀態下,Sora可以像影視片制作人一樣,先呈現某事件的當前狀態,然后通過一個閃回去描述它過去的狀態,從而解釋事件發展的原因和經過,讓受眾收獲若有所思或恍然大悟的情緒體驗。影視劇情節的張弛有致、波瀾起伏、懸念迭起,依靠的就是非線性的敘事結構,這是Sora目前無法做到的。影視工作者大可不必自危,創意性的剪輯工作不是目前階段的智能技術所能取代的。“從原創意義上說,人工智能具有從屬的性質,是基于人的創造而形成和發展的。‘器屬于工具或手段的層面,而人工智能并未超出這一性質。”[10]如果將上面演示視頻的文本輸入變為“一位時尚的女性因為要和情人約會自信而歡快地走在大街上,昨天與同事吵架的不愉快也隨之煙消云散”,情況就大不一樣了。對于單獨呈現“時尚女性走在大街上”“和情人約會”“與同事吵架”這三個事件來說,Sora可能沒有太大的困難,但要根據該女性目前的情緒表現來組織和安排三件事的時間順序的話,Sora就會捉襟見肘、窮于應付了,難以生成符合邏輯、能解釋事件原委的視頻。再加上生成視頻時長的限制,圓滿地完成這項工作還必須借助人工剪輯。因此,遵循智能敘事的Sora既無法形成對復雜時間性事件的完整敘述和情節建構,又無法達成對世界的實際把握和深度認知。
Sora時間性結構“陣容”的殘缺導致其時間排序能力有限,只能描述客觀時間性事件,完成一個內在于敘事本身的時間框架,即一個按照時間發生的事件的系列次序。這注定Sora只能停留在線性敘事的層面上,如描述具體的場景、人物、物體及其運動,生成簡單和具有連續性動作的畫面。在前述長達1分鐘的演示視頻里,盡管場景和細節逼真細膩,但也僅僅展示了時尚女性和行人漫步街頭的畫面,沒有生成任何有意義的事件。但在真正的敘事中,尤其是虛構性敘事(影視、小說)中,為了營造各種戲劇性效果,人們往往在時間排序上采用多種手段,如文學中的倒敘、插敘、分敘,影視中的蒙太奇等主觀內在意識手法。在這種外在敘事的時間框架中,Sora無法將一系列具有確定的客觀次序的事件無序地呈現出來,盡管這種無序呈現經常以多種方式和原因被人們使用。
三、內在時間性結構殘缺:Sora難以呈現因果應答和動態生成的事件
知覺必須伴隨最近的記憶行為和預期行為,關于過去和未來的原始感覺必須從一開始就被給予。我們直接的時間經驗包含一個內在的時間性結構,它不只是擁有被給予的當下的畫面,還擁有直接被給予的關于過去和未來的感覺,既延伸到過去,也指向未來。現象學用一個專門的術語“活的當下”意指我們在任何時刻擁有的對于時間性的充實體驗,它由原印象、滯留和前攝三個要素組成。因此,“活的當下”包含著對在先的、后繼的、當下的參照和容納,孤立地談論滯留、原印象、前攝中的任意一個要素,都會陷入一種抽象。例如,任何原印象都包含滯留和前攝的結果,三者相輔相成,共同構成“活的當下”。但Sora模型設計的內在時間性結構不完整,即滯留和前攝兩個部分是缺席的,以至于它在表達內在時間性方面心余力絀。
首先,僅具有原印象的Sora由于內在時間性結構殘缺,無法呈現因果應答。滯留指向過去的時間背景,提供了一種對持存對象剛剛消失階段的意識;前攝則指向將來的時間背景,它以一種不確定的方式預期了某個或某些將被體驗的東西;至于原印象,胡塞爾認為,它具有“現在”一詞所指的內容,[11]“現在”是“通過持留‘先前、預期‘后來看到運動本身”。[12]Sora將運動視為只局限于孤立的原印象的物理事件,因果關系問題便產生了。在Sora生成的視頻中,身體運動和行動沒有與生俱來的或內在的時間性。亨利·希德在對身體圖式的定義中指出,身體圖式以這樣一種方式動態地組織感覺運動反饋,從而使得對位置的最終感覺“與之前發生的事情建立起了一種關聯”。[13]梅洛-龐蒂也認為,運動是一種將過去的時刻和現在的時刻進行整合的活動,“在運動的每個連續瞬間,都不能忽略前續的瞬間。就好像前續的瞬間融入了現在的瞬間”。[14]動作的發出和實現的結果在現象學上是融合在一起的。然而,在依靠視頻數據驅動的Sora的時間結構中,只保留了原印象,失去了過去和將來的參與。這種當前的、殘缺的原印象既無對過去動作與事件的保留,也失去了刺激如何發揮作用的生成預期,導致視頻先前的畫面與后面將要生成的畫面失去了關聯。演示視頻中的事件與事件、動作與結果之間失去了邏輯聯系,這也是Sora無法呈現因果應答的原因,即只有前因沒有后果。
因此,在Sora生成的演示視頻中,不合邏輯的現象比比皆是:一位壽星吹生日蛋糕上點燃的蠟燭,燭焰紋絲不動;車輛高速駛過積水很深的街道,卻沒有任何水花濺起;被大咬一口的蘋果竟然完好無損……在這里,主體所預期的東西沒有被他當前正在執行的動作所實現(動作沒有產生結果或反應),觀眾自然無法在畫面看到行動產生的結果或后果。一方面是滯留的缺席:先前的動作在消逝中沒有滯留而是被Sora的“意識”擁有,“每一個現時最直接的滯留不僅是對正好過去著的——過去之物的一同當下具有,而且也是對蘊含在其中的剛才——過去之物的滯留”,[15]從而導致Sora無法將過去的經驗融入當下,吹、行駛、咬等動作的指向性中斷,與蠟燭、積水和蘋果失去了關聯,燭焰、積水和蘋果也就沒有任何變化;還有的演示視頻中出現了奔跑的狼群數量隨著時間推移無緣無故地減少了的前后不一致的現象。另一方面是前攝的缺席:如果Sora擁有前攝功能,它不僅會幫助我們有意識地預期后續部分,還會預期我們對即將發生的事件的體驗。在喪失了前攝功能后,Sora不能作出預期判斷和發出指令,燭焰、積水和蘋果也自然無法產生程序上的呼應,故自巋然不動或毫發無損。演示視頻中還出現另一種不連貫的現象,即當那位時尚女性回首或側首看向別的地方時,鏡頭并沒有跟著其觀看方向進行轉動,畫面上也就沒有出現目光所及的相應區域(見下頁圖3、圖4)。這種不連續性也是Sora沒有解決技術上前攝的缺席所造成的,因而,Sora不能讓身體系統以時間的方式去組織其信息處理過程和行為,預期能力的喪失也使得它對即將發生的事情失去了實踐的定位能力。按常理,就在那位時尚女性看向左邊或右邊時,技術成熟的生成式人工智能應該給出預判,指示鏡頭轉向目光覆蓋的方向。正如我們彎腰去撿地面上的東西時,身體會預料到自身重心和角度即將發生變化,因而會適時作出調整,避免失去平衡。這就是具身行動與智能人的技術具身行動的區別所在。滯留和前攝同時缺席導致Sora分不清方位,混淆空間位置。遺憾的是,代表目前生成式人工智能最高水平的Sora還未能攻克這一技術難題。
其次,原印象、滯留和前攝的組合不是簡單的疊加,而是處在一種發生的關系中,其構成模式也是一個動態的過程,三者處于一個不斷生成的結構中。換言之,原印象、滯留和前攝對彼此都有一種構造自身的影響。就如同人類理解他人不是通過采取一種觀察者的立場,也不是試圖根據其心理狀態對其行為作出解釋的方式,而是在與之工作、嬉戲或互動交流的共享情境中理解他人的。所以,在非人工智能生成的視頻中,能看到人物豐富而復雜的情感表現、多變的言行舉止等。影視劇中人物喜怒哀樂的情感變化,豐富的肢體語言和潛臺詞的運用,都是隨著情節進展、情境變化,原印象、前攝和滯留互動生成的結果。演員的價值就體現在這個生成的過程中,其必須根據劇情的推進不斷表演出相應的面部表情、做出合適的動作和說出應景的臺詞。
然而,從人生成內容到人工智能生成內容,文生視頻重構了內容生產的底層邏輯。如前所述,Sora是通過視頻、圖片等多模態數據來理解世界的。它根據文本指令,通過算法把由視頻轉換而來的編碼塊進行組合,這種僵硬機械地生成視頻的組合方式,不是生成性地與世界打交道。Sora創建的原印象是自給自足的,而不是在與滯留和前攝的動態關聯中發生的,沒有三者共同構成與被體驗世界進行一種更廣泛的生成互動的可能性,它呈現的只是一個接一個的原印象,“這種單個感知所給予的范例性的個別之物是一種實象的現在的當下之物”,[16]沒有實際上的可供性。它的輸出可能是公式化的,可能會單調乏味、缺乏想象力。感知從來不是單純的瞬間擁有,而是過渡中或時間視域中的當下具有。沒有視頻數據動態生成的技術支撐,Sora自然無法精確描述隨著時間推移發生的事件,只有低級的重復,而沒有新的事件產生以及隨著事件進展而發生的表情和肢體動作變化。在前述1分鐘的演示視頻中,街道上的行人自始至終以同樣的速度、節奏和步態行走;因為沒有對即將發生的事件的預期體驗,時尚女性的表情單一,沒有任何情緒上的變化,智能人的真實面目原形畢露。在時間的流逝中,除了人物在漫無目的地行走外,沒有發生任何其他有意義的事件(情節)。換在由原印象、滯留和前攝動態生成的環境中,情況則完全不同,里面的人物會隨著時間推移、周圍環境的變化,或者是新事件的發生,發生面部表情、步態、肢體動作乃至情緒等方面的變化,如表情可能經歷微笑—嚴肅—驚訝—憤怒,步速由急趨緩,由緩到停,或是相反。在人工拍攝制作的影視劇中,具身演員在情感波動比較劇烈或情感張力比較大的戲份中表現出來的情感,是Sora模型塑造的數字人/智能人無法比擬和完成的。生成式人工智能模型Sora“并不能共享所有人類的藝術靈感或創作意圖,也無法復制人類的生活體驗”。[17]且觀眾對具身演員也有一定的情感投射,這種潛在的情感互動是數字人所不具備的。相反,觀眾會和Sora生成的表情刻板而缺少變化的虛擬人物保持一定的心理和審美距離,從而大大影響他們的情感投入和審美經驗。文生視頻模型Sora很難呈現復雜和動態的情感表達,遑論引起觀眾共情了。盡管Sora能對提供的文字圖片進行理解,并根據相應的物理原理在時空上向過去或未來推演,但這種推演還是基于對視頻數據模型的刻板應用。“長期來看,需要用心制作的作品,依舊很難用芯完成。”[18]
四、思考與討論
以上主要從現象學角度分析了文生視頻模型Sora的現實表現,重點是從時間性角度對Sora存在的缺陷與不足進行了哲學思考。由于外在時間性結構和內在時間性結構的殘缺,Sora無法解釋和呈現因果關系的事件,不能用場景描述人類的心理時間,也難以精確地描述隨時間推移發生的事件。目前看來 ,Sora生成的視頻在長度、人物情感表達、事件解釋和呈現以及情節構建方面與人工制作的視頻差距巨大。盡管生成式人工智能標榜將創造安全的通用人工智能使全人類受益,[19]但受限于數據庫的代表性偏差問題,解決文生視頻技術上的一系列問題尚需假以時日。由于現象學時間性涉及意識和意向性,不能僅僅依靠擴大視頻數據庫模型的數量(視覺塊嵌入代碼),還需要從技術上解決Sora數據模型的意向性實踐和意向性設計問題,進而完善其時間性結構。相信隨著人工智能技術的發展,該問題有望逐步解決。所幸的是,OpenAI公司也非常注意評估Sora應用中的危害和風險,如社會責任和倫理問題,并開始通過向特定的用戶群體提供服務,以獲得反饋對模型進行持續改進,這也是普通大眾的殷殷期盼。
參考文獻:
[1] 肖偉. 文生視頻技術日趨成熟 短劇創作或將受益[N]. 證券日報,2023-11-20(A3).
[2] 黃锫堅,曾國屏,孫喜杰,等. 賽博空間的哲學探索[M]. 北京:清華大學出版社,2002:61.
[3] 孫那,鮑一鳴. 生成式人工智能的科技安全風險與防范[J]. 陜西師范大學學報(哲學社會科學版),2024(1):108-121.
[4] 孫凝翔,韓松. “可供性”:譯名之辯與范式 / 概念之變 [J].? 國際新聞界,2020(9):122-141.
[5] 何文英. 文生視頻軟件Pika火出圈,或推動AIGC加速融入多種業態[N]. 證券日報,2023-12-04(B3).
[6] 羅茂林. Sora出世 人工智能將引領新一輪行業變革[N]. 上海證券報,2024-02-19(6).
[7] 彭蘭. 從ChatGPT透視智能傳播與人機關系的全景及前景[J]. 新聞大學,2023(4): 1-16,119.
[8] 羅伯特·索科拉夫斯基. 現象學導論[M]. 張建華,高秉江,譯. 上海:上海文化出版社,2021:145.
[9] 肖恩·加拉格爾. 現象學導論[M]. 張浩軍,譯. 北京:中國人民大學出版社,2021:155.
[10] 楊國榮. “生成式人工智能”(AIGC)及其哲學意蘊[J]. 上海師范大學學報(哲學社會科學版),2024(1):110-115.
[11] Husserl E. On the Phenomenology of the Consciousness of Internal Time(1893—1917)[M]. Dordrecht: Kluwer Academic Publishers, 1991: 67.
[12] 馬丁·海德格爾. 現象學之基本問題[M]. 丁耘,譯. 北京:商務印書館,2022:319.
[13] Head H. Studies in Nuerology[M]. London:Oxford University Press, 1920: 606.
[14] Merleau-Ponty M. Phenomenology of Percetion[M]. London: Routledge and Kegan Paul, 1962: 140.
[15] 克勞斯·黑爾德. 活的當下[M]. 鮑克偉,肖德生,譯. 北京:商務印書館,2020:35.
[16] 埃德蒙德·胡塞爾. 現象學的觀念[M]. 倪梁康,譯. 北京:商務印書館,2017:80.
[17] 高永杰,呂欣. 生成式AI技術進化與圖像藝術生產范式革新[J]. 現代傳播,2023(9):159-168.
[18] 樊巍,劉揚,劉彩玉. “眼見為實”或成過去,AI“文生視頻”如何改變未來[N]. 環球時報,2024-02-18(4).
[19] 何祎金. 生成式人工智能技術治理的三重困境與應對[J]. 北京工業大學學報(社會科學版),2024(2):124-134.
The Temporal Structure of Text-to-Video Model Sora: A Phenomenological Reflection on Generative Artificial Intelligence
DENG Zhi-wen(School of Humanities and Media, Hubei University of Science and Technology, Xianning 437100, China)
Abstract: Recently, OpenAI launched Sora, a model that represents the current pinnacle of text-to-video technology, marking a milestone in the evolution of generative artificial intelligence. However, Sora still has some technical flaws and shortcomings. From a phenomenological perspective, Sora's external temporal structure is incomplete, featuring only objective time, lacking subjective time and inner time consciousness, which prevents it from depicting human psychological time, explaining causal relationships, and constructing complex, meaningful events and plots. Moreover, the absence of retention and fore-shoot hinders its ability to link actions with outcomes. Without the intervention of the internal temporal dynamic generation structure, Sora is also difficult to show the events that occur over time. Therefore, from a technical standpoint, addressing the model's intentional design issues and enhancing both the internal and external temporal structures become the key to improving Sora's performance in reality.
Key words: text-to-video; Sora; temporal structure; generative artificial intelligence; phenomenology; retention and fore-shoot