

【摘 要】 2023年,AIGC技術在應用領域獲得普及,也促成了AI在影視產業(yè)、技術、文化與美學領域的廣泛實踐。AIGC技術的發(fā)展,特別是ChatGPT等應用所帶來的成熟的自然語言處理、神經網絡技術,以及DALL-E、W.A.L.T等應用在擴散模型、因果編碼器等環(huán)節(jié)的迭代進步,使得AI自動生成電影成為可能;“文生視頻”的多模態(tài)應用則進一步推動了包括AI影視在內的智能時代藝術生產的觀念創(chuàng)新。今天,AI能夠理解影像內容,并與人類藝術家共同成為創(chuàng)作主體。這種人機共創(chuàng)模式不僅改變了影視生產的技術操作環(huán)節(jié),更深刻地影響了藝術創(chuàng)作的本質和人類對藝術的理解。
【關鍵詞】 人工智能;多模態(tài);人機共創(chuàng);AIGC;跨媒介藝術
2023年12月6日,Google兌現了5月在網絡開發(fā)者年會(I/O)上的承諾,正式推出多模態(tài)模型Gemini 1.0,并在演示視頻中以實時視頻語音互動的形式演示了模型的驚人能力,包括動態(tài)識別視頻中鴨子簡筆畫、手勢和追蹤杯中小球等。不過,隨即演示視頻便被爆出“造假”,官方在回應中承認演示視頻的確經過了剪輯,Gemini實現多模態(tài)交互需要經過多次提示和調試,與演示視頻中的流暢展示有所差異。盡管如此,開發(fā)者們仍普遍認為,Gemini已經展現出較強的理解、推理、創(chuàng)作和實時互動能力。這一造假事件從側面反映出人們長久以來對通用人工智能(Artif icial General Intelligence,AGI)的期待。可以說,2022年末OpenAI公司對話式人工智能(AI)模型ChatGPT(Chat Generative Pre-trained Transformer)的發(fā)布,帶來了AI在自然語言處理領域的技術突破與全球范圍內的廣泛應用,也開啟了一條沿著綜合視聽多模態(tài)方向演進的AGI探索之路。
ChatGPT取得的成績推進了國內外生成式AI(Generative AI)研究與應用上的爆發(fā)式增長,基于神經網絡的AI在各個領域開始應用,也為影視行業(yè)帶來深刻變革。一方面,AIGC的發(fā)展加大了影視從業(yè)者對失業(yè)的擔憂,好萊塢編劇甚至為了抵制生成式AI軟件在劇本創(chuàng)作中的運用而進行了集體罷工;另一方面,AI圖像信號處理器(Image Signal Processor,簡稱ISP)、AI虛擬演員等開始全方位介入制片和前期拍攝環(huán)節(jié),AI視頻去老軟件Vanity AI、Metaphysic Live,AI修復電影軟件CVPR 2023等也被應用到CG特效、畫面修復、宣發(fā)等電影后期制作環(huán)節(jié)。除此之外,AIGC技術的發(fā)展,使得AI自動生成電影成為可能。其中既有AI取代影視行業(yè)人類工作角色參與制作的電影,如2023年2月上映的第一部由AI編劇和導演的短片《安全地帶》(The Safe Zone);也有基于生成對抗網絡(Generative Adversarial Network,簡稱GAN)或擴散模型(Diffusion Model)等神經網絡完全由AI生成的電影,如7月發(fā)布在社交媒體上的科幻電影《創(chuàng)世紀》(Trailer: Genesis)的預告片。
在AI對影視各領域的廣泛參與中最為關鍵的是,GPT-4V、MM-Vid、Gemini等多模態(tài)AI模型逐漸展現出一定的綜合視聽能力,更有一批AI模型在技術迭代中實現了文生視頻、圖生視頻等新的功能。這些能力對于基于深度學習技術的生成式AI而言,在以神經網絡為代表的深度學習與內容生成的技術迭代中至關重要。在藝術創(chuàng)作領域,生成式AI展現出AI作為一種創(chuàng)意主體的可能性,即在深度學習的過程中,AI利用生成模型等方式不斷生成創(chuàng)意,在理解生成內容的基礎上,和人類共同成為藝術創(chuàng)作的雙主體。包括視頻生成在內的人機共創(chuàng)需要人類與AI之間變?yōu)楣餐瑒?chuàng)作藝術品的合作關系,而不再是創(chuàng)意主體與創(chuàng)作工具之間的從屬關系。這種全新的藝術生產方式,不僅會對電影及影視行業(yè)產生影響,還將深刻改變人類現有的媒介觀念和藝術觀念。
一、人機共創(chuàng):
從機器學習到神經網絡模型
ChatGPT是基于Transformer神經網絡架構的生成式AI模型,其核心邏輯是通過無監(jiān)督學習(Unsupervised Learning)在龐大的語料庫中捕捉語言結構和上下文關系,使得模型能夠生成自然、連貫的文本回應。ChatGPT在自然語言處理任務(Natural Language Processing,簡稱NLP)領域的卓越表現體現出神經網絡在生成式任務中的明顯優(yōu)勢,以及在生成式模型的發(fā)展中對神經網絡結構的強烈依賴。
而事實上,在依賴于深度學習和神經網絡的生成式AI介入之前,更傳統的機器學習技術就曾在影視行業(yè)的運動捕捉、場景生成、音效處理等領域發(fā)揮過重要作用。2019年,數字王國(Digital Domain)公司憑借《復仇者聯盟3:無限戰(zhàn)爭》(Avengers: Inf inity War)中的數字化人物“滅霸”獲得了第17屆美國視覺效果協會獎(VES)“最佳電影角色視覺效果獎”,而其最大的創(chuàng)新就是使用了一款名為Masquerade的復雜機器學習軟件,可以利用算法在低質量的普通渲染基礎上生成非常精細的高分辨率的面部數據[1]。到了《復仇者聯盟4:終局之戰(zhàn)》(Avengers: Endgame),團隊再次更新自動化流程,縮短“滅霸”面部模型生成時間,并在“老年美國隊長”的拍攝中通過基于機器學習的深度合成、紋理替換等方式來實現角色的老化,而非完全使用純CG制作或特效化妝[2]。與《復仇者聯盟4:終局之戰(zhàn)》一同獲得第92屆奧斯卡金像獎“最佳視覺效果”提名的影片《愛爾蘭人》(The Irishman)同樣使用了機器學習等人工智能技術完成對演員特定年齡視覺效果的塑造,工業(yè)光魔(Industrial Light and Magic,簡稱ILM)公司開發(fā)了一款名為ILM Facef inder的軟件,利用人工智能篩選演員在以往表演中與渲染場景數據相匹配的圖片,從而為演員創(chuàng)建數字替身,以便將演員的視覺效果轉化為電影中每個特定場景的目標年齡[3]。
時至今日,“角色老化/去老化”“CG人物”等數字化特效,在生成式AI的加持下,已可以實現完全的自動化。2023年1月,MARZ公司推出視覺特效軟件Vanity AI,成為首個面向好萊塢視覺特效的完全自動化、端到端人工智能解決方案,該方案整合了生成式AI、計算機圖形學和計算機視覺等技術,可以在大約3分鐘內完成一個鏡頭的高端2D老化、去老化、美容、假發(fā)和假體修復服務[1]。與之類似,2023年1月,生成式AI代表公司Metaphysic被指定為電影《這里》(Here)的唯一AI提供商,在電影拍攝中使用Metaphysic Live等技術工具實現現場演員表演驅動的實時超真實換臉和去老化,幫助導演、演員和制片人實時查看并及時調整,縮短了后期制作修復和現場化妝的時間,最終使湯姆·漢克斯(Tom Hanks)在電影中呈現更年輕的樣貌[2]。6月,電影《傳說》也官宣將借助AI技術重現27歲的成龍形象。在CG特效領域,Wonder Dynamics公司的AIGC視頻特效處理工具Wonder Studio于2023年7月結束封閉測試,面向所有人開放,該工具能夠使用戶一鍵完成CG角色對演員的替換,并完成動作捕捉、生成遮罩、匹配姿態(tài)表情、攝影機追蹤和調整燈光效果等一系列工作。更重要的是,Wonder Studio可以導出生成視頻過程中的各種數據,以便用戶集成到現有的視效預覽和工作流中。
在以上這些AIGC技術的應用中,生成對抗網絡發(fā)揮了很大的作用,此類生成式AI工具大多基于此種神經網絡生成特效內容。但在2017年,由于基于自注意力機制(Self-Attention Mechanism)的Transformer架構在自然語言處理領域取得了顯著成功,取代傳統的循環(huán)神經網絡和卷積神經網絡等結構,成為處理序列數據的首選架構,因此大規(guī)模預訓練模型在近年來成為生成式AI領域的主流方案。基于轉換器的生成式預訓練模型(Generative Pre-trained Transformer,簡稱GPT)和基于變換器的雙向編碼器表示技術(Bidirectional Encoder Representations from Transformers,簡稱BERT)等預訓練模型進一步推動了Transformer的廣泛應用,以ChatGPT為代表的一批AI通過大規(guī)模預訓練學得了強大的語言知識,在影視行業(yè)的對話和文本生成方面凸顯了卓越的性能。
基于Transformer架構的生成式AI模型自此被廣泛應用于影視行業(yè),如在動畫制作領域,2023年1月,流媒體公司網飛(Netf lix)與微軟公司小冰日本分部、WIT STUDIO共同創(chuàng)作的首支AIGC動畫短片《犬與少年》(The Dog amp; The Boy)正式在日本網絡上映。在該動畫的部分場景制作中,畫師繪制大致場景后交給AI進行二次生成,然后畫師在生成動畫的基礎上做最后的修改。網飛動畫團隊非常看好這種人與AI協同創(chuàng)作的模式,該片的攝影總監(jiān)田中宏侍也曾在采訪中認可AI技術輔助動畫創(chuàng)作對工作效率的提升[3]。3月,光線傳媒官宣將改編小說《去你的島》為動畫電影,并放出了該電影的首張宣傳海報。海報利用圖片生成AI工具Midjourney、Stable Diffusion及GPT-4模型,在人類設計師給出關鍵詞后生成。制作方同時宣布,在后續(xù)的電影內容制作中,上述AI工具也將繼續(xù)貢獻力量[4]。在電影修復領域,同樣也迎來了AIGC技術的應用。8月,抖音、中國電影資料館、火山引擎在北京舉辦“再續(xù)時光—經典香港電影修復發(fā)布會”,三方正式啟動“經典香港電影修復計劃”,預計一年內將100部香港電影修復至4K畫質。此次修復工作由火山引擎提供技術支持,該公司將與中國電影資料館共同完成修復工作。火山引擎首次將AIGC視覺大模型引入老片修復當中,并對模型進行了生成質量、視頻任務和效率方面的算法優(yōu)化,讓視覺大模型能夠在視頻場景下更加穩(wěn)定、優(yōu)質、高效地輸出內容(圖1)[1]。
可以看到,生成式AI經歷了多個階段的演進,從早期基于規(guī)則的方法到神經網絡的復興,再到深度學習的崛起和生成對抗網絡的提出,直至近年來在自然語言處理領域獲得重大突破。當前,得益于神經網絡和深度學習所發(fā)揮的關鍵性作用,生成式AI在圖像識別、語音識別、自然語言處理、推薦系統等眾多任務中取得了顯著的成就。2023 年 ,AI 在影視行業(yè)造就的智能生產格局,不只是由于早期機器學習技術得到廣泛應用,也不只是受惠于生成式 AI 的迅猛發(fā)展,而是多種技術的融合共通的結果。一方面,基于神經網絡和深度學習的AI技術應用加速革新了機器學習時代的技術手段、簡化了制作流程、降低了人工成本,使得影視內容的生產更高效;另一方面,在注重工業(yè)基礎的影視行業(yè)中,非專業(yè)人士得以通過“與AI共創(chuàng)”的方式在行業(yè)中獲得一席之地,這也表明AI技術可以為獨立作者提供更多與資本博弈的可能性。不過,工具理性技術邏輯的延續(xù)導致大眾及行業(yè)內部在觀念上始終將AI視為一種技術工具。正如“GAN之父”伊恩·古德費洛(Ian Goodfellow)之“你可以認為生成模型賦予人工智能想象力”[2]的描述,事實上基于生成對抗網絡及Transformer架構的生成式AI已經可以根據一定的規(guī)則,通過獨立決策來生成影像,這給人機共創(chuàng)及自動生成影像帶來可能。
二、自動電影:
從預訓練模型到多模態(tài)實踐
2023年2月,第一部由AI編劇和導演的短片《安全地帶》(The Safe Zone)正式上映。此前,電影制作人使用ChatGPT完成了短片的劇本創(chuàng)作、腳本生成等前期工作,在與它進一步溝通中明確了鏡頭焦距、攝影機位置、布景角度、演員站位、燈光甚至調色板的偏好等細節(jié)。最終,ChatGPT為攝影指導提供了50多頁詳細的拍攝清單并生成了圖像示意,具象化地呈現出了它所設想的鏡頭畫面[3]。5月,藝術家徐冰的AI作品《人工智能無限電影》(AI-IF)在網絡發(fā)布先導片,而事實上,這一項目開始于2017年,這是一項藝術家與人工智能科學家合作開發(fā)的沒有導演、編劇、攝影師或演員等參與的實時電影生成系統。在這套系統運行時,觀眾需要在電腦頁面上從戰(zhàn)爭、愛情、科幻、犯罪和前衛(wèi)5種電影類型中挑選其一,并給出希望的電影片長,最后輸入關鍵詞或句子,即可由AI生成一部永不重復的電影。播放中,觀眾還可以輸入新的詞匯來改變電影中的角色或敘事情節(jié)。這部作品涉及4個技術框架:劇本模型,視頻字幕模型,有匹配生成的劇本與視頻字幕,生成對話音頻與背景音樂的模型[1]。在以上四個技術框架的協作中,團隊首先完成數據庫中影片片段的截取及片段中人物、地點等關鍵信息的標注,并使其與GPT-2模型提前自動生成的劇本相匹配。在此基礎上,團隊利用技術手段為影片片段自動生成對白與背景音樂。在現場,系統根據觀眾輸入的關鍵詞,實時組合影片片段,并根據反饋不斷更新,從而完成影片的自動生成。
在以上兩部影片中,ChatGPT取代了傳統影視行業(yè)中編劇及導演的工作。基于Transformer架構的深度學習模型,生成式AI工具通過預訓練學習語言的統計結構和上下文信息,最終適應如劇本寫作等文字生成任務。此類語言模型的訓練數據集以文本和代碼為主,在過程中,用戶提供的信息和反饋對模型的生成起著關鍵作用,這同時也意味著,AI并不理解最終“生成”的影像。作為自然語言處理領域中的一個重要里程碑,自注意力機制、多頭注意力(Multi-Head Attention)、位置編碼(Positional Encoding)、層規(guī)范化(Layer Normalization)和殘差連接(Residual Connections)等算法的引入,使得Transformer成為高度可擴展和可并行的神經網絡架構。Transformer在處理長序列數據時更加高效,也易于在并行計算環(huán)境中進行訓練,這對于大規(guī)模的自然語言處理任務以及其他序列建模任務都具有重要意義。可以說,Transformer架構已經在許多不同領域取得了巨大成功。如2023年7月,科幻電影《創(chuàng)世紀》的預告片曾在社交媒體上爆火,《創(chuàng)世紀》預告片的制作者尼古拉斯·紐波特(Nicolas Neubert)在社交平臺上列出了對應的AI工具使用情況:Midjourney處理圖像、Runway處理視頻、Pixabay處理音樂、CapCut剪輯視頻,所有一切都是由AI完成的[2]。
三、理解影像:
從擴散模型到因果編碼器
AI對視頻的理解建立在對圖像的理解之上。更早的時候就有團隊基于GPT-4/GPT-4V等靜態(tài)圖像處理大模型,設計出大型多模態(tài)模型(Large Multimodal Models,簡稱LMM),以完成對視頻的理解,如阿里巴巴達摩院在2023年6月推出的開源模型Video-LlaMA。但這種賦予語言大模型綜合視聽能力的方式,在對長視頻、復雜視頻的處理上始終存在一定的局限,語言模型固有的幻覺問題在Video-LLaMA中依然存在[3]。11月,微軟Azure AI將GPT-4V與一些專用工具集成到一起,打造出更強大的MM-Vid,以預先輸入的視頻文件為素材,輸出一個描述該視頻內容的腳本。MM-Vid在對長視頻的理解領域實現突破,能分析長達1小時的長視頻并解說視頻給視障人士聽[4]。時至今日,得益于全新的架構及訓練數據的多樣化,Gemini Ultra在大多數圖像理解、視頻理解和音頻理解基準測試中都達到了新的技術水平,這也意味著現在的AI不僅能生成影像,更能理解影像,為真正意義上的人機共創(chuàng)帶來了可能(圖2)[1]。
在視頻生成領域,Runway的Gen-1、Gen-2兩代產品首當其沖成為2023年第一批視頻生成工具中的佼佼者,而在不久后,市場集中出現了一大批相關領域的AI工具,其中有Emu Video、PixelDance、Pika 1.0等“文生視頻”工具,也有如Animate Anyone、Magic Animate等“圖生視頻”工具。這些AI工具的背后支持者既有谷歌、微軟、阿里巴巴、字節(jié)跳動等科技巨頭,也有新興的初創(chuàng)科技公司。視頻生成AI工具的集中爆發(fā),可以看作是大公司與初創(chuàng)團隊之間勢均力敵的較量。有業(yè)內人士認為,視頻生成應用的潛力還沒有被徹底開發(fā),其主要原因在于,當下技術的迭代速度仍較慢,視頻生成應用的底層模型及技術仍在優(yōu)化,尚未篩選出最優(yōu)模型。盡管各公司均有基于現有模型的創(chuàng)新點,如最新的W. A. L. T中對窗口注意力機制的引入,由于底層技術不同,各公司的產品也都存在各自的優(yōu)劣勢,如文生視頻模型Phenaki突破了視頻生成的時長限制,但效果相對粗糙且缺少細節(jié);Make-A-Video提升了視頻生成質量,其時長卻局限于4秒以內。
2023年12月6日,Google的多模態(tài)模型Gemini1.0正式上線。在相關技術報告的描述中,Gemini基于Transformer架構,可同時在圖像、音頻、視頻和文本數據中進行訓練,目的是使模型既具有跨模態(tài)的強大通用能力,又有尖端的理解和推理能力[2]。這使得Gemini Ultra模型成為第一個在大規(guī)模多任務語言理解基準測試(Massive Multitask Language Understanding,簡稱MMLU)中人類專家表現的模型,此外它還在其他多項主要智能基準測試中超過了OpenAI的GPT-4。與此前的AI模型相比,Gemini最重要的特性就是對真正“多模態(tài)”的引入。不同于單一媒介之間的相互轉化,Gemini支持以交錯的文本、圖像、音頻和視頻序列作為輸入對象,并可以輸出交錯的圖像和文本響應,這與人類天然地對外部世界的理解和交互方式十分類似。在技術報告的最后,Gemini Ultra展現了它通過推理時間上相連的集合來理解和推理視頻的能力。
前文提到的Transformer架構盡管已經證明了其有效性并在許多領域得到應用,但在該架構的自注意力機制中,算力和內存消耗是輸入序列長度的平方,這導致該架構對算力提升的需求遠高于當下計算機芯片迭代的速度,而視頻生成建模領域中的文件輸入序列長度普遍較長,選用該模型會產生巨額的研究和運用成本[1]。因此,在視頻生成建模領域,相對“經濟”的U-Net架構仍占據主導地位。不過,這一現狀可能將發(fā)生改變。2023年12月12日,斯坦福大學、谷歌、佐治亞理工學院聯合推出了視頻生成模型W. A. L. T(Window Attention Latent Transformer)—一個在共享潛在空間中訓練圖像和視頻生成的、基于Transformer架構的擴散模型。為了解決上述計算成本的問題,團隊使用一種因果編碼器將視頻和圖像映射到一個統一的低維潛在空間,使得圖像和視頻數據集得以在單個生成模型上聯合訓練,由此顯著降低生成高分辨率視頻的計算成本[2]。除此之外,在潛在視頻擴散模型(Latent Video Diffusion Models,簡稱LVDM)的設計上,團隊還設計了能在非重疊、窗口限制的空間和時空注意力之間交替使用的多個自注意力層組成的Transformer塊(Transformer Block),這使得計算需求再次降低[3]。空間層在其中可以獨立處理圖像和視頻幀,而時空層則用于建模視頻中的時間關系,這也意味著,在因果編碼器的共同作用下,AI開始理解視頻中的時間概念。
余論
影視從誕生伊始就是以技術人工物為中介的時間和空間雙重采樣[4]。當下的AI在基于神經網絡的多模態(tài)等技術的幫助下不僅可以完成對影像的自動生成,還可以理解影像。基于深度學習,AI可以通過生成對抗模型、擴散模型等多種方式生成影像,這依靠模型內不斷的決策生成與判定。AI從早先的技術工具逐步進化到現在的具有自我判斷能力和自主創(chuàng)意能力的創(chuàng)作主體,給人類現有的創(chuàng)作模式帶來了新的啟發(fā),一種全新的原創(chuàng)觀念伴隨著AI的進步而出現,真正意義上的“人機共創(chuàng)”就此成為可能。
多模態(tài)AI在影視、音樂、美術等更多藝術領域的生成實踐有望使多種藝術形式以AI技術為主體交匯融合,打破各種藝術門類之間的界限,重塑人類現有的媒介觀念和藝術觀念。但目前AI藝術的生產力仍主要基于計算機的算力,當下計算機算力的增加仍舊是晶體管的堆疊,并沒有實際上解決高功耗低算力的問題,因此在大型深度學習模型的超高算力場景下,這種基于馮諾依曼架構(Von Neumann architecture)的傳統計算機硬件可能會在存儲、能效、通信等方面出現瓶頸或局限,繼續(xù)朝這個方向發(fā)展下去,能源與芯片技術恐怕會成為新的“資本壁壘”。因此,或許需要等未來AI模型框架革新、算力的提供方式迭代,以及量子計算機、神經元計算機的研究取得突破性成果時,AI才可以真正給藝術創(chuàng)作帶來決定性的改變。
責任編輯:趙東川