沈 浩 盧 偉
中國傳媒大學,北京 100024
基于深度學習等算法,通過文本、圖片、視頻等數據進行訓練而得到的能夠生成全新內容的模型,我們稱之為生成式人工智能(Generative AI),同時為了區別于專業生產內容(Professional Generated Content,PGC)和用戶生產內容(User Generated Content,UGC),我們將這種新的生成式網絡信息內容稱為人工智能生成內容(Artificial Intelligence Generated Content, AIGC)。[1]2022 年11 月,基于問答的文本生成模型ChatGPT(Chat Generative Pre-trained Transformer)發布測試,很快火遍全網,瑞銀集團當地時間2 月1 日發布的一份研究報告顯示:短短一周之內ChatGPT 用戶量便超一百萬,兩個月活躍用戶就達到了上億級。
ChatGPT 以問答的形式,融合聚攏了眾多的自然語言處理技術,這類模型被稱為大語言模型(Large Language Model)。大語言模型是在大規模語料上進行訓練后得到的深度學習模型,可以理解輸入語言文本的含義,生成自然語言文本。它能夠更好地理解對話主題和用戶需求,可以給出更加真實、生動和自然的回答,更好理解語言的結構和上下文,使用戶的交互體驗更加完善。
由此,像GPT 這樣的大語言模型在各領域的應用也逐漸吸引了學術界更多的目光。GPT、Midjourney 以及AudioLM 是分別在語言生成、圖像生成及音頻生成方面表現較為優秀的模型或工具。
生成式預訓練Transformer 模型(Generative Pre-Trained Transformer,GPT)進化至今,已成為千億級別參數量的大語言模型[2],在學習和理解人類語言的同時,以積累的大量知識為基礎,分析對話的上下文并能夠給出自然、流暢且質量較高的回答。簡而言之,它以積累的大量知識儲備為支撐,能夠進行更符合人類常識和價值觀的對話。圖1 為OpenAI 官方對ChatGPT 原理的介紹。

圖1 ChatGPT 訓練思路①
于2022 年3 月問世的Midjourney 是一款僅憑輸入文字就可以利用人工智能產出圖片的AI 繪圖工具。其實質是利用Discord 機器人處理用戶與AI 服務器之間的請求和響應,將用戶編寫的參數傳入官方模型中,并將生成的圖片結果返回給用戶。2023年更新的Midjourney v5 版本憑借逼真的出圖質量成功獲得了廣泛關注。圖2 是Midjourney 生成的名為“中國情侶”的圖片。

圖2 Midjourney 生成的圖像②
AudioLM 是一款音頻生成框架,用于生成長時間連貫的高質量音頻。其通過將輸入的音頻映射成離散的標記序列,使用Transformer 模型預測序列中的下一標記,并轉換成音頻輸出。簡單來說,AudioLM 可以僅憑輸入的音頻為模板將其自然連貫地延續下去。圖3 是Google Research 上一篇博客《AudioLM:一種音頻生成的語言建模方法》中展示的訓練AudioLM(音頻生成模型)的過程。

圖3 音頻生成模型AudioLM 架構③
生成式人工智能正在改變各種行業,影視行業自然也不例外。影視行業是一個復雜的產業,其受眾、發行、制作的技術和設備對于影視作品的成功與否都有著重要影響。制作環節所占比重最大,是影視行業發展的基礎,包括劇本創作、拍攝、后期制作等。而生成式人工智能恰恰能夠給予這些工作更高效、更準確的支持,比如自動編寫劇本、自動對焦、智能剪輯、顏色校正、特效制作等。
在影視作品面向受眾的環節中,其市場表現與盈利水平構成重要的價值指標。生成式人工智能可以在分析觀眾反饋和評價以及預測市場表現等方面給出新的思路,比如利用生成式推薦范式為用戶推薦更加符合偏好的作品,從而提高影視作品的盈利能力。
總而言之,生成式人工智能不僅能夠大幅度提升影視作品的生產效率,還能夠影響其傳播效率和市場表現,推動影視行業的發展。Gartner 預測,到2030 年,電影大片中AI 生成內容的比例將從2022 年的0%上升到90%[3]。
NAB Show 是美國廣播電視協會主辦的年度貿易展,是全美最大的媒體、娛樂和技術展會。在剛剛結束的NAB Show 2023 中,生成式人工智能幾乎成為了最重要的主題。Adobe 和Blackmagic 推出的AI 工具已經被用于《壯志凌云2:獨行俠》《阿凡達:水之道》等電影中[4]。
新技術正在改變電影的構思、開發和制作方式。生成式人工智能正在改變電影制作過程,并為創意表達提供新的機會。下面從內容生成、視覺效果、后期制作、市場優化和觀眾參與五個方面探討生成式人工智能可能為影視行業帶來的變化。
傳統的電影劇本創作方式往往要經過一系列環節,比如創意構思、擬定故事大綱、角色塑造、情節細化、修正潤色等,需要投入大量的創作時間和精力。
不同于此,生成式語言模型能夠通過自然語言處理(NLP)技術和機器學習(ML)算法生成符合語法語義規則且內容相對真實流暢的文本描述,通過ChatGPT 等模型,我們可以通過對話的形式或者輸入一系列關鍵詞供模型識別參數并擬定劇本的核心要素,或提供更為精細的語料素材,供其進行加工,自動生成完整的劇本。
ChatGPT 等模型已具備高度貼近人類常識的劇本創作能力,能夠根據輸入的提示語生成完整的劇情。圖4是作者嘗試的一段示例。

圖4 文本生成示例
只要給出的條件夠多,生成式語言模型完全可以生產出邏輯清晰的劇本供編劇參考。
除了幫助設計場景制作和構圖方案、為服裝道具設計提供靈感、提供各種特效制作方法外,生成式語言模型甚至可以直接根據輸入的內容提供相應制作成熟的視頻片段等。
Meta AI 公司于2022 年9 月29 日首次推出的人工智能系統Make-A-Video 成功實現了文本到視頻、圖片到視頻以及視頻到視頻等的生成功能。此類生成式模型帶來的啟發無疑為電影制作提供了更多新的選擇和便利。用戶輸入幾個單詞或幾行文字,或上傳一段已有的圖片或視頻,即可生成一段新的短視頻。圖5 來自Meta AI 公司官網提供的一段參數“A dog wearing a Superhero outfit with red cape flying through the sky”生成的短視頻。

圖5 文本生成短視頻示例④
傳統電影拍攝過程中有些難以拍攝的場景往往需要進行前期布景和后期制作,如《變形金剛》系列電影為了達到讓觀眾更加身臨其境的效果,其制作中用到了很多特殊鏡頭設計、拍攝技法調整、場景布局以及新技法嘗試等[5]。
而有了生成式模型的幫助,不僅可以根據一段制作好的鏡頭生成不同片段(圖6),甚至還能將靜態的圖片直接轉為生動的視頻(圖7),在拓寬作品想象力,提升觀眾視聽效果的同時,也同樣節省了大量人力物力。

圖6 視頻轉多個變體④

圖7 靜態圖片轉視頻④
生成式人工智能還可以幫助完成虛擬現實(VR)技術中的場景制作等。由于視差、拍攝環境要求嚴格、素材存儲和傳輸困難、后期編輯困難等原因,VR 電影技術瓶頸主要體現在拍攝制作技術難度大和藝術創作難度大。2023 年3 月28 日,騰訊AI Lab 發布了自主研發的3D 游戲場景自動生成解決方案,為AI 生成真實度較高的3D 場景提供了實現基礎[4]。
AI 驅動的算法可以分析和編輯素材、應用視覺效果,并協助進行顏色分級、聲音設計和視頻編輯,這加快了后期制作過程,節省了時間和精力。基于精準的自動標記和識別技術,人工智能不僅能夠幫助電影制作人完成音頻素材的管理和編輯,去除其中的噪音,提高音質,還能通過解析視頻素材,識別其中的角色和情感等信息,完成自動剪輯、生成預告片和短視頻等復雜操作。甚至可以通過學習大量的案例素材,自動生成新的特效和動畫效果,大大提高電影的制作效率和質量,節省制作成本。
如“剪映”“Genny”等應用已經能夠提供較為成熟、滿足用戶需求的智能音頻生成以及智能剪輯等功能。
通過大數據分析有關制作成本、票房表現和觀眾參與度的數據,為具有成本效益的制作策略、營銷活動和收入預測提供見解和建議。以大數據分析用戶偏好為基礎,通過模型解析電影作品,總結其中所包含的關鍵元素,如導演、演員陣容、題材、時長等,再通過總結比對歷史上相似度較高的影視作品的票房數據,在一定置信度內可以預測當前作品的票房、口碑等,并給出優化建議[6]。
2013年奈飛(Netflix)通過大數據技術捧紅《紙牌屋》的成功案例提供了有力的現實依據。奈飛通過收集分析大量用戶的收視選擇、評論、搜索、播放操作等信息,總結出廣大受眾客觀的喜好,并以此作為依據決定成片方式、演員和導演的選擇以及播出時段等,使公司當季收入同比提升了18%[7]。
這一成功案例讓全世界意識到了大數據的力量,隨著大模型在電影行業被提出與應用,人工智能得以助力更高效與更精準地分析用戶偏好,抽象出電影作品要素,在此基礎上,智能推薦與區塊鏈技術的疊加使用,使得電影作品能夠以較低的存儲和傳輸成本、更為個性化的表現形式觸達用戶。
智能推薦系統為滿足廣大用戶的個性化需求,針對不同行業的智能推薦系統給出了優秀的解決方案,即首先通過大數據收集用戶的行為特征數據,構建精準的用戶畫像,再通過用戶的歷史行為數據對用戶群體進行分類,最后綜合這些數據并結合使用場景,按照預設的推薦策略進行個性化推薦[8][9]。
受AIGC 啟發提出的生成式推薦范式為實現AI自動編輯或生成Items 以及通過交互引導內容編輯和生成活動提供了理論基礎,即用戶通過語言文字或按鈕選項進行輸入后,AI 可以自動分析用戶偏好并結合當前語境為用戶生成適合的選擇。圖8 為知乎文章《生成式推薦:邁向下一代推薦系統新范式》介紹的生成式推薦范式。

圖8 智能推薦系統架構⑤
互動電影也可仿照這種范式,在智能推薦的基礎上分析用戶的行為特征以及群體分類等,按照一定的主題生成既匹配用戶特征又契合當前劇情的選項參數,并根據用戶之前的選擇動態地生成更加符合用戶偏好的劇情節奏和走向。
值得一提的是,基于模型創建的電影,無論是單一劇情還是互動型電影,都可以由一系列參數完成。也就是說只需要將同樣的參數輸入相同的模型,便可生成高度相似或相同的體驗,對個性化的AI 生成電影進行共享,即二次體驗。而這些數字化的參數存儲與傳輸比媒體文件容易得多,這就為區塊鏈技術的加持提供了可能,筆者將在下文進行進一步闡述。
總的來說,對小型工作室和獨立制作人,生成式人工智能可以輔助制作者們以更低的成本和人力制作出更好的作品。而對大型影視公司,AI 則可幫助他們優化流程和預算分配,在同樣的投入下獲得更好的投資回報。
隨著互聯網的發展,對數據保密性要求逐漸提高,在網絡中各節點和信道都缺乏可信度的情況下,區塊鏈技術提供了優秀的解決方案。
區塊鏈技術將時間戳、交易數據等一系列數據加密組裝并按時間順序劃分成一個個區塊再串接在一起,基于非對稱加密算法、共識機制等構建出一個去中心化且可靠的數據模式,實現了一種高度獨立、安全高效的自由經濟。用戶通過區塊鏈技術可以放心地進行數字資產交易。
有了區塊鏈技術的加持,AI 生成電影作品可以以封裝好的參數序列形成數字資產,在互聯網上實現安全、高效傳輸,并為實現一系列功能打下基礎。
影視作品的版權保護一直受到人們高度關注,由于AI 生成電影的制作方式只需簡單的參數輸入,雖有一定的專業門檻,有條件者都可以使用模型或調用第三方提供的接口生成,在版權保護方面更容易引發思考。
區塊鏈技術為版權保護提供了高效、安全的解決方案。使用區塊鏈存儲電影的數字版權信息、登記周期等,可以大大減少登記和維權的成本,同時也能夠幫助提升保密性,節約交易成本[10]。近幾年興起的基于區塊鏈技術保護數字版權的概念也已誕生了相關產品,如螞蟻集團提供的區塊鏈版權平臺等,已經構建出了較為成熟的維權體系。
由前文總結可以得出,在引入了AI 生成電影這一概念之后,不僅電影作品本身,與之綁定的一些數據如主題、作者、版權號等信息完全可以歸為一個整體,在生成電影時只需將額外綁定的參數用算法剝離出來,對電影作品本身不會構成影響,這就給AI生成電影的發行、放映以及版權保護等提供了極大的便利。整部電影包括其生成時必要的參數、署名、發行商、版權號等經打包后可以以較以往“輕便”得多的方式實現發行、溯源、維權等。
(1)偏見與歧視。由于地理環境、政治因素、文化差異等限制,供模型用于學習的數據可能有一定的局限性,存在社會偏見,進而導致了其生成的作品也在一定程度上受到影響。例如ChatGPT 在訓練時更多使用的是以英語為主的西方的語料,所以其生成的內容也更多地體現了西方主流價值觀。
(2)“深度造假”等技術帶來的虛假內容。AI 依托生成對抗網絡(GAN)技術,通過學習大量真實圖像、視頻和聲音素材,可以生成真實人物的虛假外貌和行為,從而進行深度造假或深度偽造(Deepfakes)。人工智能被用于多起網絡詐騙,對信息和財產安全造成威脅,甚至其通過面部圖像、視頻替換技術對個人的肖像權與名譽權造成損害。此外,隨著生成式人工智能產生的作品數量和樣式的積累,人們不禁發問:這些作品的歸屬權究竟在于輸入參數創造作品的作者,還是訓練模型代碼的編寫者,亦或是AI系統的運營者。
(3)版權與問責。在使用AI 工具生成作品的過程中,使用者可能需要提供個人數據,也引起了人們對個人信息保護的擔憂。隨著AI 工具越來越復雜,其內容和版權的歸屬問題問責難度提高,所產生的負面結果應該由誰來負責,這一問題值得深入探討。
在各行各業,關于人工智能是否會替代人類的勞動,對原本的社會結構產生影響一直是人們熱衷探討的話題。隨著ChatGPT 強大的功能在互聯網上被越來越多地討論,其是否在創作型的工作崗位中具有替代性的探討也受到了人們的廣泛關注。
在電影創作方面,人工智能可以通過大量的算法和數據,替代人工完成如字幕添加、特效制作、配樂剪輯等需要一定專業技能的工作。在節省人力、提高工作效率的同時也為電影創作者提供了更多的創作空間。
另外,人工智能可以幫助分析觀眾的行為和喜好并提供數據支持,創作者可以更加精準地把控作品的受眾和市場,提高電影作品的質量。
雖然人工智能在一些方面可以代替人類更好地發揮作用,但由于其能力實際上是基于大量訓練數據的積累,無法提供主觀的結果,在創造力和想象力方面是無法完全替代電影創作者的。另一方面,人類的情感和價值觀是機器無法準確理解和表達的,在創作過程中,這些必不可少的因素都需要由人類去進行創作和把控。
早在2014 年,Google 研究員就已經開始研究AI創建圖像,并取得了一定的成果。AI 生成圖像技術發展至今,已經能夠生成出以假亂真的高質量圖像。人們不由得發問:演員會不會被AI生成圖像所替代?
實際上,在現有科技水平下,使用人工智能生成的高質量演員圖像除了在真實感和自然度無法完全還原人類外,其語氣語調和面部表情等也很難做到精確模擬。另外,專業演員需要通過一定的表演技巧和自身的情感表現將電影角色的內心世界表達給觀眾,不僅是面部表情和語調的變化,多層次、多維度的表演藝術是人工智能在短期內無法完全理解和再現的。
綜上所述,人工智能發展至今雖已能夠在很多方面代替人類完成大量復雜的計算工作,但其在短期內無法進化到完全模擬人類進行藝術創作等的水平。
當前以ChatGPT 等為代表的生成式模型在互聯網上持續活躍,尤其是2023 年3 月14 日GPT-4 的發布,僅用了6個月的時間就將其給出事實性回應的可能性提高了40%,讓人們看到了AI 新時代下模型的發展之迅速。而隨著以GPT 為代表的大型語言模型的進一步發展,生成式人工智能技術必將帶來更多變革。
(1)自主人工智能模型開發,通過強大的跨模態生成能力創建和生成自己的人工智能模型來學習和完成新任務。如在拍攝過程中針對不同場景、特效的處理,AI 可以自主收集不同類別的場景和特效素材,自主訓練出新的模型,用來生成更加符合特定需求的場景和特效。例如《阿凡達》《星球大戰》這樣的特效電影,其中難以制作的特效便可以通過自動訓練模型生成,節約制作成本。
(2)更精確地預測未來情況,通過連接來自更多模式的更多數據點,自主創建包含生態系統的整個虛擬世界,如自動生成特效場景中完整的物理規則等。在電影《星際穿越》中,制作組需要針對故事中不同星球的引力等環境因素來制定不同的物理法則,再通過天體觀測、白晝交替的變化等特效鏡頭體現出來。有了AI 生成完整的虛擬世界之后,制作組可以將這些環境變化以及其在屏幕上的表現方式交給AI來完成,讓電影更具真實感。
作者貢獻聲明:
沈浩:指導設計整體框架,提出論文構思及技術要點,修訂論文,全文文字貢獻30%;
盧偉:主導完善論文框架,負責具體技術點整合及文字陳述,撰寫和修訂論文,全文文字貢獻70%。
注釋
①圖片已翻譯為中文,圖片來源:https://www.nolibox.com/creator_articles/principle_of_ChatGPT.html。
②圖片來源:環球網百度百家號https://baijiahao.baidu.com/s?id=1761200520504483423&wfr=spider&for=pc。
③圖片已翻譯為中文,圖片來源:https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html。
④圖片來源:Make-A-Video 官網https://makeavideo.studio/。
⑤圖片已翻譯為中文,圖片來源:https://zhuanlan.zhihu.com/p/621252860。