劉 達
中國電影科學技術研究所(中央宣傳部電影技術質量檢測所),北京 100086
近年來,新興視聽技術、新一代信息通信技術(ICT)和智能科學技術在全球范圍得到迅猛發展與廣泛應用,與此同時,諸多國家、行業、領域、科技公司等積極進軍和實施推進元宇宙(Metaverse)和人工智能大模型(Large-scale AI Model)發展戰略。在此背景下,整個人類社會在學科、技術、業務、服務、產業、行業等方面交叉滲透與融合發展趨勢日益明顯,進程持續拓展和不斷深化。
電影作為科技與文化的融合統一體,其攝制品質、視聽體驗、工藝流程、內容安全體系與版權保護機制在現代視聽媒體中具備技術引領作用。特別是,電影追求視聽效果逼近真實,虛擬化、逼真性、虛實融合、智能交互是電影的關鍵技術特征,其集中展現了虛擬世界與物理世界的融合、交互和呈現。順應技術演進趨勢、產業發展需求以及交叉滲透與融合發展進程,電影行業正加快步入大視聽(Great Audio-Visual)、大科學(Great Science)和元宇宙(Metaverse)時代。
電影技術的發展演進與大視聽(Great Audio-Visual)、大科學(Great Science)和元宇宙(Metaverse)時代的核心內涵高度契合、緊密關聯、相融相通。大視聽、大科學和元宇宙時代具有鮮明的技術特征,簡單概括如下:
(1)新興視聽技術(Emerging Audio-Visual Technology)、新一代信息通信技術(ICT)和智能科學技術(Intelligence Science &Technology)的發展與應用持續向廣度和深度統籌推進,即不斷泛化和持續深化。
(2)在全球范圍,學科、技術、業務、服務、產業、行業深度交叉和融合并進,科學研究和技術應用的復雜性、系統性、協同性顯著增強,交叉融合是大科學時代的核心內涵;適應媒體融合深化趨勢,視聽產業發展格局持續重構優化,視聽業務服務模式不斷創新升級,覆蓋電影、電視、手機、互聯網等多元媒體的廣義大視聽產業構建形成并不斷提質升級。
(3)整個人類社會都在積極推進信息化建設、云化與智能化升級,現代智能科技有力支撐信息時代(Age of Information)向智慧時代(Age of Wisdom)演進升級,智能感知、自主學習、自然交互是智慧時代的核心特征和本質要求。
(4)元宇宙(Metaverse)作為一個集成眾多高新科技的巨型復雜生態系統,其核心思想和發展目標是虛實融合與智能交互,持續推進虛擬世界與物理世界實現無縫虛實融合和高度智能交互,推動高品質視聽體驗不斷逼近真實。
(5)在數字內容創作生產領域,相對于判別式人工智能(Discriminative AI),生成式人工智能(Generative AI)發展顯著提速,優勢愈加顯現,人工智能生成內容(Artificial Intelligence Generated Content,AIGC)和大語言模型(Large Language Model,LLM)技術應用持續拓展深化。
(6)在算力、模型、算法、知識、大數據等有力支撐下,數據科學(Data Science)范式持續深化完善,其與實驗科學(Experimental Science)、理論科學(Theoretical Science)、仿真科學(Simulation Science)統稱為科學研究的四大范式。現代智能科技是數據科學范式的核心關鍵支撐,數據科學范式有望帶來更具影響力與顛覆性的科學突破和技術創新,具有極其廣闊和深遠的發展潛能。
智能(Intelligence)的實現原理與重要支撐如圖1所示,涵蓋感知(Perception)、學習(Learning)、認知(Cognition)、決策(Decision)四大環節,其實現需要算力(Computility)、算 法(Algorithm)、知 識(Knowledge)、大數據(Big Data)的有力支撐。自智能科學技術發展進入現代以來,其發展進步與新一代信息通信技術(ICT)和計算機科學技術的發展進步密不可分、互為成就、融合并進。從傳統淺層機器學習到基于多級人工神經網絡(ANN)的深度學習(Deep Learning),從傳統深度學習到人工智能預訓練大模型(AI Pre-trained Large Model),現代智能科學技術持續取得新進展和新成就,不斷實現具有里程碑意義的重要新突破。

圖1 智能(Intelligence)的實現原理與重要支撐
機器學習(Machine Learning)是人工智能的重要分支,其研究計算系統如何通過持續學習和訓練,利用歷史經驗來提升系統性能,其涉及三個核心關鍵要素:(1)模型(Model),對學習問題建模,確定假設空間;(2)策略(Strategy),從假設空間選擇最優模型準則,確定目標函數;(3)算法(Algorithm),根據目標函數求解最優模型計算方法,求解模型參數。機器學習工作流程主要涵蓋以下環節:(1)確定訓練數據集;(2)使用訓練數據集訓練模型,構建學習器(Learner);(3)使用驗證數據集評估學習器性能,進行模型選擇;(4)使用最終模型對測試數據進行分析預測并輸出結果。隨著機器學習模型復雜度和訓練難度持續提升,如何高效配置和訓練機器學習模型成為面臨的新問題和新挑戰。
傳統機器學習基于特征工程人工設計特征,特征向任務目標的映射通過學習算法直接從數據中學習,屬于淺層學習(Shallow Learning)。伴隨算力、算法和數據集的發展進步,基于多級人工神經網絡(ANN)的深度學習(Deep Learning)應運而生。杰弗里·辛頓(Geoffrey Hinton)等人于2006 年在《Science》期刊發表論文,首次提出深度學習概念并指出多層神經網絡模型具有優異的特征學習能力,可通過“預訓練(Pre-Training)+精調(Fine Tuning)”來有效解決深度神經網絡參數訓練調優問題,為推動深度學習在學術界和工業界的發展與應用作出了突出貢獻,進而推動人工智能實現從實驗室向產業化的歷史性跨越。
傳統機器學習泛化機制不適合學習高維空間復雜函數,深度學習利用大規模數據集來訓練精準模型,通過多級人工神經網絡級聯來實現復雜函數逼近,突破了傳統機器學習基于先驗知識手工設計低層特征的模式,而是自適應學習適用于不同任務的數據特征表示,通過構建非線性表示擬合數據關系,從而有效克服傳統機器學習算法對高維數據泛化能力不足等問題。機器學習與深度學習的主要挑戰和實現目標是使學習或訓練得到的模型在新樣本上表現優秀,即具有強大的泛化(Generalization)能力,也就是泛化誤差小,有效克服欠擬合(Underfitting)和過擬合(Overfitting)。其中,欠擬合因學習能力低下而造成,可通過豐富完善訓練數據集來去除;過擬合因學習能力過于強大而產生,其同時學習了訓練數據集的共性特征和個性特征,致使對訓練數據集預測好,對新樣本預測差,使學習器的泛化性能下降。過擬合不能從根本上去除,只能緩解和降低其風險。另外,針對高維數據,由于計算量顯著增大,機器學習與深度學習問題求解將極其困難,通常稱為維數災難(Curse of Dimensionality),必須妥善有效應對。
自深度學習發展以來,人工智能模型基本上是針對特定應用場景需求進行訓練的中小模型,用于完成特定智能任務,解決特定智能問題。AI 中小模型通用性差,在場景變換后需重新訓練并進行參數調整,且技術門檻高,需要大量AI 專業人員,此外模型訓練需要大規模、高質量的標注數據。繼2017 年谷歌大腦(Google Brain)提出Transformer 轉換器新型架構以來,人工智能預訓練大模型發展提速。AI 預訓練大模型又稱AI 基座模型(Foundation Model),其具有強大的邏輯推理和分析判斷能力,不僅能夠從海量互聯網數據中學習大量有用知識,而且具有強通用性和強泛化性,可通過模型定制以契合下游任務,并在新數據和新任務上取得合理結果。Transformer 架構是AI 預訓練大模型的發展基石,由多個編解碼器(Encoder &Decoder)疊加組成,現有主流AI 大模型通常基于該架構,其應用了自注意力(Self-Attention)機制,可有效提升模型訓練速度和語義理解能力。
近年來,國內外科技企業都在大力發展布局AI大模型,國家層面也在積極推進AI 大模型的研制與應用。2020 年6 月,美國OpenAI 推出擁有1750 億參數的GPT-3 模型,其擁有強大能力,但因訓練語料來自互聯網,會生成不適文本。2022 年11 月,在融入人類反饋強化學習(RLHF)技術以改進GPT-3 模型的基礎上,OpenAI 推出對話生成式預訓練轉換器AI大模型ChatGPT(Chat Generative Pre-trained Transformer),其實質就是GPT-3.5 模型,這是大語言模型(LLM)發展的一個重要里程碑,引發了學術界和工業界的廣泛關注。2023 年OpenAI 發布多模態預訓練大模型GPT-4。谷歌最新推出的通用大模型PaLM-E,已經擁有5620 億參數。我國百度、華為、阿里、騰訊、商湯科技、中科院、清華大學、復旦大學等企業和科研院所也分別推出了國產AI預訓練大模型。
AI 通用大模型集成多模態數據,可適配多元下游任務,同一模型利用少量標注數據進行微調就能完成多場景任務,可縮短特定AI應用開發周期,顯著提高研發效率,且當模型參數超過一定閾值時,大模型會涌現出顯著的理解、推理、學習等能力,進而獲得更優應用效果。AI 預訓練大模型的研發需要大數據、算法與算力的強力支撐。海量多源異構的高質量訓練數據集是AI 大模型訓練與調優的基礎和關鍵。自AI 預訓練大模型發展以來,克服了傳統深度學習針對特定AI 任務獨立采集數據集用于模型訓練,不再針對特定AI 任務廣泛采集數據。算法是人工智能解決問題的方式和路徑,算法優劣直接決定AI 大模型的空間復雜度與時間復雜度,要研發高效、優秀的智能算法來降低計算復雜度,以更好、更快地完成海量數據擬合建模,進而形成共性知識。算力是AI 大模型的門檻,算力是否充足將直接制約AI 大模型的發展與應用。AI 大模型訓練推理需要高性能圖形處理器(GPU)集群,強大算力一般來自于云計算數據中心或超算中心。
人工智能(Artificial Intelligence)基于計算機模擬人類思維過程和智能行為以實現高層級應用,根據學習和認知能力強弱,可分為弱人工智能和強人工智能。智能系統(Intelligent System)應具備感知(Perception)、推理(Reasoning)、學習(Learning)、抽象(Abstraction)四大能力。現有人工智能系統均屬于弱人工智能,強人工智能即達到人類水平、能夠自適應外部環境挑戰、具有自我意識的人工智能,又稱通用人工智能(Artificial General Intelligence,AGI)。一般認為,通用人工智能(AGI)是人工智能(AI)發展的終極目標,標志著人工智能從狹義人工智能向廣義人工智能轉變,從僅能完成特定任務向類似人類分析思考問題并做出推理判斷轉變。以ChatGPT 等為代表的大語言模型(LLM)為逼近通用人工智能(AGI)提供了一個可能路徑和重要選項。從學習和認知能力看,通用人工智能(AGI)并不是將各項專用人工智能用一臺巨型機器簡單集成,而是進行更高層級的知識抽象和處理。鑒于跨模態感知難于在數據層面實現,需要在認知層面實現,因此現有基于大數據訓練的人工智能(數據智能)距離通用人工智能(AGI)和人類智能(Human Intelligence)尚有相當距離。
從發展趨勢來看,AI 預訓練大模型正從單一領域轉向多模態領域,進而推出性能更強、功能更全、品質更優的衍生模型,并不斷逼近通用人工智能(AGI)。同時,AI 大模型的發展進步與落地應用將催生新的生產方式和生活方式。此外,在AI大模型迅猛發展的背后,AI 芯片設計存在重大挑戰:一方面,AI 大模型參數規模迅猛增長,直接導致單節點算力需求劇增,對AI芯片性能提出了很高要求;另一方面,AI 芯片廠商在芯片開發過程中,受到來自制程工藝(IC 精細度)、性能、良率、成本、功耗等多重因素的限制,必須高度重視和有效應對。
在人工智能、機器學習、深度學習、AI 預訓練大模型、認知計算、腦科學等現代智能科學技術的有力驅動下,人類社會正由信息時代向智慧時代演進升級。智慧時代具有智能感知、強大算力、優秀模型與算法、系統完備的專業知識體系、強大高效的數據分析處理能力、自然友好的人機交互特性、以數據為中心的新型體系架構、類似人類智能(Human Intelligence)的自主學習能力等關鍵技術特征。當前,電影行業正處在信息化向智能化演進升級的關鍵時期,應當緊密結合大視聽、大科學、元宇宙和智慧時代的核心內涵、技術特征和產業需求,全面推進電影全產業鏈智能化升級,促進電影產業高質量發展。電影產業智能化升級與智慧時代關鍵技術特征如圖2所示。

圖2 電影產業智能化升級與智慧時代關鍵技術特征
人工智能(AI)按照任務類型可劃分為判別式人工智能(Discriminative AI)和生成式人工智能(Generative AI),前者實現分類、回歸、識別、預測等傳統任務,后者聚焦數字內容創作生產,人工智能生成內容(AIGC)即基于生成式人工智能技術來自動或輔助生成數字內容。以ChatGPT 等為代表的大語言模型(LLM)的發展與應用,標志著人工智能從判別式(Discriminative)向生成式(Generative)的重大演進。相對于判別式人工智能,生成式人工智能不僅更能充分展現AI大模型的智能涌現能力以及數據要素作為新興生產力代表的重要價值,而且與數字時代電影產業兼具文化創意產業和戰略性新興產業的雙重內涵高度契合。此外,人工智能領域著名的莫拉維克悖論(Moravec's Paradox)指出,人類所獨有的推理等高階智慧能力僅需極少算力,無意識的技能和直覺卻需極大算力,這說明人類難以解決的問題,人工智能卻能輕易解決,反之亦然。鑒于人工智能和人類智能存在優勢互補,高質量人機融合和高效人機協同將是未來電影智能化生產運營服務體系的重要特征。
下面以高新技術格式電影(High-Tech Format Film)為例闡述電影的智能化創作生產。基于新興視聽技術的高新技術格式電影集圖像高分辨率(HR)、高幀率(HFR)、高動態范圍(HDR)、廣色域(WCG)、沉浸式音頻(IA)等技術特征于一體,與電影的高品質視聽需求與沉浸式觀影體驗高度契合。為豐富完善高新技術格式電影片源,在常規技術格式電影(Conventional-Tech Format Film)的基礎之上,針對圖像空間分辨率、幀速率、動態范圍、色域等提升和擴展,可基于深度學習模型和算法,例如深度卷積神經網絡(DCNN)、變分自編碼器(VAE)、生成式對抗網絡(GAN)、擴散模型(Diffusion Model)等基礎模型與衍生模型,運用圖像超分辨率重建(SR)和人工智能生成內容(AIGC)等技術,同時采用并行化系統設計策略,涵蓋模型、算法、數據、程序、硬件等并行化設計,以顯著提升GPU 利用率和模型訓練效率,并有效節省硬件成本和電力成本,可支撐服務電影智能化創作生產技術體系構建,如圖3所示。

圖3 高新技術格式電影智能化創作生產
近年來,AI 生成范式由數據驅動向“數據+知識”聯合驅動發展演進,推進AI 通用大模型在垂直行業或領域實現落地應用和產業化,必須準確把握行業或領域業務特點和發展需求,緊密結合行業或領域專業知識,并遵循行業或領域標準規范,因此,AI 系統應當具備知識建模能力。AI 通用大模型作為基座模型,通常基于大規模公開數據集即通用語料、采用無監督學習方式訓練構建,當進行特定應用開發時,需基于小規模標注數據、采用監督學習方式實現更加深化和細化的學習,即通過對大模型進行微調,以契合下游特定任務。AI 通用大模型應用了遷移學習(Transfer Learning)思想,顯著降低了下游任務模型對標注數據集規模的要求,非常適于處理難以獲得大量標注數據的應用場景。迄今AI通用大模型因缺乏行業或領域專業知識而存在發展短板,即面向特定行業或領域的服務精準性有效性差,行業或領域契合度低,且不能保證符合行業或領域標準規范。
在組建國家戰略科技力量和實施產學研聯合攻關人工智能大模型的背景下,電影行業要積極推進國內相對成熟AI 通用大模型在電影行業的定制化、精準化應用,使共性技術和系統設施有效服務電影產業提質升級。因此,需要AI 通用大模型研發方與電影行業聯合開展電影垂直AI 大模型定制化研制,其中既掌握AI 大模型訓練推理技術、又精通電影行業專業知識的人才團隊不可或缺。此外,不同國家、行業、領域AI 大模型的發展與芯片、模型、算法、網絡、云計算數據中心、訓練數據集等產業基礎密切相關,必須因地制宜,緊密結合國情和產業基礎。總之,“AI 大模型預訓練+下游任務微調”技術模式對于提升AI通用大模型與電影行業契合度提供了可行路徑,對于支撐服務電影全產業鏈提質優化具有重要意義。電影行業垂直AI大模型研制及其戰略意義如圖4所示。

圖4 電影行業垂直AI大模型研制及其戰略意義
近年來,在計算與基建領域,器件、芯片、計算模式、新型基礎設施建設等均發生了重大變化,高性能圖形處理器(GPU)、AI 專用智能芯片、高容量現場可編程門陣列(FPGA)、系統級芯片/系統級可編程芯片(SOC/SOPC)、云計算數據中心/超算中心/人工智能系統設施/5G 移動網絡等新型基礎設施建設、“東數西算”國家戰略等發展迅猛并積極推進。AI 大模型訓練推理需要GPU 強大算力為支撐,典型產品國外有英偉達(NVIDIA),國內則有華為、寒武紀(Cambricon)等,并需要應用NVLink 總線及CPU/GPU、GPU/GPU 高速互連與通信組網技術。當前,支撐AI 大模型訓練推理的算力顯著增強,曾經受算力或計算復雜度限制而無法實現的諸多技術問題已經能夠實現。未來,AI 通用與垂直大模型有望納入國家新型數字基礎設施建設范疇,以服務國家與行業數字經濟發展戰略。
AI 大模型的發展面臨諸多挑戰,不僅模型可解釋性差、訓練成本高、行業契合度低,而且隨著模型參數規模增大,性能提升明顯縮小,例如當模型參數規模增大10 倍時,性能提升往往不足10%。因此,未來AI 大模型的研制與發展不能盲目追求模型參數規模,而要趨于實用化,在多元場景實現產業化應用,且AI 大模型與AI 中小模型高效協同發展將是必然趨勢。AI 大模型積淀的知識與認知推理能力要向AI 中小模型輸出,AI 中小模型在AI 大模型基礎上疊加垂直應用場景,要將應用效果反饋給AI 大模型,進而推動AI 大模型持續迭代優化。可以預見,在電影行業,AI 大模型將對劇本創作、制作生產、發行傳播、影片評價、觀影分析等電影全價值鏈產生深遠影響,其有望取代中低級電影崗位,但由于現有AI系統是通過數據集訓練和模型調優來獲得智能,其本質上屬于數據智能,而非認知智能,因此,電影行業高級崗位將不易被替代且價值將愈加凸顯。
電影行業自主發展生成式人工智能與人工智能行業垂直大模型,應確保關鍵核心技術自主安全可控,這對于國家安全、信息安全、文化安全和產業健康有序可持續發展都至關重要。人工智能(AI)是一把雙刃劍,兼具技術性和社會性雙重屬性,發展人工智能,應堅持以人為本、智能向善,要加強技術風險管控。2017 年1 月在美國加州阿西洛馬(Asilomar)舉行的“對人類社會有益的人工智能(Beneficial AI)”會議制定了阿西洛馬人工智能原則(Asilomar AI Principles),旨在確保人類社會的利益和安全。2023年11 月首屆全球人工智能安全峰會(AI Safety Summit)在英國布萊切利莊園(Bletchley Park)召開,就人工智能技術快速發展帶來的風險與機遇展開討論,包括中美英在內的28 個國家及歐盟共同簽署了《布萊切利宣言》(The Bletchley Declaration),承諾以安全、以人為本、值得信賴和負責任的方式設計、開發、部署和使用AI。2023 年10 月我國在北京發布《全球人工智能治理倡議》,圍繞人工智能發展、安全和治理,系統闡述了人工智能治理中國方案。綜上所述,必須高度重視電影行業垂直AI 大模型的自主研制、安全治理和監管體系建設,人工智能應當得到科學合理利用,AI 大模型必須在一個受控邊界內安全使用,要加快研究制定AI 相關安全秩序準則和技術標準規范,國外AI大模型更要謹慎使用。
一般來說,AI 模型的參數規模和數據量越大,性能就越高,而且當AI 模型的參數規模和數據量達到一定量級時將獲得涌現能力(Emergence Ability),即機器自主發現知識和形成智能的能力,一般AI 大模型以百億級參數為分水嶺。1977 年諾貝爾物理學獎獲得者菲利普·安德森(Philip Anderson)在論文中曾經提及涌現(Emergence)即系統量變引起行為質變,自然在不同尺度上會涌現出新的復雜性,這表明當模型規模達到足夠量級時模型其實已經發生質變。在復雜系統與復雜網絡研究中,涌現(Emergence)是復雜系統的核心特征,發現復雜系統的涌現規律是復雜性科學的重要目標。AI 大模型本質上是一個復雜系統,其涌現能力涵蓋思維、抽象、推理、歸納、匹配等能力,如上下文情境學習、人類思維鏈、自然指令學習、強泛化能力等。涌現能力是AI 大模型相對于AI中小模型帶來的一項革命性、創新性變化,應當合理充分利用并有效規避其風險。
伴隨數字經濟時代來臨,智能經濟與智能社會成為發展趨勢和必然要求。近年來,智能科技不斷發展進步和創新升級。自動化機器學習(AutoML)逐漸興起,其旨在實現機器學習工作流涉及的數據預處理、特征工程、模型選擇、超參數調優等自動化;AI預訓練大模型異軍突起,其具有強大的表征能力和學習能力,其發展與應用將顯著縮短實現通用人工智能(AGI)的時間預期,通過創建AI 基礎底座,再向垂直行業實施定制化研制應用,可科學精準高效服務行業。與此同時,人類社會加快步入全云(All-in-Cloud)時代。AI 模型高度復雜化和海量多源異構數據訓練對強大算力的需求,使AI 系統嚴重依賴云計算數據中心的強大算力支撐;在云端計算和高速信息網絡的有力支撐下,AI 與云計算的發展深度交匯和融合并進,AI 系統云化與云平臺AI 化成為重要特征和關鍵趨勢。
智能化升級是電影產業高質量發展的必然要求,是一項極其復雜龐大的系統工程,必須強化頂層設計、立足自主創新和注重有序推進。既要加快產業化規模化集約化發展,推動機器學習、深度學習、人工智能生成內容(AIGC)、人工智能預訓練大模型等發展與應用,加快構建完善電影智能化創作生產與運營服務技術體系,研究試驗智慧電影和智慧影院整體解決方案,又要緊密結合新一代人工智能發展的新趨勢新特點新需求,統籌布局新一代智能計算范式與機器學習/深度學習/AI 大模型在電影行業的原創性突破和創新性應用,進而積極服務電影科技自立自強和中華文化自信自強,有力支撐新時代電影強國和文化強國建設。