2022年11月,ChatGPT的出現引起了廣泛關注。在過去一年里,人工智能大模型取得的進展,大家有目共睹,特別是多模態的人工智能基礎模型,對一個國家未來的通用人工智能發展至關重要。因此,大語言模型領域競爭日趨激烈。
AI為視頻產業高質量發展賦能
從2023年7月起,基于ChatGPT-4的發布,幾乎每三個月便出現一次技術革新。微軟、谷歌等公司呈現日趨激烈的競爭態勢,谷歌相繼發布了1.0和1.5版本,大語言模型的參數規模已從千億級躍升至萬億級,其能力亦從幾百K提升至百萬級水平,充分展現了大語言模型的發展態勢,突顯了大語言模型的重要性。
如今,大語言模型領域正在發生顯著變化,生成式人工智能對個人、組織和公司生產力的影響日益凸顯。國內人工智能大模型發展目前有三個明顯趨勢。首先,基礎模型的參數規模正由千億級逐步向萬億級過渡,這對從事大模型研發的企業來說,將面臨嚴峻挑戰。其次,大模型正在從單一的文字模態向多模態時代發展,涵蓋視頻、3D、圖片、聲音等多種模態。第三,與國外大語言模型領域的技術相比仍存在差距。

從AI視頻方面看,人工智能為視頻產業賦能,構成了其潛在價值高達萬億元級別的龐大市場,其內容涵蓋了影視劇、動畫片、短劇及直播等多方面。短視頻制作通常需要經過前期拍攝與后期制作,這需要優秀的劇本、創意、演員、導演、道具及專業工具支持。這一流程往往伴隨高成本、長周期、技術難度高等問題。AI技術的賦能,將會為視頻產業帶來深刻變革。未來,用戶和導演能夠更加個性化地表達自己的創意與想法,互動性的增強也將為演繹方式帶來更多可能性。這將使我們能夠制作更高質量、海量且多元化的內容,無疑將是視頻產業未來的發展趨勢。
AI為技術商業化帶來無限可能
2024年2月16日,OpenAI發布首個視頻生成大模型Sora。首先,Sora與ChatGPT之間的主要區別在于它們的核心功能和生成內容的類型不同。其次,Sora是一個專注于視頻生成的AI模型,它能夠從文本或靜態圖像生成動態視頻,并展現較高性價比。第三,Sora生成的視頻具有高度一致性和逼真度。在文本理解、單鏡頭連貫性和畫質精細度等方面都處于行業領先位置。
但Sora也有很多不足。其可控性相對較弱,目前僅限于單鏡頭應用,無法支持多鏡頭故事性呈現。同時,Sora模型尚未具備超清功能,以及多人交互和物理世界建模的能力。
任何一種技術走向商業化,都需要考慮三個元素:成本、效率、體驗。成本方面,據我們了解,Sora的模型成本至少是1萬張顯卡,其每秒鐘粒度成本高達1.5美元。這僅是在每次抽取盲盒均成功的情況下的成本估算,若需多次嘗試才能成功,則成本將更高。在效率方面,Sora渲染一個1秒鐘的視頻需要等待15至20秒。這顯示了無論是從成本、效率還是用戶體驗的角度來看,Sora模型與商業化產品之間仍存在一定距離。
因此,我們將AIGC賦能與內容創作劃分為L1至L5共五個階段,這與自動駕駛技術發展的L1至L5階段形成對標。目前,無論是Sora,還是我們自身,都尚處于L2階段,主要聚焦于單鏡頭內容生成,后續有望逐步邁向L3階段,即從分鏡到連續故事再到完整故事的生成。雖然與用AI生成完整的故事這個目標還有一定距離,但這并不意味著我們必須等到最后一個階段才開始商業化進程,實際上,每個階段都有其獨特的商業化路徑。

當下,技術商業化還面臨三個痛點,首先要解決單鏡頭內容的確定性。導演在制作單鏡頭內容時,主要考慮鏡頭類型、意境營造、人物刻畫及運鏡等因素,缺少任何一個環節,無法把單鏡頭制作的內容落地。其次是多鏡頭的主體一致性,這要求我們在保持鏡頭連貫性的同時,維持角色或物體的ID不變。最后,還要保持多鏡頭故事的連貫性,這對于構建一分鐘、兩分鐘乃至一兩個小時的敘事作品至關重要。只有滿足以上三點,AI才能有效賦能影視劇、短劇和短視頻的創作。
AI為視頻產業帶來巨大變革
視頻生成模型涉及三大路徑,主要包括GAN、自回歸模型和擴散模型,其中擴散模型(Diffusion model)為當前主流生成模型。視頻生成模型屬于多模態模型,主要包括算法、算力等。我們目前收集了60多萬個數據,以及20萬小時的視頻數據,目標是能夠充分利用我們掌握的1000萬3D數據,通過模型的持續迭代和優化,形成一個龐大的萬億級數據集,這將成為我們模型中的核心資源。

在AI時代,創作者的工作流程呈現顯著變化。與傳統制作模式不同的是,現在可以把劇本利用文字語言模型進行分鏡處理,確定劇本基本框架。創作者基于這個框架制作單鏡頭內容。在此過程中,創作者與生成流程緊密結合,最終利用工具將各個鏡頭連貫起來,形成完整的視頻作品。這樣就極大提高了創作效率并降低了成本。
目前,我們正與咪咕公司合作,將這種技術應用于視頻彩鈴制作領域。例如,我們曾制作了一部展示成都歷史風貌的豎屏彩鈴作品。這部作品完全由文字生成,沒有涉及任何拍攝過程。相較于傳統制作方法,其制作成本降低了十分之一,而效率則提升了十倍以上。

在AI時代,計算設備、硬件和軟件都發生了深刻變化。過去50年,我們依賴于CPU和軟件構建個人計算設備;未來50年,計算設備和硬件將逐漸從CPU轉向GPU,軟件則將演變為今天的AI大模型,成為計算平臺。創作者只需輸入腳本,即可得到完整作品。因此,AI在視頻創作領域具有巨大潛力和可能性。W
(作者梅濤系上海智象未來科技有限公司創始人兼CEO)