多模態(tài)模型加速短視頻生產(chǎn)變革

2024-12-31 00:00:00梅濤

網(wǎng)絡(luò)視聽 2024年9期

2022年11月，ChatGPT的出現(xiàn)引起了廣泛關(guān)注。在過去一年里，人工智能大模型取得的進(jìn)展，大家有目共睹，特別是多模態(tài)的人工智能基礎(chǔ)模型，對(duì)一個(gè)國家未來的通用人工智能發(fā)展至關(guān)重要。因此，大語言模型領(lǐng)域競(jìng)爭(zhēng)日趨激烈。

AI為視頻產(chǎn)業(yè)高質(zhì)量發(fā)展賦能

從2023年7月起，基于ChatGPT-4的發(fā)布，幾乎每三個(gè)月便出現(xiàn)一次技術(shù)革新。微軟、谷歌等公司呈現(xiàn)日趨激烈的競(jìng)爭(zhēng)態(tài)勢(shì)，谷歌相繼發(fā)布了1.0和1.5版本，大語言模型的參數(shù)規(guī)模已從千億級(jí)躍升至萬億級(jí)，其能力亦從幾百K提升至百萬級(jí)水平，充分展現(xiàn)了大語言模型的發(fā)展態(tài)勢(shì)，突顯了大語言模型的重要性。

如今，大語言模型領(lǐng)域正在發(fā)生顯著變化，生成式人工智能對(duì)個(gè)人、組織和公司生產(chǎn)力的影響日益凸顯。國內(nèi)人工智能大模型發(fā)展目前有三個(gè)明顯趨勢(shì)。首先，基礎(chǔ)模型的參數(shù)規(guī)模正由千億級(jí)逐步向萬億級(jí)過渡，這對(duì)從事大模型研發(fā)的企業(yè)來說，將面臨嚴(yán)峻挑戰(zhàn)。其次，大模型正在從單一的文字模態(tài)向多模態(tài)時(shí)代發(fā)展，涵蓋視頻、3D、圖片、聲音等多種模態(tài)。第三，與國外大語言模型領(lǐng)域的技術(shù)相比仍存在差距。

從AI視頻方面看，人工智能為視頻產(chǎn)業(yè)賦能，構(gòu)成了其潛在價(jià)值高達(dá)萬億元級(jí)別的龐大市場(chǎng)，其內(nèi)容涵蓋了影視劇、動(dòng)畫片、短劇及直播等多方面。短視頻制作通常需要經(jīng)過前期拍攝與后期制作，這需要優(yōu)秀的劇本、創(chuàng)意、演員、導(dǎo)演、道具及專業(yè)工具支持。這一流程往往伴隨高成本、長周期、技術(shù)難度高等問題。AI技術(shù)的賦能，將會(huì)為視頻產(chǎn)業(yè)帶來深刻變革。未來，用戶和導(dǎo)演能夠更加個(gè)性化地表達(dá)自己的創(chuàng)意與想法，互動(dòng)性的增強(qiáng)也將為演繹方式帶來更多可能性。這將使我們能夠制作更高質(zhì)量、海量且多元化的內(nèi)容，無疑將是視頻產(chǎn)業(yè)未來的發(fā)展趨勢(shì)。

AI為技術(shù)商業(yè)化帶來無限可能

2024年2月16日，OpenAI發(fā)布首個(gè)視頻生成大模型Sora。首先，Sora與ChatGPT之間的主要區(qū)別在于它們的核心功能和生成內(nèi)容的類型不同。其次，Sora是一個(gè)專注于視頻生成的AI模型，它能夠從文本或靜態(tài)圖像生成動(dòng)態(tài)視頻，并展現(xiàn)較高性價(jià)比。第三，Sora生成的視頻具有高度一致性和逼真度。在文本理解、單鏡頭連貫性和畫質(zhì)精細(xì)度等方面都處于行業(yè)領(lǐng)先位置。

但Sora也有很多不足。其可控性相對(duì)較弱，目前僅限于單鏡頭應(yīng)用，無法支持多鏡頭故事性呈現(xiàn)。同時(shí)，Sora模型尚未具備超清功能，以及多人交互和物理世界建模的能力。

任何一種技術(shù)走向商業(yè)化，都需要考慮三個(gè)元素：成本、效率、體驗(yàn)。成本方面，據(jù)我們了解，Sora的模型成本至少是1萬張顯卡，其每秒鐘粒度成本高達(dá)1.5美元。這僅是在每次抽取盲盒均成功的情況下的成本估算，若需多次嘗試才能成功，則成本將更高。在效率方面，Sora渲染一個(gè)1秒鐘的視頻需要等待15至20秒。這顯示了無論是從成本、效率還是用戶體驗(yàn)的角度來看，Sora模型與商業(yè)化產(chǎn)品之間仍存在一定距離。

因此，我們將AIGC賦能與內(nèi)容創(chuàng)作劃分為L1至L5共五個(gè)階段，這與自動(dòng)駕駛技術(shù)發(fā)展的L1至L5階段形成對(duì)標(biāo)。目前，無論是Sora，還是我們自身，都尚處于L2階段，主要聚焦于單鏡頭內(nèi)容生成，后續(xù)有望逐步邁向L3階段，即從分鏡到連續(xù)故事再到完整故事的生成。雖然與用AI生成完整的故事這個(gè)目標(biāo)還有一定距離，但這并不意味著我們必須等到最后一個(gè)階段才開始商業(yè)化進(jìn)程，實(shí)際上，每個(gè)階段都有其獨(dú)特的商業(yè)化路徑。

當(dāng)下，技術(shù)商業(yè)化還面臨三個(gè)痛點(diǎn)，首先要解決單鏡頭內(nèi)容的確定性。導(dǎo)演在制作單鏡頭內(nèi)容時(shí)，主要考慮鏡頭類型、意境營造、人物刻畫及運(yùn)鏡等因素，缺少任何一個(gè)環(huán)節(jié)，無法把單鏡頭制作的內(nèi)容落地。其次是多鏡頭的主體一致性，這要求我們?cè)诒３昼R頭連貫性的同時(shí)，維持角色或物體的ID不變。最后，還要保持多鏡頭故事的連貫性，這對(duì)于構(gòu)建一分鐘、兩分鐘乃至一兩個(gè)小時(shí)的敘事作品至關(guān)重要。只有滿足以上三點(diǎn)，AI才能有效賦能影視劇、短劇和短視頻的創(chuàng)作。

AI為視頻產(chǎn)業(yè)帶來巨大變革

視頻生成模型涉及三大路徑，主要包括GAN、自回歸模型和擴(kuò)散模型，其中擴(kuò)散模型（Diffusion model）為當(dāng)前主流生成模型。視頻生成模型屬于多模態(tài)模型，主要包括算法、算力等。我們目前收集了60多萬個(gè)數(shù)據(jù)，以及20萬小時(shí)的視頻數(shù)據(jù)，目標(biāo)是能夠充分利用我們掌握的1000萬3D數(shù)據(jù)，通過模型的持續(xù)迭代和優(yōu)化，形成一個(gè)龐大的萬億級(jí)數(shù)據(jù)集，這將成為我們模型中的核心資源。

在AI時(shí)代，創(chuàng)作者的工作流程呈現(xiàn)顯著變化。與傳統(tǒng)制作模式不同的是，現(xiàn)在可以把劇本利用文字語言模型進(jìn)行分鏡處理，確定劇本基本框架。創(chuàng)作者基于這個(gè)框架制作單鏡頭內(nèi)容。在此過程中，創(chuàng)作者與生成流程緊密結(jié)合，最終利用工具將各個(gè)鏡頭連貫起來，形成完整的視頻作品。這樣就極大提高了創(chuàng)作效率并降低了成本。

目前，我們正與咪咕公司合作，將這種技術(shù)應(yīng)用于視頻彩鈴制作領(lǐng)域。例如，我們?cè)谱髁艘徊空故境啥細(xì)v史風(fēng)貌的豎屏彩鈴作品。這部作品完全由文字生成，沒有涉及任何拍攝過程。相較于傳統(tǒng)制作方法，其制作成本降低了十分之一，而效率則提升了十倍以上。

在AI時(shí)代，計(jì)算設(shè)備、硬件和軟件都發(fā)生了深刻變化。過去50年，我們依賴于CPU和軟件構(gòu)建個(gè)人計(jì)算設(shè)備；未來50年，計(jì)算設(shè)備和硬件將逐漸從CPU轉(zhuǎn)向GPU，軟件則將演變?yōu)榻裉斓腁I大模型，成為計(jì)算平臺(tái)。創(chuàng)作者只需輸入腳本，即可得到完整作品。因此，AI在視頻創(chuàng)作領(lǐng)域具有巨大潛力和可能性。W

（作者梅濤系上海智象未來科技有限公司創(chuàng)始人兼CEO）