視頻大模型助力網絡視聽創作

2024-05-22 10:12:52吳欣鴻

網絡視聽 2024年7期

吳欣鴻

美圖公司自2014年起，便積極投身于網絡視聽內容創作的支持與發展。雖然美拍在短視頻領域的嘗試未能成為主流，但我們并未停止探索和創新。2019年，美圖秀秀在原有修圖功能的基礎上，新增了視頻編輯功能，并成功孵化了新的視頻編輯產品Wink。目前，Wink已在中國視頻編輯市場占據第三位，特別是在日活躍用戶方面，已躍居第二，僅次于剪映。2023年，在美圖影像節上，我們發布了多款產品，其中包括多款應用層工具如開拍，也有大模型MiracleVision。開拍作為一款助力口播視頻創作的工具，通過AI技術實現了從腳本創作、題詞器到智能剪輯一站式服務，極大提高了口播視頻的創作效率。而MiracleVision則是美圖推出的視覺大模型，專注于圖像和視頻生成。

以美圖展示的“動物瘋狂賽車”短視頻為例，完成該短片僅用時半天。整個制作流程均基于美圖已上線產品，包括開拍的AI腳本創作、Wink的文聲圖分鏡設計、AI生成視頻能力，以及開拍的AI數字人角色等。這一案例充分展示了MiracleVision視頻大模型在內容創作領域的強大潛力。

關于視頻大模型的行業格局，我們注意到Open AI在2024年2月初發布的Sora對美圖等圖像和視頻大模型公司產生了較大沖擊。Sora的發布讓我們看到了明顯代差，迫使我們重新評估和調整自身技術路線。因此，我們決定對原有的視覺大模型進行升級，采用全新的“Diffusion Transformer”網絡架構對模型進行訓練。全新版本將于今年6月正式發布，相信我們在未來將會帶給大家更多驚艷的作品。

美圖公司自成立以來已有16個年頭，我們一直深耕于應用開發領域，致力于為用戶帶來更加便捷、高效的創作體驗。隨著移動互聯網蓬勃發展，我們推出了一系列備受歡迎的應用產品，贏得了廣大用戶的喜愛和認可。如今，大模型應用創新的浪潮席卷而來，我們看到了應用開發者的紅利期已經到來。未來至少會有兩年甚至三年的時間窗口，讓我們有機會在這個領域大展拳腳。

特別是網絡視聽領域有很多垂直場景值得應用開發者關注。在這一領域中，有著無數創作可能性和商業機會等待我們去挖掘。同時，我們也在逐步構建AI原生工作流，將原本孤立的工作點串聯起來，形成更加高效、智能的創作環境。這種變化不僅提高了創作效率，也讓我們能夠更好地滿足用戶需求，為他們帶來更加卓越的體驗。

在具體應用方面，美圖在AI視頻生成、視頻編輯和視頻渲染等領域均有布局。例如，在視頻生成領域，我們致力于實現網文的視頻化及AI電商的視頻生成；在視頻編輯領域，Wink產品擁有成熟的視頻修人像技術，并實現了內容替換、圖片局部視頻化等功能；在視頻渲染方面，我們的AI動漫技術已經非常成熟，可以實現風格化的視頻生成。此外，我們還在探索Wink畫圖修復、視頻風格遷移等渲染技術。未來，隨著我們技術的不斷進步和創新，相信這些應用將為用戶帶來更加豐富的視聽體驗。

未來十年，我們認為以Sora為代表的視頻大模型2.0只是一個開始。無論是美圖推出的MiracleVision視頻大模型，還是全球范圍內的視頻大模型，都是1.0版本。所有這些1.0版本產品生成視頻的秒數和動態效果都還有很多局限性。但我們通過Sora看到，整個視頻大模型已經能夠逐步理解世界的基本規律，如物理和運動等，還將具備更強的涌現能力和創意生成能力。這將為我們帶來更加廣闊的創作空間和無限可能。

在這個充滿機遇和挑戰的時代，美圖公司將全力推進自研視頻大模型的研發，不斷創新突破，為網絡視聽行業提供更加優質、高效的視頻創作工具。我們堅信，在未來的發展中能夠創造更多令人驚嘆的作品和成果，為用戶和行業帶來更多驚喜和價值。W