
巴黎奧運會剛剛結束,2028年洛杉磯夏季奧運會似乎還很遙遠。然而,曾為勒布朗·詹姆斯和芝加哥公牛隊制作內容的體育娛樂電影制作人喬什·卡恩已經在思考更遠的未來:3028年的洛杉磯奧運會會是什么樣子?
這正是人工智能(AI)視頻生成的完美創意實現。2024年早些時候,OpenAI推出的Sora使得AI視頻生成進入主流。通過在Runway或Synthesia等生成器中輸入提示,用戶可以在幾分鐘內生成相當高分辨率的視頻。與傳統的CGI或動畫創作技術相比,這種方式速度快、成本低,并且技術門檻較低。雖然每一幀畫面可能并不完美——例如6指手或物體消失等失真現象很常見——但至少在理論上,這種技術有著廣泛的商業應用潛力。廣告公司、企業和內容創作者可以利用這項技術快速、廉價地制作視頻。
卡恩一直在嘗試使用AI視頻工具,他利用最新版本的Runway構想出了未來奧運會的樣子,并在模型中為每個鏡頭輸入一個新的提示。這段視頻時長僅一分多鐘,展示了一個未來感十足的洛杉磯:海平面急劇上升使城市被擠到海岸線邊緣,一座足球場坐落在摩天大樓的頂部,而港口中央的圓頂內則設有一個沙灘排球場。
這段視頻由麻省理工科技評論獨家分享,更多的是為了展示AI目前的可能性,而非城市規劃藍圖。“我們在觀看奧運會時,注意到主辦城市在文化敘事上所投入的心血。”卡恩說,“洛杉磯有一種想象力和敘事文化,并且這種文化為世界其他地方定下了基調。如果我們能展示一下1000年后洛杉磯奧運會的樣子,那該多酷啊!”
這個視頻最重要的是展示了生成技術對創作者的巨大助力,但它也揭示了當前技術的局限性。雖然卡恩沒有透露他為每個鏡頭使用的具體提示內容或為了達到理想效果所需的提示次數,但他提醒說,任何希望用AI創作出優質內容的人都必須接受不斷試驗的過程。在他的未來項目中,特別具有挑戰性的是讓AI模型在建筑設計上突破常規。比如,水上懸浮的體育場是大多數AI模型在訓練數據中幾乎沒有見過的。
每個鏡頭都需要新的提示,這也讓視頻難以保持連貫性。顏色、太陽的角度以及建筑物的形狀很難由視頻生成模型保持一致。視頻中也沒有任何人像的特寫鏡頭,因為卡恩認為AI模型在處理這些方面仍然存在困難。
“目前,這些技術在處理大規模場景時表現較好,但在人類互動的細節上還有待改進。”他說。因此,卡恩認為生成視頻的早期電影應用可能會集中在風景或人群的廣角鏡頭上。
AI視頻專家艾利克斯·馬什博夫也同意當前AI視頻的缺陷和不足。他2023年離開了Snap公司生成AI部門總監的職位,創立了一家新的AI視頻公司HiggsfieldAI。他指出,好的對話內容很難通過AI生成,因為它往往依賴于微妙的面部表情和肢體語言。
一些內容創作者可能會因為反復輸入提示以達到理想效果所需的時間,而不愿采用生成視頻技術。
“通常成功率是1∶20。”艾利克斯·馬什博夫說,但需要50次甚至100次嘗試也并不罕見。
然而,對于許多用途來說,這已經足夠好了。艾利克斯·馬什博夫表示,他已經看到像Temu這樣的電商巨頭開始越來越多地使用AI生成視頻廣告。在中國,視頻生成器需求旺盛,用于快速制作產品的直接廣告。即使一個AI模型可能需要大量提示才能生成一個可用的廣告,用真人、攝像機和設備來拍攝可能會昂貴百倍。他認為,隨著技術的逐步改進,這類應用可能會成為生成視頻技術大規模應用的首批案例。
“雖然這條路還很長,但我對現階段已有的部分應用充滿信心。”艾利克斯·馬什博夫說,“我們正在找出生成AI已經表現不錯的領域。”(綜合整理報道)(策劃/多洛米)