宋奇
受新冠疫情的影響,加速了各行業(yè)企業(yè)移動(dòng)化辦公的需求,這期間,有大量的用戶和企業(yè)選擇了線上視頻會(huì)議。那么,應(yīng)該如何在視頻會(huì)議中展現(xiàn)更完美的自己呢?
近日,2021年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR 2021)正式召開(kāi)。基于GAN研究的NVIDIA Maxine云AI視頻流SDK現(xiàn)已在CVPR 2021上展出。讓我們看一看GAN研究是如何重塑視頻會(huì)議的呢?
起床、啟動(dòng)筆記本電腦、打開(kāi)網(wǎng)絡(luò)攝像頭——得益于NVIDIA研究人員開(kāi)發(fā)的AI技術(shù),每次都能在視頻通話中展現(xiàn)完美的自己。
Vid2Vid Cameo 是用于視頻會(huì)議的NVIDIA Maxine SDK 背后的深度學(xué)習(xí)模型之一,它借助生成式對(duì)抗網(wǎng)絡(luò)(GAN),僅用一張人物2D圖像即可合成逼真的人臉說(shuō)話視頻。
要使用該模型,參與者需要在加入視頻通話之前提交一張參照?qǐng)D像(真實(shí)照片或卡通頭像)。在會(huì)議期間,AI模型將捕捉每個(gè)人的實(shí)時(shí)動(dòng)作,并將其應(yīng)用于之前上傳的靜態(tài)圖像。
也就是說(shuō),上傳一張穿著正裝的照片之后,與會(huì)人員即使頭發(fā)凌亂、穿著睡衣,也能在通話中以穿著得體工作服裝的形象出現(xiàn),因?yàn)锳I可以將用戶的面部動(dòng)作映射到參照照片上。如果主體向左轉(zhuǎn),技術(shù)可以調(diào)整視角,以便參與者看上去是直接面對(duì)攝像頭的。
除了可以幫助與會(huì)者展現(xiàn)出色狀態(tài)外,這項(xiàng)AI技術(shù)還可將視頻會(huì)議所需的帶寬降低10倍,從而避免抖動(dòng)和延遲。它很快將在NVIDIA Video Codec SDK 中作為AI Face Codec 推出。
NVIDIA研究人員兼項(xiàng)目的聯(lián)合創(chuàng)作者M(jìn)ing-Yu Liu 表示:“許多人的互聯(lián)網(wǎng)帶寬有限,但仍然希望與朋友和家人進(jìn)行流暢的視頻通話。這項(xiàng)基礎(chǔ)技術(shù)除了可以為他們提供幫助外,還可用于協(xié)助動(dòng)畫(huà)師、照片編輯師和游戲開(kāi)發(fā)者的工作。”
Vid2Vid Cameo近日發(fā)表于著名的國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議,這是NVIDIA在本次虛擬會(huì)議上發(fā)表的28篇論文之一。此外,它還在AI Playground上推出,在此所有人均可親身體驗(yàn)我們的研究演示。
AI大出風(fēng)頭
在一部經(jīng)典盜賊電影(同時(shí)也是Netflix的熱門(mén)節(jié)目)的致謝中,NVIDIA研究人員將他們的人臉說(shuō)話GAN模型迅速用于虛擬會(huì)議。演示重點(diǎn)介紹Vid2Vid Cameo的主要功能,包括面部重定向、動(dòng)畫(huà)頭像和數(shù)據(jù)壓縮。
這些功能即將登陸NVIDIA Maxine SDK,為開(kāi)發(fā)者提供經(jīng)過(guò)優(yōu)化的預(yù)訓(xùn)練模型,以便在視頻會(huì)議和直播中實(shí)現(xiàn)視頻、音頻和增強(qiáng)現(xiàn)實(shí)效果。
開(kāi)發(fā)者已經(jīng)能采用Maxine AI效果,包括智能除噪、視頻升采樣和人體姿態(tài)估計(jì)。SDK支持免費(fèi)下載,還可與NVIDIA Jarvis平臺(tái)搭配用于對(duì)話式AI應(yīng)用,包括轉(zhuǎn)錄和翻譯。
來(lái)自AI的問(wèn)候
Vid2Vid Cameo只需2個(gè)元素,即可為視頻會(huì)議打造逼真的AI人臉說(shuō)話動(dòng)態(tài),這2個(gè)元素分別是一張人物外貌照片和一段視頻流,它們決定了如何對(duì)圖像進(jìn)行動(dòng)畫(huà)處理。
模型基于NVIDIA DGX系統(tǒng)開(kāi)發(fā),使用包含18萬(wàn)個(gè)高質(zhì)量人臉說(shuō)話視頻的數(shù)據(jù)集進(jìn)行訓(xùn)練。網(wǎng)絡(luò)已掌握識(shí)別20個(gè)關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可用于在沒(méi)有人工標(biāo)注的情況下對(duì)面部動(dòng)作進(jìn)行建模。這些點(diǎn)對(duì)特征(包括眼睛、嘴和鼻子)的位置進(jìn)行編碼。
然后,它會(huì)從通話主導(dǎo)者的參照?qǐng)D像中提取這些關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可以提前發(fā)送給其他的視頻會(huì)議參與者,也可以重新用于之前的會(huì)議。這樣一來(lái),視頻會(huì)議平臺(tái)只需發(fā)送演講者面部關(guān)鍵點(diǎn)的移動(dòng)情況數(shù)據(jù),無(wú)需將某參與者的大量直播視頻流推送給其他人。
對(duì)于接收者一端,GAN模型會(huì)使用此信息,模擬參照?qǐng)D像的外觀以合成一個(gè)視頻。
通過(guò)僅來(lái)回壓縮及發(fā)送頭部位置和關(guān)鍵點(diǎn),而不是完整的視頻流,此技術(shù)將視頻會(huì)議所需的帶寬降低10倍,從而提供更流暢的用戶體驗(yàn)。該模型可以進(jìn)行調(diào)整,傳輸不同數(shù)量的關(guān)鍵點(diǎn),以實(shí)現(xiàn)在不影響視覺(jué)質(zhì)量的條件下,適應(yīng)不同的帶寬環(huán)境。
此外,還可以自由調(diào)整所生成的人臉說(shuō)話視頻的視角,可以從側(cè)邊輪廓或筆直角度,也可以從較低或較高的攝像頭角度來(lái)顯示用戶。處理靜態(tài)圖像的照片編輯者也可以使用此功能。
NVIDIA研究人員發(fā)現(xiàn),無(wú)論是參照?qǐng)D像和視頻來(lái)自同一個(gè)人,還是AI負(fù)責(zé)將某個(gè)人的動(dòng)作轉(zhuǎn)移到另一個(gè)人的參照?qǐng)D像,Vid2Vid Cameo均能生成更逼真、更清晰的結(jié)果,優(yōu)于先進(jìn)的模型。
后一項(xiàng)功能可將演講者的面部動(dòng)作,應(yīng)用于視頻會(huì)議中的數(shù)字頭像動(dòng)畫(huà),甚至可以應(yīng)用于制作視頻游戲或卡通角色的逼真形象和動(dòng)作。
Vid2Vid Cameo論文由NVIDIA研究人員Ting-Chun Wang、ArunMallya和Ming-Yu Liu 共同撰寫(xiě)。NVIDIA研究團(tuán)隊(duì)在全球擁有超過(guò)200名科學(xué)家,專(zhuān)注于AI、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車(chē)、機(jī)器人和圖形等領(lǐng)域。
我們要感謝演員Edan Moses,他在Netflix上的《紙鈔屋》中擔(dān)任教授的英語(yǔ)配音,感謝他在我們AI研究的介紹視頻中做出的貢獻(xiàn)。
視頻會(huì)議現(xiàn)已經(jīng)成為人們?nèi)粘I畹囊徊糠郑軌驇椭鷶?shù)百萬(wàn)人工作、學(xué)習(xí)、娛樂(lè),甚至就醫(yī)。NVIDIA Maxine集成了先進(jìn)的視頻、音頻和對(duì)話式AI功能,給那些幫助我們保持聯(lián)絡(luò)的視頻會(huì)議平臺(tái)帶來(lái)效率突破。