梁志立
(肇慶高新區(qū)廣播電視中心技術(shù)播出部,廣東 肇慶 526238)
2016 年,當(dāng)AlphaGo 戰(zhàn)勝圍棋世界冠軍,人們意識(shí)到人工智能(Artificial Intelligence,AI)時(shí)代即將到來。近兩年,AI 虛擬主播已經(jīng)廣泛運(yùn)用于廣電行業(yè)。隨著技術(shù)的發(fā)展和成熟,未來AI 虛擬主播將在廣電行業(yè)中扮演越來越重要的角色。
2001 年,世界上第一個(gè)虛擬主持人“阿娜諾娃”誕生,是一個(gè)2D 化虛擬人物。它是電腦生成的動(dòng)畫人模,表情略顯僵硬。2004 年,央視CCTV6 頻道推出了國(guó)內(nèi)首位電視節(jié)目虛擬主持人“小龍”。采用三維形象技術(shù),人物具備肢體動(dòng)作和相應(yīng)的表情,進(jìn)一步提升了逼真度。此后10 多年,虛擬主播發(fā)展進(jìn)入相對(duì)停滯期。2016 年,超級(jí)AI 虛擬主播“絆愛”在YOUTUBE 上首次亮相。它由真人扮演、3D 建模,捕捉了真人動(dòng)作及表情,并由聲優(yōu)對(duì)口型配音,在語(yǔ)音和動(dòng)作方面較早期虛擬主持人有了明顯進(jìn)步。2016 年,科大訊飛、搜狗及百度等科技公司憑借AI 技術(shù)的積累與開發(fā),實(shí)現(xiàn)了語(yǔ)音識(shí)別技術(shù)的飛躍,產(chǎn)品語(yǔ)音識(shí)別準(zhǔn)確率均達(dá)到97%。這一關(guān)鍵技術(shù)的突破,大大提升了AI 虛擬主播的工作效率,從而掀起了新一輪AI 虛擬主播熱潮。2018年5 月,科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”,形象更為逼真,較以往實(shí)現(xiàn)了較大進(jìn)步。截至2018 年底,各大平臺(tái)上的虛擬主播已經(jīng)超過6 000 個(gè)。2019 年春晚,AI 虛擬主持人團(tuán)隊(duì)誕生,只需要一段既有的新聞文本,虛擬主播就可實(shí)時(shí)進(jìn)行播報(bào),與真人無二。2020 年,全球首位3D AI 合成主播亮相。主播高度智能化,在交互能力和場(chǎng)景應(yīng)用方面取得了巨大的進(jìn)步[1]。
隨著語(yǔ)言識(shí)別和圖像處理等技術(shù)的飛速發(fā)展,AI 虛擬主播已經(jīng)實(shí)現(xiàn)消費(fèi)級(jí)的技術(shù)降維,使得AI虛擬主播應(yīng)用在各領(lǐng)域迅速鋪開,尤其是在廣電行業(yè)的使用上,已經(jīng)從省級(jí)媒體向縣市級(jí)媒體延伸。
2020 年2 月16 日,廣西壯族自治區(qū)首位AI 虛擬主播“小晴”登陸廣西衛(wèi)視新媒體平臺(tái)“戰(zhàn)疫情”特別報(bào)道。結(jié)合訊飛的語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)義理解、人臉識(shí)別、人臉建模、口唇預(yù)測(cè)、音頻驅(qū)動(dòng)、圖像處理及機(jī)器翻譯等多項(xiàng)人工智能技術(shù),面向各類視頻播出和交互場(chǎng)景,利用2D/3D 虛擬形象代替真人主播。AI 虛擬主播“小晴”支持預(yù)置文本,可將文稿一鍵自動(dòng)輸出為音、視頻并實(shí)現(xiàn)多語(yǔ)種的自動(dòng)播報(bào),實(shí)現(xiàn)了智能交互[2]。憑借高性價(jià)比和使用便捷等多種綜合優(yōu)勢(shì),AI 虛擬主播“小晴”迅速在各級(jí)媒體采用[3]。主播形象如圖1 所示。
科大訊飛AI 虛擬主播支持形象租用和形象定制兩種方式。形象定制是針對(duì)用戶需求定制用戶專屬虛擬形象。形象租用方式是AI 虛擬主播產(chǎn)品的一大特點(diǎn),用戶只需每年支付一定費(fèi)用即可獲得授權(quán)租用。產(chǎn)品配備專屬合成聲音庫(kù),用戶只需輸入文本即可一鍵生成所需視頻。
2018 年11 月8 日,AI 合成主播在新華社客戶端和公眾號(hào)上線使用。采用搜狗人工智能的核心技術(shù)“搜狗分身”,運(yùn)用“自然交互+知識(shí)計(jì)算”兩大能力,從圖像表情、聲音語(yǔ)言習(xí)慣及邏輯思維等層面對(duì)AI 進(jìn)行擬人化訓(xùn)練,進(jìn)而克隆制造人類的AI分身。只需輸入一段既有的新聞文本,AI 合成主播就能實(shí)現(xiàn)實(shí)時(shí)播報(bào)。使用wavernn 波形建模技術(shù),實(shí)現(xiàn)了更逼真的語(yǔ)音合成效果,使主播聲音情感更加真實(shí)。在播報(bào)過程中,AI 虛擬主播的唇型、神態(tài)及表情等也能與真人主播完全吻合。AI 合成主播形象如圖2 所示。

圖1 AI 虛擬主播“小晴”

圖2 分身技術(shù)打造的AI 虛擬主播
該技術(shù)通過人臉關(guān)鍵點(diǎn)檢測(cè)和三維人臉重建等技術(shù),從少量錄制好的視頻中深度學(xué)習(xí)語(yǔ)音、人臉表情及動(dòng)作等信息,可快速定制出高逼真度的分身模型。系統(tǒng)支持音視頻流輸出和離線視頻文件快速導(dǎo)出,提供公有接口調(diào)用和私有化部署的多套解決方案,還可靈活支持對(duì)分身的音色、語(yǔ)種、形象服裝、視頻背景及對(duì)話等的個(gè)性化定制。AI 分身技術(shù)生成主播形象的過程如圖3 所示。

圖3 AI 分身技術(shù)
2020 年5 月22 日,首位3D 版AI 合成主播“新小微”在新華社全國(guó)兩會(huì)報(bào)道應(yīng)用。“新小微”的原型是新華社記者趙琬微,采用超寫實(shí)3D 數(shù)字人建模、多模態(tài)識(shí)別及生成等技術(shù),在視覺效果、靈活度、交互能力及應(yīng)用空間等方面,與其他AI 合成主播相比有了大幅躍升。“新小微”形象如圖4 所示。

圖4 3D AI 虛擬主播“新小微”
“新小微”的研發(fā)需要進(jìn)行海量數(shù)據(jù)采集工作。超過百個(gè)的攝像頭對(duì)著原型人物身體部位進(jìn)行“打點(diǎn)”掃描,360°全方位無死角地收集每一個(gè)動(dòng)作的細(xì)節(jié),并且對(duì)多種形態(tài)的表情和動(dòng)作進(jìn)行細(xì)致入微的捕捉記錄。數(shù)據(jù)采集過程如圖5 所示。

圖5 數(shù)據(jù)采集
“新小微”采用超寫實(shí)3D 數(shù)字人建模、多模態(tài)識(shí)別及生成等技術(shù),不僅形象更加真實(shí)立體,而且其播報(bào)口型、肌膚毛孔以及發(fā)絲等細(xì)節(jié)也都清晰可見,如圖6 所示。另外,“新小微”通過AI 技術(shù)來驅(qū)動(dòng)3D 模型,生成時(shí)長(zhǎng)為1 min 的視頻只需要1 min 時(shí)間即可完成,大幅度提升了寫實(shí)任務(wù)的制作效率,降低了制作成本。

圖6 AI 虛擬主播面部表情
與前面兩個(gè)案例相比,3D AI 合成主播擁有超寫實(shí)、360°展現(xiàn)及靈活可控等優(yōu)勢(shì),但是目前3D版AI 合成主播形象的動(dòng)畫痕跡比較重,制作需要采集的數(shù)據(jù)量較大,身體部位、表情及動(dòng)作需要大量模塊化處理和組裝,因此在普及和應(yīng)用層面存在一定的難度。
目前,國(guó)內(nèi)各大科技企業(yè)都在加大對(duì)AI 虛擬主播的研發(fā)和應(yīng)用。除了上述的科大訊飛和搜狗等科技公司,京東、騰訊、百度及阿里等科技巨頭也都在各自領(lǐng)域研發(fā)并使用AI 虛擬主播。雖然在人物還原精度、準(zhǔn)確的語(yǔ)音及細(xì)膩的表情等方面,虛擬主播形象已經(jīng)實(shí)現(xiàn)了質(zhì)的飛越,但是智能化方面還普遍存在不足。現(xiàn)實(shí)中,廣電行業(yè)的主播不只是單一的節(jié)目主持,要做的工作還包含如策劃、編輯、采訪、制作及導(dǎo)播等,因此未來AI 主播除了在形象、動(dòng)作及語(yǔ)言等視覺技術(shù)上提升外,更要加強(qiáng)智能化,如采用AlphaGo 掌握的“深度學(xué)習(xí)”工作原理[4]。如果未來廣電行業(yè)的AI 虛擬主播除了能實(shí)現(xiàn)自然順暢的人機(jī)交互和高效、準(zhǔn)確的播報(bào)功能外,還能綜合運(yùn)用數(shù)據(jù)與案例,提供豐富準(zhǔn)確的節(jié)目、新聞分析及策劃,勢(shì)必會(huì)給廣電行業(yè)帶來全新的變革與發(fā)展[5]。
隨著技術(shù)的飛速進(jìn)步,未來AI 虛擬主播一定會(huì)廣泛應(yīng)用于日常生活的各個(gè)領(lǐng)域。這是科技進(jìn)步的魅力,也是人類能不斷前進(jìn)的動(dòng)力所在。