AI 虛擬主播技術(shù)的發(fā)展和應(yīng)用分析

2021-04-07 00:28:04梁志立

電視技術(shù) 2021年2期

關(guān)鍵詞：動作

梁志立

（肇慶高新區(qū)廣播電視中心技術(shù)播出部，廣東肇慶 526238）

0 引言

2016 年，當(dāng)AlphaGo 戰(zhàn)勝圍棋世界冠軍，人們意識到人工智能（Artificial Intelligence，AI）時代即將到來。近兩年，AI 虛擬主播已經(jīng)廣泛運用于廣電行業(yè)。隨著技術(shù)的發(fā)展和成熟，未來AI 虛擬主播將在廣電行業(yè)中扮演越來越重要的角色。

1 AI 虛擬主播的發(fā)展歷程

2001 年，世界上第一個虛擬主持人“阿娜諾娃”誕生，是一個2D 化虛擬人物。它是電腦生成的動畫人模，表情略顯僵硬。2004 年，央視CCTV6 頻道推出了國內(nèi)首位電視節(jié)目虛擬主持人“小龍”。采用三維形象技術(shù)，人物具備肢體動作和相應(yīng)的表情，進(jìn)一步提升了逼真度。此后10 多年，虛擬主播發(fā)展進(jìn)入相對停滯期。2016 年，超級AI 虛擬主播“絆愛”在YOUTUBE 上首次亮相。它由真人扮演、3D 建模，捕捉了真人動作及表情，并由聲優(yōu)對口型配音，在語音和動作方面較早期虛擬主持人有了明顯進(jìn)步。2016 年，科大訊飛、搜狗及百度等科技公司憑借AI 技術(shù)的積累與開發(fā)，實現(xiàn)了語音識別技術(shù)的飛躍，產(chǎn)品語音識別準(zhǔn)確率均達(dá)到97%。這一關(guān)鍵技術(shù)的突破，大大提升了AI 虛擬主播的工作效率，從而掀起了新一輪AI 虛擬主播熱潮。2018年5 月，科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”，形象更為逼真，較以往實現(xiàn)了較大進(jìn)步。截至2018 年底，各大平臺上的虛擬主播已經(jīng)超過6 000 個。2019 年春晚，AI 虛擬主持人團(tuán)隊誕生，只需要一段既有的新聞文本，虛擬主播就可實時進(jìn)行播報，與真人無二。2020 年，全球首位3D AI 合成主播亮相。主播高度智能化，在交互能力和場景應(yīng)用方面取得了巨大的進(jìn)步［1］。

2 AI 虛擬主播在廣電中的應(yīng)用案例分析

隨著語言識別和圖像處理等技術(shù)的飛速發(fā)展，AI 虛擬主播已經(jīng)實現(xiàn)消費級的技術(shù)降維，使得AI虛擬主播應(yīng)用在各領(lǐng)域迅速鋪開，尤其是在廣電行業(yè)的使用上，已經(jīng)從省級媒體向縣市級媒體延伸。

2.1 科大訊飛公司AI 虛擬主播“小晴”

2020 年2 月16 日，廣西壯族自治區(qū)首位AI 虛擬主播“小晴”登陸廣西衛(wèi)視新媒體平臺“戰(zhàn)疫情”特別報道。結(jié)合訊飛的語音合成、語音識別、語義理解、人臉識別、人臉建模、口唇預(yù)測、音頻驅(qū)動、圖像處理及機器翻譯等多項人工智能技術(shù)，面向各類視頻播出和交互場景，利用2D/3D 虛擬形象代替真人主播。AI 虛擬主播“小晴”支持預(yù)置文本，可將文稿一鍵自動輸出為音、視頻并實現(xiàn)多語種的自動播報，實現(xiàn)了智能交互［2］。憑借高性價比和使用便捷等多種綜合優(yōu)勢，AI 虛擬主播“小晴”迅速在各級媒體采用［3］。主播形象如圖1 所示。

科大訊飛AI 虛擬主播支持形象租用和形象定制兩種方式。形象定制是針對用戶需求定制用戶專屬虛擬形象。形象租用方式是AI 虛擬主播產(chǎn)品的一大特點，用戶只需每年支付一定費用即可獲得授權(quán)租用。產(chǎn)品配備專屬合成聲音庫，用戶只需輸入文本即可一鍵生成所需視頻。

2.2 搜狗公司AI 合成主播

2018 年11 月8 日，AI 合成主播在新華社客戶端和公眾號上線使用。采用搜狗人工智能的核心技術(shù)“搜狗分身”，運用“自然交互+知識計算”兩大能力，從圖像表情、聲音語言習(xí)慣及邏輯思維等層面對AI 進(jìn)行擬人化訓(xùn)練，進(jìn)而克隆制造人類的AI分身。只需輸入一段既有的新聞文本，AI 合成主播就能實現(xiàn)實時播報。使用wavernn 波形建模技術(shù)，實現(xiàn)了更逼真的語音合成效果，使主播聲音情感更加真實。在播報過程中，AI 虛擬主播的唇型、神態(tài)及表情等也能與真人主播完全吻合。AI 合成主播形象如圖2 所示。

圖1 AI 虛擬主播“小晴”

圖2 分身技術(shù)打造的AI 虛擬主播

該技術(shù)通過人臉關(guān)鍵點檢測和三維人臉重建等技術(shù)，從少量錄制好的視頻中深度學(xué)習(xí)語音、人臉表情及動作等信息，可快速定制出高逼真度的分身模型。系統(tǒng)支持音視頻流輸出和離線視頻文件快速導(dǎo)出，提供公有接口調(diào)用和私有化部署的多套解決方案，還可靈活支持對分身的音色、語種、形象服裝、視頻背景及對話等的個性化定制。AI 分身技術(shù)生成主播形象的過程如圖3 所示。

圖3 AI 分身技術(shù)

2.3 3D AI 合成主播“新小微”

2020 年5 月22 日，首位3D 版AI 合成主播“新小微”在新華社全國兩會報道應(yīng)用。“新小微”的原型是新華社記者趙琬微，采用超寫實3D 數(shù)字人建模、多模態(tài)識別及生成等技術(shù)，在視覺效果、靈活度、交互能力及應(yīng)用空間等方面，與其他AI 合成主播相比有了大幅躍升?！靶滦∥ⅰ毙蜗笕鐖D4 所示。

圖4 3D AI 虛擬主播“新小微”

“新小微”的研發(fā)需要進(jìn)行海量數(shù)據(jù)采集工作。超過百個的攝像頭對著原型人物身體部位進(jìn)行“打點”掃描，360°全方位無死角地收集每一個動作的細(xì)節(jié)，并且對多種形態(tài)的表情和動作進(jìn)行細(xì)致入微的捕捉記錄。數(shù)據(jù)采集過程如圖5 所示。

圖5 數(shù)據(jù)采集

“新小微”采用超寫實3D 數(shù)字人建模、多模態(tài)識別及生成等技術(shù)，不僅形象更加真實立體，而且其播報口型、肌膚毛孔以及發(fā)絲等細(xì)節(jié)也都清晰可見，如圖6 所示。另外，“新小微”通過AI 技術(shù)來驅(qū)動3D 模型，生成時長為1 min 的視頻只需要1 min 時間即可完成，大幅度提升了寫實任務(wù)的制作效率，降低了制作成本。

圖6 AI 虛擬主播面部表情

與前面兩個案例相比，3D AI 合成主播擁有超寫實、360°展現(xiàn)及靈活可控等優(yōu)勢，但是目前3D版AI 合成主播形象的動畫痕跡比較重，制作需要采集的數(shù)據(jù)量較大，身體部位、表情及動作需要大量模塊化處理和組裝，因此在普及和應(yīng)用層面存在一定的難度。

3 AI 虛擬主播未來發(fā)展及應(yīng)用

目前，國內(nèi)各大科技企業(yè)都在加大對AI 虛擬主播的研發(fā)和應(yīng)用。除了上述的科大訊飛和搜狗等科技公司，京東、騰訊、百度及阿里等科技巨頭也都在各自領(lǐng)域研發(fā)并使用AI 虛擬主播。雖然在人物還原精度、準(zhǔn)確的語音及細(xì)膩的表情等方面，虛擬主播形象已經(jīng)實現(xiàn)了質(zhì)的飛越，但是智能化方面還普遍存在不足?，F(xiàn)實中，廣電行業(yè)的主播不只是單一的節(jié)目主持，要做的工作還包含如策劃、編輯、采訪、制作及導(dǎo)播等，因此未來AI 主播除了在形象、動作及語言等視覺技術(shù)上提升外，更要加強智能化，如采用AlphaGo 掌握的“深度學(xué)習(xí)”工作原理［4］。如果未來廣電行業(yè)的AI 虛擬主播除了能實現(xiàn)自然順暢的人機交互和高效、準(zhǔn)確的播報功能外，還能綜合運用數(shù)據(jù)與案例，提供豐富準(zhǔn)確的節(jié)目、新聞分析及策劃，勢必會給廣電行業(yè)帶來全新的變革與發(fā)展［5］。

4 結(jié) 語

隨著技術(shù)的飛速進(jìn)步，未來AI 虛擬主播一定會廣泛應(yīng)用于日常生活的各個領(lǐng)域。這是科技進(jìn)步的魅力，也是人類能不斷前進(jìn)的動力所在。