
一
2018年11月7日,在第五屆世界互聯網大會上,搜狗與新華社聯合展示了全球首個全仿真智能AI主持人。“他”是以中國新聞主播邱浩為原型的,一經亮相便引起了巨大轟動。這名AI主持人之所以成為了最耀眼的明星,主要是因為“他”除了口型稍微有點對不上之外,不論是表情還是聲音都達到了以假亂真的地步。
那么,到底什么是全仿真智能AI主持人呢?
要搞清楚這個問題,我們就要先來具體了解一下什么是“AI”。所謂“AI”,其實就是“人工智能”的英文縮寫。AI是計算機科學的一個分支,是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。它主要包括機器人、語言識別、圖像識別、自然語言處理以及專家系統等等。
簡單地說,全仿真智能AI主持人就是利用人工智能技術,通過模仿真人主播的形象和聲音來朗讀文本內容的數字化播報員。業界內稱其為“AI合成主播”。
二
當然,如果僅僅只是一個簡單的數字化播報員也不會引起各界如此強烈的關注。“AI合成主播”能夠結合新華社客戶端“現場新聞”,將“AI合成主播”與短視頻一體化生產制作,呈現了令人耳目一新的新聞短視頻。“他”不僅在全球AI合成領域實現了技術創新和突破,更是在新聞領域開創了實時音視頻與AI真人形象合成的先河。
根據官方透露的信息,新華社的這個“AI合成主播”主要是在搜狗“分身”技術的支持下,通過人臉關鍵點檢測、人臉特征提取、人臉重構、唇語識別、情感遷移等多項前沿技術,并結合語音、圖像等多模態信息進行聯合建模訓練后,生成的與真人無異的AI分身模型。
那么,搜狗的“分身”技術又具體指的是什么呢?
搜狗“分身”技術誕生于搜狗“自然交互+知識計算”這一人工智能理念之下。它主要包括了語音合成技術、唇形合成技術、表情合成技術以及自然語言處理技術等多種AI技術。這項技術讓機器首次做到了逼真模擬人類說話的聲音、嘴唇動作和表情,并且將三者自然匹配,做到惟妙惟肖。這是人工智能技術在模仿人類領域的一個新突破。
簡而言之,生成“AI合成主播”大致可分為三步完成:首先,被模仿者在鏡頭前錄制一段音頻、視頻數據;然后,“分身”技術提取被模仿者的聲音、表情、唇形等個性特征;最后,利用語音合成、表情合成、唇形合成技術,再加上深度學習技術即可合成一個活靈活現的“AI主播”。
三
目前,“AI合成主播”已經在新華社正式上崗,并且被運用到了世博會、世界互聯網大會等重要新聞事件的報道當中。“他”基本上能夠同其他真人主播一起,為觀眾們帶來權威、及時、準確的中英文新聞資訊。
“AI合成主播”相比真人主播最大的優點就是能夠24小時不停歇地工作。不但能夠提升滾動媒體的新聞制作效率,還可以有效降低新聞的制作成本。
那么,在了解了“AI合成主播”的情況之后,大家難免要為現在的真人主播們擔憂了,這不是活生生搶飯碗來了嗎?
其實,就目前來看大家的擔心還為時過早。因為,作為一名還處于研發過程中的AI新聞主播,“他”本身還有許多需要進一步改進和完善的地方。
不過,未來基于人工智能技術合成的風格各異的人類形象,在醫療、教育、媒體、法律咨詢等方面的應用前景無疑是十分廣闊的。