人工智能是當(dāng)下科技發(fā)展的熱門領(lǐng)域,智能語(yǔ)音技術(shù)在人工智能領(lǐng)域中也占據(jù)著重要地位,隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音技術(shù)也日趨成熟。微軟公司AI(人工智能)語(yǔ)音合成技術(shù)是目前市面上應(yīng)用很廣泛、十分接近人聲的AI配音,不僅可以自由選擇語(yǔ)速、音調(diào)、音色,甚至可以按照不同的情感朗讀播報(bào),幾乎與真人配音無異。因此,對(duì)于以聲音為主的播音主持專業(yè)來說,無疑帶來了巨大的機(jī)遇與挑戰(zhàn)。
一、智能語(yǔ)音技術(shù)的發(fā)展現(xiàn)狀
智能語(yǔ)音技術(shù)并不是近幾年才誕生的,其實(shí)它早已出現(xiàn)在我們的生活中,只是起初的人工智能配音大多出現(xiàn)在機(jī)場(chǎng)車站的客運(yùn)信息播報(bào)、駕駛證科目考試語(yǔ)音播報(bào)、餐廳或醫(yī)院的排號(hào)播報(bào)等場(chǎng)景,且語(yǔ)氣較為刻板僵硬、缺乏情感,與人聲差別較大。2017年,國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,顯現(xiàn)出國(guó)家對(duì)人工智能技術(shù)發(fā)展的重視。人工智能技術(shù)的不斷進(jìn)步,也帶來了AI語(yǔ)音合成技術(shù)的迅猛發(fā)展,在大數(shù)據(jù)算法的精密計(jì)算下,AI語(yǔ)音合成技術(shù)合成的聲音越來越接近人聲。直至今天,以微軟AI配音為代表的AI語(yǔ)音合成技術(shù)已經(jīng)廣泛應(yīng)用于人們的生活中。例如許多短視頻的配音解說,皆由AI語(yǔ)音合成技術(shù)完成。尤其是當(dāng)下最熱門的微軟AI配音中云希的聲音,更是火遍全網(wǎng)。它的聲音不僅音色干凈,而且可以自由調(diào)控語(yǔ)速、音調(diào)、情緒,甚至說話時(shí)具備正常人說話時(shí)的喘氣聲,十分逼真,配音效果幾乎與真人無異。當(dāng)然在情感的把控、聲音細(xì)節(jié)的處理上,AI語(yǔ)音合成技術(shù)尚且不能達(dá)到真人的水準(zhǔn),尤其對(duì)于情感變化比較大、需要夸張藝術(shù)化處理的聲音表達(dá)時(shí),人工智能合成的語(yǔ)音缺陷明顯。
二、智能語(yǔ)音技術(shù)的優(yōu)勢(shì)與不足
(一)配音效率高,制作成本低
傳統(tǒng)配音一直存在很多弊端,比如配音效率低、配音費(fèi)用高、容易口誤出錯(cuò)、錄制聲音環(huán)境要求高等。但是,利用AI語(yǔ)音合成技術(shù),便可以很輕松地解決以上問題。例如使用微軟AI配音,只需要把想要配的文字輸入文本框中,然后還可以自由調(diào)節(jié)想要的音色、語(yǔ)速、音調(diào)、說話風(fēng)格等,之后直接點(diǎn)擊導(dǎo)出即可,配音效率極高。AI語(yǔ)音合成技術(shù)合成的聲音,只要文本設(shè)置沒有問題,便不會(huì)出現(xiàn)錯(cuò)字、漏字、加字等問題。智能語(yǔ)音技術(shù)合成的配音相比于真人配音,價(jià)格成本優(yōu)勢(shì)十分明顯。在2020年,全球首位3D版AI合成主播亮相新華社演播室,不僅能隨時(shí)變換發(fā)型、更改服裝,而且能穿梭于演播室的不同虛擬場(chǎng)景中,和前一代AI合成主播相比,它實(shí)現(xiàn)了從單一景深機(jī)位到多機(jī)位多景深、從微笑播報(bào)到多樣化精微表情播報(bào)等進(jìn)步,播報(bào)形態(tài)可通過不同角度全方位呈現(xiàn),立體感和層次感明顯增強(qiáng)。只需要在機(jī)器上輸入相應(yīng)文本內(nèi)容,AI合成主播就能播報(bào)新聞,并根據(jù)語(yǔ)義生成相對(duì)應(yīng)的面部表情和肢體語(yǔ)言,能夠不知疲倦地工作24小時(shí),只要將文本輸入系統(tǒng),它們就能隨時(shí)工作,并且一直工作下去。
(二)配音種類豐富,滿足各種需求
配音員的年齡、性別、音色等的不同,導(dǎo)致每位配音員能配音的類型相對(duì)比較局限,加上不同場(chǎng)景、人物下,甲方需要各種不同聲線甚至不同語(yǔ)言表達(dá)形式的配音員。因此,一部音頻視頻作品往往需要多人配音共同完成。而對(duì)于智能語(yǔ)音技術(shù)來說,只要語(yǔ)音資料足夠完整豐富,便可通過AI語(yǔ)音合成技術(shù),復(fù)刻出與其音色極其相似的聲音,甚至其表達(dá)時(shí)的重音、停連、節(jié)奏等都十分相似。同時(shí)AI語(yǔ)音合成技術(shù)也可以做到多國(guó)語(yǔ)言配音播報(bào),不僅可以中文朗讀,而且可以錄制英語(yǔ)、法語(yǔ)、日語(yǔ)等語(yǔ)言。[1]以微軟AI配音為例,上面有云希、云楊、曉曉、曉辰等超二十位不同音色的配音員,他們都是經(jīng)過大量聲音數(shù)據(jù)資料訓(xùn)練出的聲音,與真人聲音高度相似,并且可以自由改變其說話風(fēng)格。微軟AI配音可以使用跨140種語(yǔ)言和變體的400種神經(jīng)網(wǎng)絡(luò)語(yǔ)音。極具表現(xiàn)力和類似人類的聲音,神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音支持多種朗讀風(fēng)格,包括新聞廣播、客戶服務(wù)、呼喊、耳語(yǔ)以及高興、悲傷等情感。相比于傳統(tǒng)配音方式,不同年齡、性別、音色的角色,可以由一個(gè)智能語(yǔ)音系統(tǒng)來完成,優(yōu)勢(shì)十分明顯。
(三)難以理解語(yǔ)境,缺乏真情實(shí)感
語(yǔ)境即使用語(yǔ)言的環(huán)境,同一句話,在不同的語(yǔ)境下,所表達(dá)的語(yǔ)氣、情感、停連、重音都是不同的,說話時(shí)不同的停頓重音有時(shí)表達(dá)出的意思也不盡相同,而AI語(yǔ)音合成技術(shù)目前并不能很好的識(shí)別語(yǔ)境。因此,在影視劇配音、廣播劇配音、文藝作品演播等情景中,智能語(yǔ)音技術(shù)與真人配音尚且有較大差距。機(jī)器與人類最大的差別在于情感,人類天生擁有情感,而機(jī)器即使賦予它情感,目前也只能在發(fā)出情感指令的情況下,被動(dòng)地做出情感態(tài)度,機(jī)器并不能自由根據(jù)情景語(yǔ)境表達(dá)出正確且富有感染力的情感色彩。有聲語(yǔ)言表達(dá)也并不是簡(jiǎn)單的見字發(fā)聲,是需要提前做大量備稿工作,利用語(yǔ)言表達(dá)技巧結(jié)合當(dāng)下語(yǔ)境、環(huán)境,并結(jié)合真情實(shí)感,由情感帶動(dòng)聲音的表達(dá),這是目前智能語(yǔ)音技術(shù)所欠缺的。比如由AI配音的紀(jì)錄片《創(chuàng)新中國(guó)》中,在介紹“天眼之父”南仁東去世時(shí),智能語(yǔ)音技術(shù)合成的配音對(duì)于感情的表達(dá)很生硬,難以讓觀眾體會(huì)到緬懷之情,這和李易老師本人所配音的其他紀(jì)錄片作品有很大的差距。[2]當(dāng)下如何讓人工智能配音更富有情感,同時(shí)在不同的語(yǔ)境下用對(duì)情感,是它未來能否走得更遠(yuǎn)的關(guān)鍵。
(四)版權(quán)倫理問題有待解決
人工智能技術(shù)發(fā)展到一定階段,便會(huì)帶來一些倫理問題。智能語(yǔ)音技術(shù)的發(fā)展應(yīng)當(dāng)止步于倫理紅線。在目前的智能語(yǔ)音合成技術(shù)下,只要采集到個(gè)人音頻數(shù)據(jù),便可復(fù)制出相似度較高的聲音。比如科大訊飛公司只需要花5分鐘的時(shí)間對(duì)真人語(yǔ)音進(jìn)行采樣復(fù)刻,便可復(fù)刻出相似度極高的聲音,而用戶復(fù)刻聲音后,便可以在訊飛客戶端中收聽由用戶自己的聲音播報(bào)的新聞、早報(bào)、公眾號(hào)文章等。但在智能語(yǔ)音技術(shù)發(fā)展的同時(shí),便不可避免地帶來一系列問題。比如私自使用他人聲音是否涉及侵權(quán)問題,并且此前便有利用人工智能合成聲音進(jìn)行詐騙勒索的案件發(fā)生,如若此項(xiàng)技術(shù)被不法分子所利用,勢(shì)必會(huì)產(chǎn)生一定的安全隱患。同時(shí)假音頻內(nèi)容可能大量出現(xiàn),如同AI換臉引發(fā)的假視頻、假新聞一樣,AI語(yǔ)音引發(fā)的版權(quán)爭(zhēng)端和倫理問題也為監(jiān)管帶來新的挑戰(zhàn)。
三、對(duì)播音主持未來發(fā)展的建議
(一)提高綜合素養(yǎng),發(fā)揮情感優(yōu)勢(shì)
在人工智能時(shí)代下,播音員主持人必須具備一定的思想水平和政治理論水平,具有較高的政治敏銳性和清晰的思辨能力;同時(shí)要具備扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng),無論人工智能技術(shù)如何發(fā)展,扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng)都是未來發(fā)展的基石。人類與機(jī)器最大的不同在于情感。當(dāng)下,智能語(yǔ)音技術(shù)短期內(nèi)很難擁有識(shí)別情感的能力,無法自行對(duì)文本進(jìn)行情感分析,無法表達(dá)出有感情、有溫度的話語(yǔ)。那么對(duì)于以聲音表達(dá)為主的播音主持工作者來說,表達(dá)出有感情、有溫度、有深度的話語(yǔ)是人類相比于人工智能的優(yōu)勢(shì)所在。播音主持是以人的形象和身份來和受眾進(jìn)行信息的傳遞和交流,而AI主持人沒有思想、沒有靈魂、沒有情感,受眾更希望面對(duì)一個(gè)人來交流,而不是一個(gè)機(jī)器人。近些年來,盡管播音主持要被人工智能取代的說法引發(fā)熱議,但筆者認(rèn)為,只會(huì)見字發(fā)聲的播音主持工作者可能會(huì)被取代,但優(yōu)秀的播音主持工作者無法取代。一名優(yōu)秀的播音主持工作者需要有溫度、深厚的文化素養(yǎng)、強(qiáng)大的共情能力,并且在需要?jiǎng)?chuàng)新和思考的能力上,人工智能和人還是有很大差距的。
(二)形成自身獨(dú)特風(fēng)格,打造個(gè)性化表達(dá)
在互聯(lián)網(wǎng)時(shí)代,隨著人們生活節(jié)奏的加快和思想觀念的轉(zhuǎn)變,人們逐漸厭倦刻板說教式的表達(dá),更傾向于富有個(gè)人特色的、極具個(gè)人魅力的表達(dá)方式。雖然當(dāng)前的人工智能技術(shù)不斷發(fā)展,AI語(yǔ)音合成技術(shù)合成的聲音已經(jīng)與真人配音有很高的相似度,但畢竟是機(jī)器合成的聲音,即使擁有與真人高度相似的音色和語(yǔ)調(diào),但仍缺乏真人獨(dú)有的個(gè)性化聲音特征,無法與真人相媲美。無論是AI語(yǔ)音合成技術(shù)合成的聲音,還是具有外在形象的AI主持人,其本質(zhì)上都是模仿學(xué)習(xí)人類的聲音和動(dòng)作。盡管它可以模仿播音主持工作者的聲音、外形和動(dòng)作,但是它無法形成自身的個(gè)性化表達(dá),更無法形成具有自身特點(diǎn)的播音主持風(fēng)格。在新時(shí)代下,我們培養(yǎng)的不是千篇一律的播音主持工作者,而應(yīng)該是具有自身獨(dú)特風(fēng)格、富有個(gè)人魅力的、優(yōu)秀的播音主持工作者。比如風(fēng)趣幽默的朱廣權(quán)、沉穩(wěn)大氣的任魯豫、親切端莊的海霞等,他們每個(gè)人身上都有自身獨(dú)特的個(gè)人魅力,因此被受眾所喜愛,這是人工智能所永遠(yuǎn)無法取代的。[1]
四、結(jié)語(yǔ)
智能語(yǔ)音技術(shù)的發(fā)展,確實(shí)大大提高了播音主持工作的效率,不僅給播音主持工作者提供了許多工作上的便利,而且滿足了許多普通人對(duì)于配音的要求,使得更多的人可以更加方便、快捷地接觸到高質(zhì)量配音。當(dāng)然在人工智能技術(shù)發(fā)展尚未完全成熟之前,仍有難以理解語(yǔ)境、版權(quán)倫理等許多問題有待解決。在這樣的契機(jī)下,作為播音主持工作者,不應(yīng)一味地抗拒和抵制,應(yīng)該以一種開放包容的心態(tài)去對(duì)待智能語(yǔ)音技術(shù)的發(fā)展,不斷提高自身的各方面能力,發(fā)揮自身獨(dú)特的情感優(yōu)勢(shì),著重提升自身的專業(yè)技能和文化素養(yǎng),才能在人工智能飛速發(fā)展的浪潮下立于不敗之地。
[作者簡(jiǎn)介]韓志浦,男,漢族,河南葉縣人,哈爾濱師范大學(xué)碩士研究生在讀,研究方向?yàn)椴ヒ糁鞒帧?/p>