智能語(yǔ)音技術(shù)下播音主持的探索與思考

2023-10-18 06:31:58韓志浦

文學(xué)藝術(shù)周刊 2023年16期

人工智能是當(dāng)下科技發(fā)展的熱門領(lǐng)域，智能語(yǔ)音技術(shù)在人工智能領(lǐng)域中也占據(jù)著重要地位，隨著人工智能技術(shù)的不斷發(fā)展，智能語(yǔ)音技術(shù)也日趨成熟。微軟公司AI（人工智能）語(yǔ)音合成技術(shù)是目前市面上應(yīng)用很廣泛、十分接近人聲的AI配音，不僅可以自由選擇語(yǔ)速、音調(diào)、音色，甚至可以按照不同的情感朗讀播報(bào)，幾乎與真人配音無異。因此，對(duì)于以聲音為主的播音主持專業(yè)來說，無疑帶來了巨大的機(jī)遇與挑戰(zhàn)。

一、智能語(yǔ)音技術(shù)的發(fā)展現(xiàn)狀

智能語(yǔ)音技術(shù)并不是近幾年才誕生的，其實(shí)它早已出現(xiàn)在我們的生活中，只是起初的人工智能配音大多出現(xiàn)在機(jī)場(chǎng)車站的客運(yùn)信息播報(bào)、駕駛證科目考試語(yǔ)音播報(bào)、餐廳或醫(yī)院的排號(hào)播報(bào)等場(chǎng)景，且語(yǔ)氣較為刻板僵硬、缺乏情感，與人聲差別較大。2017年，國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》，顯現(xiàn)出國(guó)家對(duì)人工智能技術(shù)發(fā)展的重視。人工智能技術(shù)的不斷進(jìn)步，也帶來了AI語(yǔ)音合成技術(shù)的迅猛發(fā)展，在大數(shù)據(jù)算法的精密計(jì)算下，AI語(yǔ)音合成技術(shù)合成的聲音越來越接近人聲。直至今天，以微軟AI配音為代表的AI語(yǔ)音合成技術(shù)已經(jīng)廣泛應(yīng)用于人們的生活中。例如許多短視頻的配音解說，皆由AI語(yǔ)音合成技術(shù)完成。尤其是當(dāng)下最熱門的微軟AI配音中云希的聲音，更是火遍全網(wǎng)。它的聲音不僅音色干凈，而且可以自由調(diào)控語(yǔ)速、音調(diào)、情緒，甚至說話時(shí)具備正常人說話時(shí)的喘氣聲，十分逼真，配音效果幾乎與真人無異。當(dāng)然在情感的把控、聲音細(xì)節(jié)的處理上，AI語(yǔ)音合成技術(shù)尚且不能達(dá)到真人的水準(zhǔn)，尤其對(duì)于情感變化比較大、需要夸張藝術(shù)化處理的聲音表達(dá)時(shí)，人工智能合成的語(yǔ)音缺陷明顯。

二、智能語(yǔ)音技術(shù)的優(yōu)勢(shì)與不足

（一）配音效率高，制作成本低

傳統(tǒng)配音一直存在很多弊端，比如配音效率低、配音費(fèi)用高、容易口誤出錯(cuò)、錄制聲音環(huán)境要求高等。但是，利用AI語(yǔ)音合成技術(shù)，便可以很輕松地解決以上問題。例如使用微軟AI配音，只需要把想要配的文字輸入文本框中，然后還可以自由調(diào)節(jié)想要的音色、語(yǔ)速、音調(diào)、說話風(fēng)格等，之后直接點(diǎn)擊導(dǎo)出即可，配音效率極高。AI語(yǔ)音合成技術(shù)合成的聲音，只要文本設(shè)置沒有問題，便不會(huì)出現(xiàn)錯(cuò)字、漏字、加字等問題。智能語(yǔ)音技術(shù)合成的配音相比于真人配音，價(jià)格成本優(yōu)勢(shì)十分明顯。在2020年，全球首位3D版AI合成主播亮相新華社演播室，不僅能隨時(shí)變換發(fā)型、更改服裝，而且能穿梭于演播室的不同虛擬場(chǎng)景中，和前一代AI合成主播相比，它實(shí)現(xiàn)了從單一景深機(jī)位到多機(jī)位多景深、從微笑播報(bào)到多樣化精微表情播報(bào)等進(jìn)步，播報(bào)形態(tài)可通過不同角度全方位呈現(xiàn)，立體感和層次感明顯增強(qiáng)。只需要在機(jī)器上輸入相應(yīng)文本內(nèi)容，AI合成主播就能播報(bào)新聞，并根據(jù)語(yǔ)義生成相對(duì)應(yīng)的面部表情和肢體語(yǔ)言，能夠不知疲倦地工作24小時(shí)，只要將文本輸入系統(tǒng)，它們就能隨時(shí)工作，并且一直工作下去。

（二）配音種類豐富，滿足各種需求

配音員的年齡、性別、音色等的不同，導(dǎo)致每位配音員能配音的類型相對(duì)比較局限，加上不同場(chǎng)景、人物下，甲方需要各種不同聲線甚至不同語(yǔ)言表達(dá)形式的配音員。因此，一部音頻視頻作品往往需要多人配音共同完成。而對(duì)于智能語(yǔ)音技術(shù)來說，只要語(yǔ)音資料足夠完整豐富，便可通過AI語(yǔ)音合成技術(shù)，復(fù)刻出與其音色極其相似的聲音，甚至其表達(dá)時(shí)的重音、停連、節(jié)奏等都十分相似。同時(shí)AI語(yǔ)音合成技術(shù)也可以做到多國(guó)語(yǔ)言配音播報(bào)，不僅可以中文朗讀，而且可以錄制英語(yǔ)、法語(yǔ)、日語(yǔ)等語(yǔ)言。[1]以微軟AI配音為例，上面有云希、云楊、曉曉、曉辰等超二十位不同音色的配音員，他們都是經(jīng)過大量聲音數(shù)據(jù)資料訓(xùn)練出的聲音，與真人聲音高度相似，并且可以自由改變其說話風(fēng)格。微軟AI配音可以使用跨140種語(yǔ)言和變體的400種神經(jīng)網(wǎng)絡(luò)語(yǔ)音。極具表現(xiàn)力和類似人類的聲音，神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語(yǔ)音支持多種朗讀風(fēng)格，包括新聞廣播、客戶服務(wù)、呼喊、耳語(yǔ)以及高興、悲傷等情感。相比于傳統(tǒng)配音方式，不同年齡、性別、音色的角色，可以由一個(gè)智能語(yǔ)音系統(tǒng)來完成，優(yōu)勢(shì)十分明顯。

（三）難以理解語(yǔ)境，缺乏真情實(shí)感

語(yǔ)境即使用語(yǔ)言的環(huán)境，同一句話，在不同的語(yǔ)境下，所表達(dá)的語(yǔ)氣、情感、停連、重音都是不同的，說話時(shí)不同的停頓重音有時(shí)表達(dá)出的意思也不盡相同，而AI語(yǔ)音合成技術(shù)目前并不能很好的識(shí)別語(yǔ)境。因此，在影視劇配音、廣播劇配音、文藝作品演播等情景中，智能語(yǔ)音技術(shù)與真人配音尚且有較大差距。機(jī)器與人類最大的差別在于情感，人類天生擁有情感，而機(jī)器即使賦予它情感，目前也只能在發(fā)出情感指令的情況下，被動(dòng)地做出情感態(tài)度，機(jī)器并不能自由根據(jù)情景語(yǔ)境表達(dá)出正確且富有感染力的情感色彩。有聲語(yǔ)言表達(dá)也并不是簡(jiǎn)單的見字發(fā)聲，是需要提前做大量備稿工作，利用語(yǔ)言表達(dá)技巧結(jié)合當(dāng)下語(yǔ)境、環(huán)境，并結(jié)合真情實(shí)感，由情感帶動(dòng)聲音的表達(dá)，這是目前智能語(yǔ)音技術(shù)所欠缺的。比如由AI配音的紀(jì)錄片《創(chuàng)新中國(guó)》中，在介紹“天眼之父”南仁東去世時(shí)，智能語(yǔ)音技術(shù)合成的配音對(duì)于感情的表達(dá)很生硬，難以讓觀眾體會(huì)到緬懷之情，這和李易老師本人所配音的其他紀(jì)錄片作品有很大的差距。[2]當(dāng)下如何讓人工智能配音更富有情感，同時(shí)在不同的語(yǔ)境下用對(duì)情感，是它未來能否走得更遠(yuǎn)的關(guān)鍵。

（四）版權(quán)倫理問題有待解決

人工智能技術(shù)發(fā)展到一定階段，便會(huì)帶來一些倫理問題。智能語(yǔ)音技術(shù)的發(fā)展應(yīng)當(dāng)止步于倫理紅線。在目前的智能語(yǔ)音合成技術(shù)下，只要采集到個(gè)人音頻數(shù)據(jù)，便可復(fù)制出相似度較高的聲音。比如科大訊飛公司只需要花5分鐘的時(shí)間對(duì)真人語(yǔ)音進(jìn)行采樣復(fù)刻，便可復(fù)刻出相似度極高的聲音，而用戶復(fù)刻聲音后，便可以在訊飛客戶端中收聽由用戶自己的聲音播報(bào)的新聞、早報(bào)、公眾號(hào)文章等。但在智能語(yǔ)音技術(shù)發(fā)展的同時(shí)，便不可避免地帶來一系列問題。比如私自使用他人聲音是否涉及侵權(quán)問題，并且此前便有利用人工智能合成聲音進(jìn)行詐騙勒索的案件發(fā)生，如若此項(xiàng)技術(shù)被不法分子所利用，勢(shì)必會(huì)產(chǎn)生一定的安全隱患。同時(shí)假音頻內(nèi)容可能大量出現(xiàn)，如同AI換臉引發(fā)的假視頻、假新聞一樣，AI語(yǔ)音引發(fā)的版權(quán)爭(zhēng)端和倫理問題也為監(jiān)管帶來新的挑戰(zhàn)。

三、對(duì)播音主持未來發(fā)展的建議

（一）提高綜合素養(yǎng)，發(fā)揮情感優(yōu)勢(shì)

在人工智能時(shí)代下，播音員主持人必須具備一定的思想水平和政治理論水平，具有較高的政治敏銳性和清晰的思辨能力；同時(shí)要具備扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng)，無論人工智能技術(shù)如何發(fā)展，扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng)都是未來發(fā)展的基石。人類與機(jī)器最大的不同在于情感。當(dāng)下，智能語(yǔ)音技術(shù)短期內(nèi)很難擁有識(shí)別情感的能力，無法自行對(duì)文本進(jìn)行情感分析，無法表達(dá)出有感情、有溫度的話語(yǔ)。那么對(duì)于以聲音表達(dá)為主的播音主持工作者來說，表達(dá)出有感情、有溫度、有深度的話語(yǔ)是人類相比于人工智能的優(yōu)勢(shì)所在。播音主持是以人的形象和身份來和受眾進(jìn)行信息的傳遞和交流，而AI主持人沒有思想、沒有靈魂、沒有情感，受眾更希望面對(duì)一個(gè)人來交流，而不是一個(gè)機(jī)器人。近些年來，盡管播音主持要被人工智能取代的說法引發(fā)熱議，但筆者認(rèn)為，只會(huì)見字發(fā)聲的播音主持工作者可能會(huì)被取代，但優(yōu)秀的播音主持工作者無法取代。一名優(yōu)秀的播音主持工作者需要有溫度、深厚的文化素養(yǎng)、強(qiáng)大的共情能力，并且在需要?jiǎng)?chuàng)新和思考的能力上，人工智能和人還是有很大差距的。

（二）形成自身獨(dú)特風(fēng)格，打造個(gè)性化表達(dá)

在互聯(lián)網(wǎng)時(shí)代，隨著人們生活節(jié)奏的加快和思想觀念的轉(zhuǎn)變，人們逐漸厭倦刻板說教式的表達(dá)，更傾向于富有個(gè)人特色的、極具個(gè)人魅力的表達(dá)方式。雖然當(dāng)前的人工智能技術(shù)不斷發(fā)展，AI語(yǔ)音合成技術(shù)合成的聲音已經(jīng)與真人配音有很高的相似度，但畢竟是機(jī)器合成的聲音，即使擁有與真人高度相似的音色和語(yǔ)調(diào)，但仍缺乏真人獨(dú)有的個(gè)性化聲音特征，無法與真人相媲美。無論是AI語(yǔ)音合成技術(shù)合成的聲音，還是具有外在形象的AI主持人，其本質(zhì)上都是模仿學(xué)習(xí)人類的聲音和動(dòng)作。盡管它可以模仿播音主持工作者的聲音、外形和動(dòng)作，但是它無法形成自身的個(gè)性化表達(dá)，更無法形成具有自身特點(diǎn)的播音主持風(fēng)格。在新時(shí)代下，我們培養(yǎng)的不是千篇一律的播音主持工作者，而應(yīng)該是具有自身獨(dú)特風(fēng)格、富有個(gè)人魅力的、優(yōu)秀的播音主持工作者。比如風(fēng)趣幽默的朱廣權(quán)、沉穩(wěn)大氣的任魯豫、親切端莊的海霞等，他們每個(gè)人身上都有自身獨(dú)特的個(gè)人魅力，因此被受眾所喜愛，這是人工智能所永遠(yuǎn)無法取代的。[1]

四、結(jié)語(yǔ)

智能語(yǔ)音技術(shù)的發(fā)展，確實(shí)大大提高了播音主持工作的效率，不僅給播音主持工作者提供了許多工作上的便利，而且滿足了許多普通人對(duì)于配音的要求，使得更多的人可以更加方便、快捷地接觸到高質(zhì)量配音。當(dāng)然在人工智能技術(shù)發(fā)展尚未完全成熟之前，仍有難以理解語(yǔ)境、版權(quán)倫理等許多問題有待解決。在這樣的契機(jī)下，作為播音主持工作者，不應(yīng)一味地抗拒和抵制，應(yīng)該以一種開放包容的心態(tài)去對(duì)待智能語(yǔ)音技術(shù)的發(fā)展，不斷提高自身的各方面能力，發(fā)揮自身獨(dú)特的情感優(yōu)勢(shì)，著重提升自身的專業(yè)技能和文化素養(yǎng)，才能在人工智能飛速發(fā)展的浪潮下立于不敗之地。

[作者簡(jiǎn)介]韓志浦，男，漢族，河南葉縣人，哈爾濱師范大學(xué)碩士研究生在讀，研究方向?yàn)椴ヒ糁鞒帧?/p>