摘要:目的:文章全面系統(tǒng)地研究智能語(yǔ)音技術(shù)在新聞播報(bào)、廣播主持和電影配音等典型播音場(chǎng)景中的技術(shù)實(shí)現(xiàn)路徑,評(píng)估其對(duì)傳統(tǒng)播音模式產(chǎn)生的革新效應(yīng),并基于技術(shù)演進(jìn)規(guī)律,預(yù)判智能語(yǔ)音技術(shù)在推動(dòng)未來(lái)播音模式變革中的潛力和前景。方法:主要采用文獻(xiàn)分析法,梳理近五年來(lái)智能語(yǔ)音技術(shù)在新聞自動(dòng)播報(bào)、虛擬主持人生成、智能電影配音等場(chǎng)景中的應(yīng)用案例,細(xì)致考察語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換等智能語(yǔ)音技術(shù)模塊的算法架構(gòu)、實(shí)現(xiàn)原理、應(yīng)用效果等,全面了解技術(shù)實(shí)現(xiàn)流程。同時(shí),調(diào)查主流商業(yè)化智能播音系統(tǒng)和產(chǎn)品,評(píng)估技術(shù)應(yīng)用的實(shí)際成效。結(jié)果:研究發(fā)現(xiàn),集成深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音分析生成技術(shù)可以端到端地自動(dòng)完成播音文本建設(shè)、語(yǔ)音處理、效果控制等任務(wù),已在多個(gè)企業(yè)的自動(dòng)新聞播報(bào)、虛擬主持人生成、智能電影配音等場(chǎng)景中落地。這些智能語(yǔ)音驅(qū)動(dòng)的播音應(yīng)用在商業(yè)系統(tǒng)中展現(xiàn)出較高的自動(dòng)化生成效率和高質(zhì)量輸出能力,達(dá)到或超越人工播音的水平。結(jié)論:在微觀上,智能語(yǔ)音技術(shù)正重構(gòu)和革新新聞編播、節(jié)目主持、影視配音等傳統(tǒng)播音模式,并驅(qū)動(dòng)這一領(lǐng)域朝著智能化和內(nèi)容個(gè)性化演化;在宏觀上,智能語(yǔ)音播音技術(shù)保證了自身應(yīng)用空間和潛力的持續(xù)擴(kuò)大,將推動(dòng)互聯(lián)網(wǎng)時(shí)代新型智能化、專(zhuān)業(yè)化和泛在化的播音產(chǎn)業(yè)加速形成。
關(guān)鍵詞:智能語(yǔ)音技術(shù);播音;應(yīng)用;前景
中圖分類(lèi)號(hào):G222.2;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-9436(2024)09-0-03
0 引言
近年來(lái),語(yǔ)音識(shí)別和語(yǔ)音合成等智能語(yǔ)音核心技術(shù)取得重大突破,其轉(zhuǎn)化能力、生成質(zhì)量和執(zhí)行效率大幅提升。智能語(yǔ)音技術(shù)得以在新聞播報(bào)、廣播主持和電影配音等傳統(tǒng)播音領(lǐng)域中廣泛運(yùn)用,以實(shí)現(xiàn)更高水平的自動(dòng)化和智能化。這些技術(shù)通過(guò)自動(dòng)化分析語(yǔ)音內(nèi)容、生成語(yǔ)音輸出,實(shí)現(xiàn)對(duì)各類(lèi)播音模式的重構(gòu)和升級(jí)。隨著支持智能播音的核心語(yǔ)音算法和技術(shù)的持續(xù)發(fā)展,智能語(yǔ)音技術(shù)在推動(dòng)播音模式實(shí)現(xiàn)更高水平的智能化、個(gè)性化和人機(jī)交互方面,還蘊(yùn)藏著巨大的潛力。
1 智能語(yǔ)音技術(shù)概述
智能語(yǔ)音技術(shù)是人工智能與語(yǔ)音技術(shù)的融合,主要包括語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)。語(yǔ)音識(shí)別技術(shù)是通過(guò)計(jì)算機(jī)將語(yǔ)音信號(hào)轉(zhuǎn)化為相應(yīng)文字或指令的技術(shù);語(yǔ)音合成技術(shù)則是通過(guò)計(jì)算機(jī)將文字信號(hào)轉(zhuǎn)化成人類(lèi)可聽(tīng)懂的語(yǔ)音信號(hào)。
1.1 語(yǔ)音識(shí)別技術(shù)概述及發(fā)展現(xiàn)狀
語(yǔ)音識(shí)別技術(shù)的主要方法有聲學(xué)匹配法、模式識(shí)別法和語(yǔ)音理解法。其中,基于深度學(xué)習(xí)的端到端語(yǔ)音識(shí)別模型近年來(lái)發(fā)展最為迅速。這類(lèi)模型可以直接輸入語(yǔ)音進(jìn)行識(shí)別,無(wú)須明確的音素提取、音節(jié)切分等中間處理環(huán)節(jié)[1]。典型的端到端模型包括連接主義長(zhǎng)短時(shí)記憶序列轉(zhuǎn)錄網(wǎng)絡(luò)(CLDNN)、注意力編碼器解碼器(AED)模型等。語(yǔ)音合成技術(shù)主要包括連接主義語(yǔ)音合成和統(tǒng)計(jì)參數(shù)語(yǔ)音合成。連接主義方法根據(jù)人工設(shè)計(jì)的語(yǔ)音生成規(guī)則直接進(jìn)行語(yǔ)音合成;統(tǒng)計(jì)參數(shù)語(yǔ)音合成則是通過(guò)機(jī)器學(xué)習(xí)方法從大量真實(shí)語(yǔ)音中學(xué)習(xí)語(yǔ)音的參數(shù)統(tǒng)計(jì)模型,根據(jù)這些模型合成語(yǔ)音信號(hào)。
1.2 語(yǔ)音轉(zhuǎn)換技術(shù)概述及應(yīng)用
智能語(yǔ)音技術(shù)中還包含語(yǔ)音轉(zhuǎn)換技術(shù)。語(yǔ)音轉(zhuǎn)換技術(shù)可以在不改變語(yǔ)音含義的前提下,轉(zhuǎn)換語(yǔ)音的語(yǔ)調(diào)、語(yǔ)速、音高、音色等語(yǔ)音特征。這是通過(guò)語(yǔ)音編碼、參數(shù)提取和語(yǔ)音解碼完成的[2]。這種轉(zhuǎn)換功能在播音領(lǐng)域得到廣泛應(yīng)用。一些新聞播報(bào)系統(tǒng)提供多種可切換的播音語(yǔ)氣;智能配音系統(tǒng)也可以通過(guò)語(yǔ)音轉(zhuǎn)換技術(shù),快速調(diào)整電影人物的語(yǔ)音效果,無(wú)須重新配音。
語(yǔ)音轉(zhuǎn)換技術(shù)通過(guò)分離語(yǔ)音中的內(nèi)容信息和風(fēng)格信息,實(shí)現(xiàn)語(yǔ)音內(nèi)容與語(yǔ)音表現(xiàn)的分離與重組,這也是語(yǔ)音識(shí)別、語(yǔ)音合成和語(yǔ)音轉(zhuǎn)換技術(shù)有機(jī)結(jié)合的體現(xiàn)。隨著相關(guān)技術(shù)不斷成熟,語(yǔ)音轉(zhuǎn)換技術(shù)將在豐富播音內(nèi)容生產(chǎn)方面發(fā)揮更大作用。
未來(lái)隨著算法和算力的持續(xù)進(jìn)步,智能語(yǔ)音技術(shù)將獲得更廣闊的應(yīng)用前景。
2 智能語(yǔ)音技術(shù)在播音領(lǐng)域中的應(yīng)用
2.1 新聞播報(bào)
新聞播報(bào)是播音領(lǐng)域的重要組成部分。傳統(tǒng)的新聞播報(bào)需要記者編寫(xiě)新聞稿,然后由播音員朗讀和錄音。而智能語(yǔ)音技術(shù)的應(yīng)用實(shí)現(xiàn)了新聞播報(bào)的自動(dòng)化生成。具體來(lái)說(shuō),新聞智能播報(bào)系統(tǒng)首先需要自動(dòng)文本生成模塊,可以實(shí)時(shí)從網(wǎng)絡(luò)新聞、社交媒體等抓取相關(guān)數(shù)據(jù),利用自然語(yǔ)言生成算法自動(dòng)生成適合播報(bào)的新聞文本[3]。系統(tǒng)中還需要集成語(yǔ)音合成模塊,其包含新聞播報(bào)所需要的專(zhuān)業(yè)播音語(yǔ)音數(shù)據(jù)庫(kù),可以對(duì)自動(dòng)生成的文本進(jìn)行情感豐富的播報(bào)語(yǔ)音的合成。
當(dāng)前,智能語(yǔ)音新聞播報(bào)技術(shù)已經(jīng)得到商業(yè)化應(yīng)用,如字節(jié)跳動(dòng)的智能語(yǔ)音播報(bào)器、螞蟻科技的智能新聞播音機(jī)器人等。隨著支持新聞播報(bào)的語(yǔ)音合成和文本生成算法不斷優(yōu)化,可以預(yù)見(jiàn),智能化新聞播報(bào)將進(jìn)一步發(fā)展,為用戶提供更加高質(zhì)量和個(gè)性化的新聞播報(bào)服務(wù)。
2.2 廣播節(jié)目主持
虛擬主持人系統(tǒng)的語(yǔ)音合成技術(shù)核心在于建立個(gè)性化的語(yǔ)音模型。具體做法是,首先收集專(zhuān)業(yè)播音主持人的語(yǔ)音錄音樣本,樣本中包含豐富的語(yǔ)調(diào)語(yǔ)氣特征[4]。然后,利用深度神經(jīng)網(wǎng)絡(luò)中的語(yǔ)音克隆技術(shù),將主持人的語(yǔ)音特征提取編碼,建立特征參數(shù)矩陣,并在此基礎(chǔ)上結(jié)合文本情感分析算法,識(shí)別輸入文本所包含的情感成分。最后綜合語(yǔ)音特征矩陣和文本情感參數(shù),使用聲碼器合成涵蓋主持人風(fēng)格的語(yǔ)音。
合成語(yǔ)音在語(yǔ)言風(fēng)格和表達(dá)方式上能夠高度仿真真人播音。目前,這種個(gè)性化虛擬主持人技術(shù)已經(jīng)服務(wù)于多家音樂(lè)電臺(tái),承擔(dān)部分音樂(lè)節(jié)目和曲目解說(shuō)的主持工作。與預(yù)設(shè)音庫(kù)的語(yǔ)音合成相比,其語(yǔ)音更豐富、更有感染力,節(jié)目效果顯著增強(qiáng)。未來(lái),該項(xiàng)技術(shù)將推動(dòng)更多類(lèi)型的虛擬主持人問(wèn)世,實(shí)現(xiàn)人機(jī)混搭播音,全面推進(jìn)廣播節(jié)目的智能化升級(jí)。
2.3 語(yǔ)音配音
智能語(yǔ)音配音系統(tǒng)通過(guò)建立神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成模型,可以學(xué)習(xí)和模擬專(zhuān)業(yè)人類(lèi)配音演員的語(yǔ)音特征,包括音調(diào)、音色、語(yǔ)速、語(yǔ)氣等。在接收影視作品的視頻圖像幀后,系統(tǒng)利用計(jì)算機(jī)視覺(jué)算法捕捉和分析畫(huà)面中人物的唇形動(dòng)作變化、面部微表情等視覺(jué)信息,然后綜合語(yǔ)音模型與視頻圖像內(nèi)容,動(dòng)態(tài)生成與人物唇形動(dòng)作同步、情感表達(dá)貼合自然的配音音頻序列。
相比傳統(tǒng)配音流程,智能語(yǔ)音配音實(shí)現(xiàn)了過(guò)程的全自動(dòng)化,無(wú)須開(kāi)展人工詞條切分、時(shí)間軸預(yù)標(biāo)注等煩瑣工作[5]。此外,系統(tǒng)合成的配音可精確匹配人物的語(yǔ)言內(nèi)容、語(yǔ)氣語(yǔ)調(diào)乃至最細(xì)微的表情變化,最終獲得更加逼真流暢的配音效果。隨著相關(guān)核心技術(shù)持續(xù)升級(jí),智能語(yǔ)音配音有望被應(yīng)用到更多類(lèi)型的影視制作中,真正實(shí)現(xiàn)配音過(guò)程自動(dòng)化,極大地提升制作效率。
3 智能語(yǔ)音技術(shù)對(duì)播音領(lǐng)域的影響
3.1 提高播音質(zhì)量
智能語(yǔ)音技術(shù)可以實(shí)現(xiàn)更加逼真、豐富的語(yǔ)音合成效果。通過(guò)深度學(xué)習(xí)算法,智能語(yǔ)音系統(tǒng)可以分析大量人類(lèi)語(yǔ)音數(shù)據(jù),建立包含聲音特質(zhì)的數(shù)字化語(yǔ)音模型。這些模型可以高度還原人聲的音質(zhì)音色,并動(dòng)態(tài)調(diào)整音高語(yǔ)調(diào),合成富有情感表現(xiàn)力的語(yǔ)音輸出,極大地增強(qiáng)播音的感染力。
智能語(yǔ)音技術(shù)具有更強(qiáng)的內(nèi)容創(chuàng)作能力。通過(guò)自然語(yǔ)言生成和語(yǔ)義分析技術(shù),智能播音系統(tǒng)可以自動(dòng)組織結(jié)構(gòu)合理的播音語(yǔ)言內(nèi)容。同時(shí)還可以根據(jù)場(chǎng)景需要,輸出不同語(yǔ)域風(fēng)格的語(yǔ)音,進(jìn)一步豐富播音內(nèi)容的表達(dá)手段。
智能語(yǔ)音技術(shù)實(shí)現(xiàn)了內(nèi)容與表現(xiàn)的深度融合。語(yǔ)音內(nèi)容生成和語(yǔ)音合成技術(shù)的有機(jī)結(jié)合,使最終播音的語(yǔ)調(diào)語(yǔ)氣等可根據(jù)文本內(nèi)容實(shí)時(shí)調(diào)整,實(shí)現(xiàn)更加精確、通透的內(nèi)容傳達(dá),顯著提升播音質(zhì)量和體驗(yàn)。
3.2 提升播音效率
智能語(yǔ)音技術(shù)的應(yīng)用推動(dòng)了播音生產(chǎn)全流程的智能化升級(jí)和優(yōu)化,極大地提升播音效率。在內(nèi)容生成層面,智能文本構(gòu)建算法通過(guò)深度學(xué)習(xí)分析海量數(shù)據(jù),實(shí)時(shí)生成格式規(guī)范、條理清晰的播音文本,降低了對(duì)效率低下的人工編纂的依賴度。在語(yǔ)音轉(zhuǎn)換層面,智能語(yǔ)音合成系統(tǒng)集成大規(guī)模人聲數(shù)據(jù)庫(kù)和先進(jìn)的聲學(xué)模型算法,直接輸入文本即可在幾秒內(nèi)輸出標(biāo)準(zhǔn)播音式的語(yǔ)音朗讀版本,無(wú)須播音員逐字錄音。此外,該系統(tǒng)還可以根據(jù)文本語(yǔ)義,自動(dòng)添加豐富的語(yǔ)調(diào)語(yǔ)氣元素,實(shí)現(xiàn)精確的語(yǔ)義傳達(dá)。在服務(wù)體驗(yàn)層面,系統(tǒng)通過(guò)分析歷史數(shù)據(jù),構(gòu)建用戶口味模型,實(shí)現(xiàn)個(gè)性化推薦,以滿足不同用戶的偏好需求。
3.3 用戶個(gè)性化推薦
分析用戶的歷史數(shù)據(jù),包括其點(diǎn)播收聽(tīng)的新聞?lì)悇e、偏好的音頻內(nèi)容風(fēng)格、常設(shè)的語(yǔ)音播放速度等,從而建立用戶的個(gè)性化興趣模型。當(dāng)用戶再次使用該播音系統(tǒng)時(shí),后臺(tái)可以匹配用戶模型與所有候選內(nèi)容,按相似度排序,為用戶推薦可能感興趣的新聞或音頻信息。同時(shí),在語(yǔ)音合成輸出層面,也可以根據(jù)用戶的語(yǔ)速語(yǔ)調(diào)參數(shù)設(shè)定,制作個(gè)性化的播音語(yǔ)音版本。
這種針對(duì)個(gè)體差異的精準(zhǔn)推薦和個(gè)性化表達(dá),極大地提升了播音內(nèi)容的契合度,大幅提升用戶的滿意度。這也使商業(yè)化的智能播音平臺(tái)可以持續(xù)吸引用戶群體,提高內(nèi)容消費(fèi)流量??傮w上,用戶個(gè)性化推薦是智能技術(shù)賦能下的播音系統(tǒng)實(shí)現(xiàn)差異化演進(jìn)、滿足群體碎片化需求的重要體現(xiàn)。
4 智能語(yǔ)音技術(shù)在播音領(lǐng)域的發(fā)展前景
4.1 智能新聞播報(bào)繼續(xù)發(fā)展
智能新聞播報(bào)已經(jīng)成為新聞生產(chǎn)的重要組成部分,未來(lái)其將持續(xù)升級(jí),更加自動(dòng)化和智能化,具體應(yīng)用潛力體現(xiàn)在以下幾方面。
第一,文本生成能力不斷增強(qiáng)。系統(tǒng)通過(guò)深入分析海量、多樣化的文本、音頻數(shù)據(jù),訓(xùn)練出更強(qiáng)大的語(yǔ)言模型,可以高質(zhì)量生成豐富多樣的新聞文本,涵蓋更多題材、更寬領(lǐng)域,同時(shí)滿足用戶對(duì)新聞?lì)}材、表達(dá)方式的差異化偏好需求。
第二,語(yǔ)音合成質(zhì)量持續(xù)提升。隨著更高效的神經(jīng)聲碼器和更龐大的人聲數(shù)據(jù)庫(kù)建設(shè),新聞播報(bào)的語(yǔ)音表現(xiàn)力將不斷增強(qiáng),可以合成更豐富真實(shí)的人音,精確傳遞細(xì)微語(yǔ)氣和情感。不同播音風(fēng)格也可快速切換,為個(gè)性化新聞提供高質(zhì)量語(yǔ)音支持。統(tǒng)計(jì)參數(shù)語(yǔ)音合成可以更好地模擬人聲的細(xì)微變化與情感表達(dá),生成更加豐富、逼真的語(yǔ)音效果,其是當(dāng)前發(fā)展較快的主流語(yǔ)音合成方法。
第三,進(jìn)行實(shí)時(shí)交互式新聞播報(bào)。未來(lái)新聞播報(bào)系統(tǒng)不僅可以主動(dòng)推送新聞,還將啟用交互功能,根據(jù)用戶實(shí)時(shí)提問(wèn)或指令,通過(guò)自然語(yǔ)言理解和生成技術(shù),進(jìn)行準(zhǔn)確回答或繼續(xù)播報(bào),從而大幅提升用戶體驗(yàn)。
4.2 虛擬主持人應(yīng)用場(chǎng)景擴(kuò)大
隨著語(yǔ)音合成技術(shù)的飛速進(jìn)步,智能虛擬主持人生成的語(yǔ)音將更加豐富逼真,這必將推動(dòng)其跨越更多應(yīng)用場(chǎng)景和領(lǐng)域。
虛擬主持人有望承擔(dān)起實(shí)時(shí)個(gè)性化的新聞解說(shuō)任務(wù)[6]。系統(tǒng)可根據(jù)用戶指定的新聞話題、播報(bào)語(yǔ)速、語(yǔ)調(diào)等參數(shù)實(shí)時(shí)調(diào)整,輸出符合個(gè)性化要求的語(yǔ)音新聞。這超越了固定模式的新聞播報(bào),實(shí)現(xiàn)差異化需求的精準(zhǔn)滿足。
依托更大規(guī)模的語(yǔ)音樣本數(shù)據(jù)集和持續(xù)升級(jí)的聲學(xué)建模算法,虛擬主持人生成的語(yǔ)音效果的穩(wěn)定性將大幅提升。這有利于其承接音樂(lè)電臺(tái)等廣播頻道中時(shí)長(zhǎng)較長(zhǎng)的節(jié)目主持工作,全時(shí)段地替代真人主持播音。
綜上所述,智能語(yǔ)音技術(shù)的推動(dòng)力與海量數(shù)據(jù)的縱深培育,將助力虛擬主持人實(shí)現(xiàn)跨場(chǎng)景、大規(guī)模的商業(yè)化應(yīng)用。有理由期待虛擬主持人快速成長(zhǎng)為超越真人主持的新型內(nèi)容生產(chǎn)主力。
4.3 語(yǔ)音配音逼真度提高
智能語(yǔ)音配音技術(shù)快速發(fā)展,其生成的語(yǔ)音效果愈發(fā)逼真。支撐這一進(jìn)程的,是多項(xiàng)核心技術(shù)的深化提升。
通過(guò)引入卷積神經(jīng)網(wǎng)絡(luò)等前沿模型架構(gòu),構(gòu)建生成能力更強(qiáng)的聲碼器,配合海量多樣人聲數(shù)據(jù)的訓(xùn)練,可以合成非常豐富和細(xì)微的人聲效果,配音質(zhì)量大幅提升。此外,在視頻圖像處理方面,計(jì)算機(jī)視覺(jué)算法的識(shí)別精度也在快速提高,這使系統(tǒng)可以捕捉和學(xué)習(xí)到人物更微小的面部表情變化和唇形特征點(diǎn),以精確驅(qū)動(dòng)語(yǔ)音表現(xiàn)力。
綜合處理視頻圖像和語(yǔ)音模型的核心跨模態(tài)算法持續(xù)優(yōu)化,將顯著增強(qiáng)最終語(yǔ)音輸出與人物面部表情之間的協(xié)調(diào)性。相信在不遠(yuǎn)的將來(lái),智能語(yǔ)音配音必將做到對(duì)人類(lèi)配音效果的完美模擬,并在更多領(lǐng)域?qū)崿F(xiàn)應(yīng)用。
5 結(jié)語(yǔ)
智能語(yǔ)音技術(shù)已經(jīng)深刻改變和重構(gòu)新聞播報(bào)、廣播主持、電影配音等傳統(tǒng)播音領(lǐng)域。從新聞自動(dòng)播報(bào)、虛擬主持人應(yīng)用到智能電影配音,智能語(yǔ)音技術(shù)實(shí)現(xiàn)對(duì)播音工作的自動(dòng)化、效率化、智能化、個(gè)性化升級(jí)。未來(lái)隨著語(yǔ)音識(shí)別、語(yǔ)音合成等核心技術(shù)的進(jìn)一步發(fā)展,以及算法和算力的持續(xù)提升,智能語(yǔ)音技術(shù)在繼續(xù)推動(dòng)播音模式變革的同時(shí),也將迎來(lái)更加廣闊的應(yīng)用前景。有理由期待,智能語(yǔ)音技術(shù)與播音領(lǐng)域的深度融合,必將推動(dòng)更多革命性的產(chǎn)業(yè)變革。
參考文獻(xiàn):
[1] 張博遠(yuǎn).淺議新媒體環(huán)境下人工智能技術(shù)對(duì)播音主持行業(yè)的影響:以AI主播為例[J].明日風(fēng)尚,2023(9):73-75.
[2] 韓志浦.智能語(yǔ)音技術(shù)下播音主持的探索與思考:以微軟AI配音為例[J].文學(xué)藝術(shù)周刊,2023(16):80-82.
[3] 余明桄.人工智能語(yǔ)音時(shí)代播音員主持人面臨的挑戰(zhàn)與發(fā)展路徑探索[J].中國(guó)傳媒科技,2022(1):80-82.
[4] 張彧睿.智能語(yǔ)音技術(shù)在播音主持領(lǐng)域中的應(yīng)用研究[J].信息記錄材料,2020,21(3):88-89.
[5] 翁佳.智能語(yǔ)音技術(shù)對(duì)播音主持專(zhuān)業(yè)與行業(yè)影響探究[J].電視研究,2017(12):57-59.
[6] 張佩佩.智能技術(shù)為新聞播音帶來(lái)的影響[J].記者搖籃,2023(3):147-149.
作者簡(jiǎn)介:范晴 (2000—),女,研究方向:播音與主持藝術(shù)。