人工智能主播的技術(shù)發(fā)展溯源與演化路徑探索

2023-12-13 17:07:50畢文佳

記者搖籃 2023年9期

□畢文佳

人工智能主播又被稱為虛擬機(jī)器合成主播，是以電子信息仿真技術(shù)為依托、人工智能技術(shù)為驅(qū)動(dòng)，在基于互聯(lián)網(wǎng)技術(shù)建構(gòu)的諸多全媒體平臺(tái)中充當(dāng)“信息采篩”主持與“信息解碼”播報(bào)角色的智能化媒介產(chǎn)品。人工智能主播在技術(shù)變革發(fā)展的不同時(shí)代進(jìn)行著轉(zhuǎn)型升級(jí)，呈現(xiàn)出不同的功能特征，繪制了分散式的演化路徑，這是智媒傳播AI技術(shù)的未來研究重點(diǎn)與應(yīng)用方向，對(duì)我國智媒傳播的發(fā)展具有重要意義。

一、“人工智能”技術(shù)與“主播”主體的融合特征思考

1.“技術(shù)”“主播”——離身認(rèn)知到具身認(rèn)知的交互融合

現(xiàn)階段的人工智能主播以AI 合成技術(shù)為依托，在實(shí)際應(yīng)用過程中逐漸顯示出離身認(rèn)知與具身認(rèn)知的交互融合特征。例如：用戶在實(shí)際使用過程中賦能基礎(chǔ)特征、功能、代號(hào)及名字，增強(qiáng)了人工智能主播的具身性，從而也推動(dòng)了“主播”主體的人格化進(jìn)程，進(jìn)而“名人主播復(fù)制版”型AI主播泛化，也呈現(xiàn)了離身認(rèn)知與具身認(rèn)知的有效交互。

2.“技術(shù)”“藝術(shù)”——播音與主持藝術(shù)的智能化升級(jí)

人工智能技術(shù)在多種媒介呈現(xiàn)形式上都有留痕，特別是大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、區(qū)塊鏈及5G的植入促成了人工智能“人”具備數(shù)據(jù)采集、整合、處理、分發(fā)的功能，具備了強(qiáng)大的存儲(chǔ)、分析、永動(dòng)等技術(shù)特征。而播音與主持藝術(shù)的專業(yè)性和獨(dú)特性集中體現(xiàn)在“人”的個(gè)性化語言表達(dá)，無論是語言表達(dá)中的“情景再現(xiàn)”“內(nèi)在語”“對(duì)象感”內(nèi)部技巧呈現(xiàn)，還是“停連、重音、語氣、節(jié)奏”的外部技巧要求，都呈現(xiàn)了主持人“二度創(chuàng)作”“個(gè)性化”“人格化”的播音主持特征。

人工智能輔助技術(shù)同播音與主持藝術(shù)的有效融合，可通過兩方面呈現(xiàn)：一方面，主持藝術(shù)的語言表達(dá)呈現(xiàn)可用數(shù)據(jù)化、標(biāo)準(zhǔn)化量值形成程序代碼，對(duì)于“人工智能”技術(shù)的革新與輔助提供可計(jì)算性元素智庫存儲(chǔ)，為“機(jī)械化”過渡“人格化”助力，使AI 主播在形象、音韻、情感等維度進(jìn)行創(chuàng)新性打造，促進(jìn)信息傳播報(bào)道更具情感化色彩；另一方面，智能技術(shù)的集優(yōu)化、擬人化升級(jí)拓寬了人工智能主播的應(yīng)用領(lǐng)域，不僅助力于媒介生產(chǎn)與生活，而且滲透到萬物互聯(lián)的全媒體傳播生態(tài)各個(gè)環(huán)節(jié)中，使“藝術(shù)”賦能“技術(shù)”，推動(dòng)了人工智能主播的進(jìn)一步發(fā)展。

二、人工智能主播的技術(shù)發(fā)展溯源

1.有聲語言的技術(shù)性創(chuàng)造

第一，人工智能語音轉(zhuǎn)化技術(shù)。語音轉(zhuǎn)化技術(shù)一方面是對(duì)現(xiàn)有文字符號(hào)進(jìn)行有聲化轉(zhuǎn)述，此技術(shù)多應(yīng)用于定制化、模板化的新聞生產(chǎn)輸出，如天氣預(yù)報(bào)等，可提升新聞智能化呈現(xiàn)的時(shí)度效。另一方面是對(duì)已有語料庫的人物語音識(shí)別、采集、復(fù)制、重組。聲音不再是一種獨(dú)具特色與個(gè)人色彩的傳播介質(zhì)，而是在技術(shù)的作用下變成了一種可復(fù)制、可生產(chǎn)的傳播介質(zhì)。

2018年《創(chuàng)新中國》紀(jì)錄片的配音工作是我國利用人工智能語音轉(zhuǎn)化技術(shù)的初探，利用采集與重組編輯了已故配音演員李易的聲音，被業(yè)界人士稱為全球首個(gè)利用人工智能語音技術(shù)完成解說與配音的大型國家紀(jì)錄片。其技術(shù)原理為，確定文本內(nèi)容并向設(shè)備中錄入需要模擬的聲音素材，形成文本智庫與聲源智庫，利用智能技術(shù)分析重組。在此過程中，人工智能的自我學(xué)習(xí)深化及對(duì)需要模仿對(duì)象的吐字發(fā)音細(xì)節(jié)掌控，相對(duì)精準(zhǔn)。

就目前技術(shù)發(fā)展來看，人工智能技術(shù)已經(jīng)實(shí)現(xiàn)了對(duì)聲音的批量化生產(chǎn)，這種近似流水線的生產(chǎn)模式不僅能提高相關(guān)節(jié)目的解說與配音效率，節(jié)省大量時(shí)間，還能有效避免發(fā)音不清、讀錯(cuò)字情況的出現(xiàn)，在一定程度上降低了人力資源的消耗。但該技術(shù)目前受到特定文本的制約和限制，并未完全實(shí)現(xiàn)自動(dòng)化與智能化，提取發(fā)音音頻的方式也并不能使其擺脫對(duì)特定文本的依賴，這為未來的技術(shù)革新破題提供了路徑方向。

第二，人工智能語音合成技術(shù)。語音合成技術(shù)指的是情感語音合成與語音篩選回饋技術(shù)，技術(shù)人員的主管程序植入使“機(jī)器人”主播具備智能語音對(duì)話的互動(dòng)，在技術(shù)內(nèi)部實(shí)現(xiàn)了機(jī)器的自動(dòng)化檢索與輸出，實(shí)現(xiàn)了交互融合功能。具體來說，在情感語音合成技術(shù)的推動(dòng)下，人工智能主播能根據(jù)文本內(nèi)容和聲音素材的特點(diǎn)，對(duì)其中所蘊(yùn)含的情感進(jìn)行分析和把握，在充分了解當(dāng)前語境的情況下利用自生產(chǎn)能力與對(duì)話管理能力來實(shí)現(xiàn)與人類的智能語音對(duì)話與自然語言應(yīng)答。語音合成技術(shù)廣泛植入于物聯(lián)網(wǎng)鏈接下的全員媒介、手機(jī)等大眾小屏媒介終端設(shè)備及智能家電、可觸性穿戴設(shè)備。在全媒體傳播生態(tài)建構(gòu)的過程中，“中央廚房”及“智媒體”融合中心的內(nèi)容生產(chǎn)部門，利用高質(zhì)量的人工智能語音合成技術(shù)有效、快速識(shí)別新聞場景，加速新聞生產(chǎn)，豐富新聞內(nèi)容，從而為后續(xù)的人機(jī)協(xié)同與交互奠定了基礎(chǔ)。

第三，人工智能語音交互技術(shù)。語音交互技術(shù)的有效應(yīng)用實(shí)現(xiàn)了人工智能主播在虛擬與物理現(xiàn)實(shí)中的雙重多模態(tài)交互。具體來說，人工智能主播可分為實(shí)體形態(tài)與虛擬形態(tài)兩種，而就目前情況來看，虛擬形態(tài)的人工智能機(jī)器人在動(dòng)態(tài)化交互技術(shù)的作用下，已經(jīng)能對(duì)相應(yīng)人物進(jìn)行掃描與虛擬生成，從而為觀眾展現(xiàn)出較為逼真的虛擬真人形象或具有鮮明個(gè)人色彩的卡通動(dòng)漫形象；而對(duì)于實(shí)體形態(tài)的機(jī)器人來說，其內(nèi)部配備的高清人像掃描設(shè)備能對(duì)相應(yīng)人物的運(yùn)動(dòng)或表情變化進(jìn)行追蹤，并通過追蹤結(jié)果自動(dòng)化生成與之相對(duì)應(yīng)的微表情、肢體動(dòng)作及語言，實(shí)現(xiàn)對(duì)人類動(dòng)作或語言的識(shí)別與準(zhǔn)確回應(yīng)。盡管人工智能主播能在動(dòng)態(tài)化交互技術(shù)的輔助下，將真人轉(zhuǎn)變?yōu)楦鞣N虛擬模型，但技術(shù)人員還應(yīng)在使用該技術(shù)的同時(shí)注重觀眾的觀感體驗(yàn)，盡可能使人工智能主播擺脫目前這種介于真人與虛擬之間的局面，對(duì)其外觀可能造成的傳播影響進(jìn)行分析和研究，從而找尋人工智能主播的發(fā)展出路。

2.“人格化”“個(gè)性化”的技術(shù)模擬與設(shè)計(jì)賦能

人工智能主播的形象產(chǎn)品定位和功效能率產(chǎn)出共同決定了其“人格化”的偏向與特征，通常用戶會(huì)將人工智能主播定位為社會(huì)角色中的先賦角色，即有“對(duì)象化”的模擬賦能形成一種新型角色關(guān)系。這種關(guān)系性角色是人類用戶與人工智能主播或機(jī)器人進(jìn)行協(xié)同合作與交互的基礎(chǔ)和保障。技術(shù)人員和算法工程師能夠利用角色轉(zhuǎn)變技術(shù)為人工智能主播賦能，使其具有高度融洽的運(yùn)行邏輯與運(yùn)行模式，而正是由于這種融洽性，人工智能主播即使配備了各類先進(jìn)技術(shù)，也只能以非自然人的身份與人類用戶進(jìn)行交流與互動(dòng)。若出現(xiàn)了媒體等同，比如在明確其同類機(jī)器人身份的情況中，相關(guān)人員也只能通過相關(guān)技術(shù)手段來對(duì)人工智能主播的社會(huì)臨場感加以調(diào)整，使其站在人類用戶理性角度上盡可能滿足使用者的需求。不僅如此，在人工智能主播的設(shè)計(jì)階段，為了使人工智能主播能更好地在現(xiàn)實(shí)生活中扮演先賦角色，設(shè)計(jì)者和算法工程師以人類社會(huì)為依托，在對(duì)現(xiàn)實(shí)生活群體的活動(dòng)特征與相應(yīng)效能進(jìn)行分析的基礎(chǔ)上，加強(qiáng)了人工智能主播在人臉識(shí)別與建模、動(dòng)作捕捉、情感遷移等方面的功能，從而使其生成的AI 分身模型更具人性化色彩，以至于最大限度上貼近了目標(biāo)人類主播的各方面特征。

盡管數(shù)據(jù)推送在新聞生產(chǎn)的分發(fā)環(huán)節(jié)應(yīng)用日趨嫻熟，但是在當(dāng)下人工智能主播的“私人定制”式多元化內(nèi)容生產(chǎn)及輸出表現(xiàn)較弱。當(dāng)下人工智能主播還未能針對(duì)不同的節(jié)目形態(tài)及需求呈現(xiàn)出多元的能力和個(gè)性化的展示，實(shí)現(xiàn)媒介生產(chǎn)的供需滿足與平衡發(fā)展。目前還沒有一項(xiàng)技術(shù)能真正使其脫離人工干預(yù)，主持人的能力素養(yǎng)也無法通過當(dāng)前的技術(shù)完全賦能于人工智能主播。人工智能技術(shù)的個(gè)性化呈現(xiàn)強(qiáng)調(diào)的是對(duì)不同場景進(jìn)行功能識(shí)別與功能產(chǎn)出。對(duì)于人工智能主播來說，這種功能細(xì)化能進(jìn)一步加強(qiáng)其人格化特征，使其在多維度“仿真”的建構(gòu)進(jìn)程中可以無限近似于人，增強(qiáng)人工智能自身的深度學(xué)習(xí)。用戶可在使用和交互中注意到人工智能主播的個(gè)性化表現(xiàn)，從而增強(qiáng)用戶的人際交往感知。不僅如此，態(tài)度與行為也能對(duì)用戶使用人工智能主播產(chǎn)生一定的影響。比如，用戶對(duì)人工智能的現(xiàn)有態(tài)度、個(gè)性特征等會(huì)對(duì)人工智能的應(yīng)用產(chǎn)生相對(duì)應(yīng)的作用；而人工智能主播在為用戶提供個(gè)性化定制與推薦服務(wù)時(shí)，也會(huì)受到用戶習(xí)慣偏好與行為習(xí)慣的影響。因此技術(shù)人員可通過對(duì)用戶信息進(jìn)行分析來調(diào)整和優(yōu)化人工智能主播的參數(shù)，從而提升用戶的使用滿意度，加快人工智能主播的發(fā)展步伐。

三、人工智能主播的演化路徑探索

1.全息沉浸式傳播，元宇宙深度互聯(lián)

在全媒體傳播生態(tài)的建構(gòu)進(jìn)程中提出了全媒體的定義解讀，即全程、全息、全員、全效。技術(shù)視域下的全息傳播實(shí)踐，是為了打通物理世界與虛擬世界的邊界，利用人工智能技術(shù)、虛擬現(xiàn)實(shí)影像技術(shù)、物聯(lián)網(wǎng)5G 技術(shù)實(shí)現(xiàn)立體化、環(huán)繞式傳播，力圖在元宇宙初探時(shí)建構(gòu)虛擬媒介生態(tài)，真正實(shí)現(xiàn)無障礙的虛實(shí)空間交互傳播。具體來說，現(xiàn)有的人工智能主播還僅存在于二維空間的智能設(shè)備屏幕中，這種具有單向性的視聽范式雖能有效滿足人類用戶的需求，但卻會(huì)在一定程度上削減人工智能主播與人類用戶進(jìn)行多模態(tài)感官交互的效果。而在全息投影技術(shù)的支撐下，AI 主播與真人主播可以呈現(xiàn)共時(shí)空同畫面的方式展示在用戶面前，利用虛擬現(xiàn)實(shí)VR眼鏡等身體感官延伸終端，可以真切地讓受眾感受到“在場”。人工智能主播元宇宙空間的“超媒介”生產(chǎn)應(yīng)用，即人工智能主播能夠在各種場景和環(huán)境中使用，從某種角度來說能夠擺脫空間的限制，在互聯(lián)網(wǎng)、物聯(lián)網(wǎng)與虛擬現(xiàn)實(shí)技術(shù)的多重作用下，實(shí)現(xiàn)了數(shù)據(jù)信息、人類用戶與機(jī)器之間的有效連接。

2.人機(jī)協(xié)同共生，創(chuàng)新優(yōu)勢互補(bǔ)

雖然“主持人”是否會(huì)被人工智能主播所取代的議題仍爭辯不斷，但是主持人利用AI主播提升職業(yè)素養(yǎng)，進(jìn)行高可信度的人際、大眾傳播實(shí)踐卻在有條不紊地進(jìn)行。人工智能技術(shù)的輔助能夠幫助播音主持人、記者采集海量數(shù)據(jù)信息，輔助直播連線與即興采訪報(bào)道；輔助新聞主播進(jìn)行“備稿”重音停連的劃分；輔助綜藝類主持人進(jìn)行受眾的情緒態(tài)度抓取及滿意度微表情反饋等，人機(jī)的協(xié)同共生讓我們真正向往“賽博格”的無邊界化、交融互動(dòng)的創(chuàng)新優(yōu)勢互補(bǔ)。當(dāng)下人工智能主播的發(fā)展困境不僅是技術(shù)壁壘，在數(shù)字信息技術(shù)及編程解碼賦值上，跨界的計(jì)算機(jī)技術(shù)人員難以掌握藝術(shù)的要領(lǐng)與特殊的職業(yè)技巧知識(shí)，更重要的是用戶的接受程度與需求程度。最新研究表明，在新聞生產(chǎn)領(lǐng)域，特殊的類型化新聞內(nèi)容生產(chǎn)，人工智能的新聞生產(chǎn)采編播所收獲的可信度高于職業(yè)媒體人的參與。這表明，當(dāng)下用戶的媒介使用與媒介反饋都產(chǎn)生著較大的變革，這與社會(huì)經(jīng)濟(jì)發(fā)展緊密相關(guān)，也與使用媒介的類別、方式、頻率相關(guān)。而主持人這一依托于傳統(tǒng)媒介誕生的媒介元素，是否會(huì)在新型的媒介生態(tài)建構(gòu)中重新尋找、拓展自身的價(jià)值，挖掘職業(yè)效能取決于是否能夠真正落地“人機(jī)協(xié)同”與“優(yōu)勢互補(bǔ)”。

3.深化媒體融合，建構(gòu)傳播生態(tài)

媒介融合的深化是“人”與“技術(shù)”的融合，而傳播生態(tài)的建構(gòu)是社會(huì)角色的轉(zhuǎn)變與傳受關(guān)系的重構(gòu)。人工智能主播打破了原有傳受關(guān)系，其自身存儲(chǔ)的海量信息數(shù)據(jù)與對(duì)文本的高速識(shí)別重組能力，大大超出人類本身的能力限度。而千人千面的大數(shù)據(jù)私人定制與不間斷的深化學(xué)習(xí)，更能讓“技術(shù)”了解、幫助、滿足“人”的需求，從而使人工智能主播更具人性化、個(gè)性化、觀眾緣。未來人工智能主播會(huì)朝著個(gè)性化與差異化的方向發(fā)展，人工智能主播未來有機(jī)會(huì)成為每位人類用戶的私用物品，相應(yīng)的差異化定制與個(gè)性化社交功能也會(huì)進(jìn)一步得到提升，人類用戶也會(huì)利用人工智能主播來實(shí)現(xiàn)對(duì)自我角色的有效延伸與拓展。

人工智能主播改變著社會(huì)關(guān)系及數(shù)字化時(shí)代中的人際交往關(guān)系，在互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的推動(dòng)下，人類用戶與人工智能主播之間的關(guān)系更具數(shù)字化與虛擬化特征，而當(dāng)這種數(shù)字化程度發(fā)展到一定程度時(shí)，人工智能主播就會(huì)脫離人工的控制與束縛，依賴各類算法對(duì)相應(yīng)的新聞報(bào)道進(jìn)行審核和明確。這種方式具有更高的準(zhǔn)確性與公平性，削弱了新聞媒體報(bào)道中的主觀性，盡可能減少或降低了人類主觀意識(shí)與情感的影響，使得人類用戶與人工智能主播的關(guān)系得到重新構(gòu)建。

四、結(jié)語

當(dāng)下，全媒體傳播生態(tài)正在建構(gòu)，媒體融合的深化過程中，核心技術(shù)是發(fā)展基礎(chǔ)。人工智能技術(shù)參與媒介生態(tài)建構(gòu)的重要呈現(xiàn)就是人工智能主播的生產(chǎn)、演化、發(fā)展、應(yīng)用。我國人工智能主播在現(xiàn)階段的發(fā)展中還存在著一系列問題。因此研究人員與算法工程師必須及時(shí)轉(zhuǎn)變傳統(tǒng)觀念與思維，利用先進(jìn)的技術(shù)手段來對(duì)人工智能主播進(jìn)行優(yōu)化與創(chuàng)新，盡可能增強(qiáng)其個(gè)性化與智能化特征，從而為人類用戶提供更高質(zhì)量的服務(wù)，使其“人”與“技術(shù)”互構(gòu)的張力作用充分發(fā)揮出來，從而增強(qiáng)用戶黏度、用戶信度、用戶效度，推動(dòng)智能媒體傳播的健康發(fā)展。