動力、情境與認知：對AI主播“具身性”的反思

2024-10-20 00:00:00鄔建中楊帆黎慧斕

傳播與版權 2024年19期

［摘要］作為人工智能（Artificial Intelligence，AI）技術在傳媒產業的創新應用，AI主播通過各種技術手段模擬真人主播來營造身體在場的“真實”感覺。文章對AI主播的發展歷程進行梳理，并聚焦于動力系統、情境認知與認知發展這三個與“具身性”緊密相關的維度，探討AI主播的主體性表征。隨著技術的持續賦能，如何促使AI主播的具身形態進化為一種高度沉浸、強交互性的智能新媒介形態，成為值得探索的重要課題。

［關鍵詞］人工智能時代；AI主播；具身

2022年至今，ChatGPT、Sora等生成式人工智能快速迭代。復旦大學鄧建國認為，人工智能的發展目前呈現兩條日益清晰的路線，即“延展的心靈”（離身溝通型AI）和“心靈的延展”（具身溝通型AI）［1］。作為具身溝通型AI在傳媒產業的創新應用，AI主播是基于先進的人工智能技術，通過語音合成和人臉合成等技術，結合多模態信息聯合建模訓練，最終形成的一種人工智能分身模型。AI主播通過各種技術手段模擬真實人類來營造身體在場的“真實”感覺，雖然AI主播的身體與現實世界的人類有所區別，但是其技術具身化本質之下擁有梅洛-龐蒂所說的主體性，這也體現了AI主播的多元融合特征。

一、AI主播的發展歷程

（一）誕生與早期探索階段

2001年，英國推出世界上第一個虛擬主持人“阿娜諾娃”，早期虛擬主播的特點為表情呆滯、表達機械、動作遲緩，只能夠完成最基本的語音播報。隨著深度學習技術與語音合成技術的不斷發展，AI主播開始具有擬人化的特征。2018年11月7日，全球首個智能AI主持人“新小浩”在第五屆世界互聯網大會上亮相。其可以根據實際需要選擇漢語或英語播報，實現了“聲音的文本轉化”［2］。2019年，濟南廣播電視臺與相芯科技聯合打造的虛擬主持人“小沫兒”首次亮相。這一階段的AI主播雖在形態仿真與語音合成技術的探索上已取得初步成就，但在智能化服務以及用戶互動方面，仍具有一定的局限性。

（二）互動與智能化提升階段

在本階段，人工智能技術的勃興再一次推動了AI主播的發展，為傳統媒體和新媒體的融合發展提供了新路徑，更智能化的AI主播成為各大媒體的新競爭領域。2020年5月，以新華社記者趙琬微為原型的“新小微”正式上崗，其在靈活度、可塑性、交互能力等多個方面都有大幅躍升［3］。2022年全國兩會期間，中央廣播電視總臺視聽新媒體中心推出財經AI主播“AI王冠”，其播報語氣流暢自然，表情生動，皮膚紋理清晰，是總臺首個擁有超自然語音、超自然表情的超仿真主播［4］。AI主播具有較高的可擴展性與跨平臺兼容性，能夠在多平臺實現無縫部署，并通過創建一系列高度適配特定場景的專屬數字化身，實現了多元場景應用，推動了跨媒體融合與交互體驗的深度發展。

（三）個性與定制化創新階段

隨著技術發展，AI主播開始具備更高級別的互動能力和智能化水平，能夠定制化生成內容，這大幅擴展了AI主播的應用范圍。在新興AI技術的推動下，AI主播能夠模擬更多的情感和個性化表達［5］。

從上述發展歷程可以看出，國內AI主播的發展經歷了從早期嘗試到技術突破，再到廣泛應用的發展過程。隨著技術的不斷進步和媒體行業的變革，AI主播在新聞播報、電商直播等領域的應用越來越廣泛，其形象也越來越接近真人，為用戶提供了更加高效、智能和個性化的服務。

二、具身視角下AI主播的主體特征

梅洛-龐蒂指出：“通過身體，我們可以連接主體和客體。身體不是我們想知道的對象，而是我們知覺體驗的主體。”［6］其從知覺主體的角度說明了身體存在的客觀必要性。19世紀末，威廉·詹姆斯在身體與情緒的關系研究中強調了身體對心理形成的作用，打開了身體問題研究的大門，機能主義者約翰·杜威隨后將環境因素納入解釋視角，進一步印證了身體對傳播主體存在的必要性。20世紀初，胡塞爾深化了這一觀點，闡述了身體與世界兩者關聯的意義，進一步強化了身體的意義。唐·伊德在《技術中的身體》一書中，提出了三種“身體”［7］，其中，第三種身體，媒介技術發展中一切媒介延伸出的身體具身（與技術互動的身體），是對梅洛-龐蒂提出的現實身體的變體和延伸，對虛擬主體和技術具身實踐有著指導意義。

學者李恒威和黃華新將具身性、情境認知、認知發展和動力系統認為是“第二代認知科學”的四個典型主張［8］。傳播學者於春則認為，具身性是“第二代認知科學”的核心概念，情境認知、認知發展和動力系統也都與之密切相關［9］。對AI主播的具身性，我們可以依據唐·伊德的三種“身體”理論來進行延展解讀。AI主播的“媒介身體”與物質身體對應，作為第一層身體含義；而人工智能技術是其具身形態的直接展現，是其被技術構建的身體，我們將其表述為“技術身體”，此為第二層身體含義；社會性互動是第三層身體含義，它是在與受眾的認知、情感、行為的互動中形成的，一切AI主播的行為都直接或間接地與之相關聯，所以可以將其稱為“互動身體”［10］。這也是目前學界較為常見的研究視角。但文章將聚焦于動力系統、情境認知與認知發展這三個與“具身性”緊密相關的維度，探討AI合成主播的主體性表征。

（一）AI主播的“動力系統”

動力系統理論認為，認知是一個系統的動力涌現，同時涉及大腦、身體和世界之間的相互復雜作用，三者之間存在耦合關系，并且在事物因果關系的連接下不斷促進整個系統的循環往復［11］。因此，現階段的AI主播被人工建構成一個自組織且自適應的虛擬主體。首先，AI主播呈現高度精準的“認知主體性”。以AI主播“新小萌”“新小浩”為例，其能夠生成與真人無異的AI分身模型。新聞生產者只需要輸入新聞文本，AI主播就可以模擬真人播報，并確保音頻和表情、唇動保持自然一致，具有與真人主播無異的信息傳達效果。相較于真人主播，具身化形態保障了AI主播在讀取和播報信息時的準確性。其次，AI主播在傳播層面效率卓越，能全天候制作與輸出新聞，如微軟小冰在《看東方》中的應用，不僅降低了成本，提升了效率，還豐富了新聞供給，增強了媒體影響力。最后，AI主播在表達層面能夠實現穩定有效輸出。AI主播不受真人播報中設備、技術或生理因素的干擾，音畫轉換穩定，文本修改便捷，確保了播報質量的穩定性。

在AI主播“認知動力系統”的主體性表征中，主體表達信息的過程促使計算中心、技術身體和環境相互聯系，并形成動態非線性且自組織的“嵌入式具身”動力系統［12］，技術具身的穩定性由此大于真人主體的操控性。盡管虛擬主體認知尚不及人類思維的全面性，但其自發、自適應、自我進化的特性，為提供高級交互服務奠定了基礎。

（二）AI主播的“情境認知”

海德格爾、梅洛-龐蒂與德雷福斯均強調身體與環境的內在聯系，而尼采則探討了思維超越理性與非理性界限的可能性。具身化的AI主播在情境認知中將人類賦予的信息轉化為主體性情境表征，將情境指令理性表達出來。

首先，AI主播呈現“獵奇主體性”，其新穎性吸引了公眾的好奇心，如3D版“新小浩”不僅能動、能變裝，還通過肢體動作傳遞豐富信息，預計未來AI主播將適應更廣泛的工作場景，包括新聞、綜藝、訪談乃至產品發布會，將進一步挑戰傳統真人主播的地位。其次，AI主播在語言層面展現了強大的深度學習能力。以世界上第一位多語言AI主播“小晴”為例，其基于多語言實時播報能力突破了語言障礙，促進了國際新聞傳播。最后，AI主播在算法層面的互動能力尤為突出。基于機器學習技術與算法挖掘模型，AI主播走向了定制化的發展道路。例如，新華社的AI主播“新小微”能夠根據不同觀眾和新聞場景調整肢體動作和表情，甚至根據新聞內容和場景變化而調整表情、發型和服飾，從而實現更為精準的“情境認知”［13］。

（三）AI主播的“認知發展”

在人類認知能力的構建框架內，AI主播的智能化發展正逐步突破傳統界限，在特定領域展現超越真人主播的潛力，特別是在電視內容生產中，其具有作為信息傳播者的核心功能，即高效、準確地傳遞信息，能夠聚焦于內容本身，而非形式化的主播個體存在。這一過程體現了人工智能技術對信息傳播本質的深刻理解，即通過算法優化實現信息內容的最大化傳播效果。

在播報過程中，AI主播運用先進的人工智能技術，將文本信息轉化為生動、流暢的語音，并輔以高度仿真的播報動作，達到了近乎真人的播報效果。重要的是，隨著技術的不斷進步，AI主播追求更加細膩、深邃的情感表達，注重認知理解，開始嘗試模擬人類的“微表情”與“微神態”，這些微妙而富有深意的非言語信息，往往是真人主播在傳遞信息時不可或缺的情感紐帶。這不僅增強了AI主播的交互性與親和力，還為其在更廣泛的信息傳播場景中的應用提供了可能。

三、未來展望

在人工智能時代背景下，AI主播的創新發展應聚焦于三個方面。一是實現數智空間內的跨場域融合發展，其關鍵在于有機融合物理世界與數字世界，構建多維交互的沉浸式環境。相關主體應通過創新技術手段，打破傳統界限，構建無縫銜接的多維交互環境，使AI主播能夠自如穿梭于虛擬與現實多重場景之間，這不僅提升了用戶體驗的連貫性與沉浸感，還促進了信息在不同場域間的自由流通與高效整合。

二是要深化智能技術迭代下的具身交互發展。相關主體應依托前沿的人工智能算法與高精度傳感技術，持續提升AI主播的感知敏銳度、理解深度及反饋精準度，使AI主播的具身形態在交互過程中能夠更加精準地模仿人類，無論是情感表達、語境理解還是行為反饋，均能達到高度人性化的水平，從而進一步拉近人機之間的距離。

三是致力于促進人機協同中的身體再造式演進，探索人機深度融合的創新模式。在這一過程中，AI技術不僅作為輔助工具，增強人類的身體機能與認知能力，還賦予AI主播前所未有的表現力，其身體形態與呈現方式更GFqZhmpoq7ikD17NONYl2g==加多樣化。人機協同下的身體再造，促使AI主播能夠綜合視覺、聽覺等多重感官體驗，以量化自我為手段，動態建構并精準展示人機融合中的身體形態。展望未來，AI主播能夠進一步將現實物理空間的物質實體深度映射至虛擬網絡空間，形成高度逼真的數字孿生體。在跨時空的無縫融合下，AI主播將突破物理身體的局限，實現生產效率的顯著提升，達成技術與身體融合的協同效應，遠超預期的“1+1>2”效果，從而開辟人工智能時代AI主播創新發展的嶄新路徑。

［參考文獻］

［1］鄧建國.“延展的心靈”和“心靈的延展”：人機傳播研究的具身AI轉向［J］.新聞大學，2024（03）：77-90.

［2］陳倩，馮松齡.火了！中國的這個“主播”引起了全球關注［EB/OL］.（2018-11-12）［2024-07-04］.http：//www.xinhuanet.com/world/2018-11/12/c_129991677.htm.

［3］鄔金夫.她來了！全球首位3D版AI合成主播精彩亮相［EB/OL］.（2020-05-22）［2024-07-04］.http：//www.xinhuanet.com/politics/2020-05/20/c_1126011533.htm.

［4］央視頻再上新，總臺首個AI超仿真主播來了！［EB/OL］.（2022-03-07）［2024-07-04］.https：//1118.cctv.cn/2022/03/07/ARTIrSrw34I8nTpPSfAnbFQX220307.shtml.

［5］首都廣電.京聲京視｜北京時間：以主流姿態激活融媒智慧［EB/OL］.（2022-05-21）［2024-07-04］.https：//baijiahao.baidu.com/s？id=1733365399708951116&wfr=spider&for=pc.

［6］季曉峰.論梅洛-龐蒂的身體現象學對身心二元論的突破［J］.東南學術，2010（02）：154-162.

［7］吳寧寧.對伊德“人-技術關系現象學”的辨析［J］.自然辯證法通訊，2015（03）：145-151.

［8］李恒威，黃華新.表征與認知發展［J］.中國社會科學，2006（02）：34-44.

［9］於春.傳播中的離身與具身：人工智能新聞主播的認知交互［J］.國際新聞界，2020（05）：35-50.

［10］鄔建中，楊帆，李清鑫.溯源、反思與展望：AI主播的技術具身［J］.青年記者，2023（04）：60-63.

［11］王姝彥，申一涵.認知整合與文化濡化［J］.自然辯證法通訊，2020（02）：29-35.

［12］張鐵山.復雜性視閾下的緣身認知動力系統研究［J］.系統科學學報，2011（02）：51-54.

［13］新智元.全球首個3D合成主播參與新華社兩會報道，純AI驅動無需人工干預［EB/OL］.（2020-05-25）［2024-07-04］.https：//baijiahao.baidu.com/s？id=1667653006548110112&wfr=spider&for=pc.

［基金項目］國家社會科學基金“人工智能時代電視產業創新發展研究”（項目編號：19BXW039）。

［作者簡介］鄔建中（1975—），男，重慶人，四川外國語大學新聞傳播學院教授；楊帆（1996—），男，黑龍江朝陽市人，四川外國語大學新聞傳播學院碩士研究生；黎慧斕（1998—），女，湖南邵陽人，四川外國語大學新聞傳播學院碩士研究生。

傳播與版權2024年19期

傳播與版權的其它文章: 論人工智能生成物的著作權侵權風險及救濟途徑; NFT數字作品交易中平臺的著作權侵權責任研究; 智能時代高校紅色文化傳播風險把控與提升策略研究; AIGC視域下新媒體營銷課程思政建設路徑探析; 數字化發展助力高校思想政治教育智慧教學探析; 擬態環境下高校輔導員的媒介素養教育