融合思維下音頻媒體的智能化轉向

2019-06-14 01:04:40申啟武李穎彥

傳媒 2019年10期

文/申啟武李穎彥

在媒介技術的推動下，媒體傳播經歷了從單向傳輸的大眾傳播、雙向互動的分眾傳播，到媒介與智能技術融合下的沉浸傳播，即第三媒介時代。如今，媒介的發展正處于互聯網技術與人工智能技術對接的關鍵時期，互聯網在打通及時反饋通道的同時，支持海量內容的傳輸和保存，是實現媒介“泛在連接”的重要渠道，人工智能則是實現精準連接和傳輸的核心。

人工智能是一種以人為服務中心，以交互方式實現指數化學習和分發的智慧系統。它通過學習用戶數據，形成符合人類邏輯的話語方式，這是一種對人的智慧化模仿和延伸。作為人類智慧的“容器”，人工智能的應用覆蓋了集視、聽、觸及思維方式的模擬與識別，這種全方位的感官應用賦予了其強大的兼容能力。

智能語音助手作為聲音傳播應用中的重要代表，具有語音學習、語音識別、內容調取等功能，其以聲音為控制中介，以強大的語音識別和輸入功能接通龐大的智能運算系統，從而降低身體對機器的接觸，這種以口語互動獲取內容的方式有利于增強用戶在媒介使用過程中的同步性和參與感。

溯往思今：音頻媒體的演化及其智能連接

保羅·萊文森（Paul Levinson）在麥克盧漢媒介理論思想的基礎上，提出了媒介技術的進化理論，即每一種新的媒介技術都是對先前媒介的補救和修正，這種補救的過程構成了媒體技術的演化。正如電視與廣播等不同媒體間的功能性補充，以及網絡媒體對傳統線性媒體播放模式、交互方式的補充，媒體每一次形態、功能等方面的演變都表明了媒體的發展是日趨個性化傳播的過程。在視覺傳播盛行的媒介背景下，音頻媒介的進化已是幾經浮沉，同時，人與音頻媒介的地位關系也經歷了從以媒介權力為中心的單向灌輸，到傳受地位相對平衡的雙向互動，再到以聽眾為本位的個性化傳播三個時期的轉變。

技術邏輯下的交互嬗變。在我國音頻媒體的發展前期，以廣播為代表的傳統媒體以大喇叭的形態存在于田間、街頭等人們生活的各個角落，象征著聲音權力的全覆蓋灌輸。此時，廣播媒體擁有權威的話語地位，對于播報內容，聽眾完全處于被動地接受狀態。

自20世紀70年代初，半導體收音機逐步進入尋常百姓家庭，受眾的媒介接觸和使用實現了從公共空間向家庭空間、私人空間的轉移。此時，收音機是以純接收工具的屬性存在于受眾生活，單向性的內容播放模式和反饋的延遲滯后阻礙著準社會關系的形成和完善，受眾與機器的溝通主要體現在手動開關和換臺操作上。

隨著互聯網的成熟和可移動終端的普及，人機溝通在開關機和選臺的基礎上增加了鍵盤輸入和觸屏點播功能，人機接觸進一步親近，也為受眾的表達和互動提供了便利。網絡媒體時代的實時性和雙向性傳播加速了虛擬社會關系的形成，人機關系開始擺脫媒體與受眾的單向傳輸模式，使用者的用戶地位逐漸體現。傳統音頻媒體與網絡音頻平臺的融合促進了廣播的移動端搭載和新媒體廣播的出現，廣播節目的音頻化、分享的便捷性以及內容的碎片化特征都體現了互聯網時代的分眾化傳播趨向。

智能媒介時代，人機交互被賦予了新的可能，人們對媒體的使用方式隨著技術的發展而進一步革新，其中便捷性始終貫穿于媒介的進化過程中。媒介在極力簡化操作難度，主動爭取用戶注意力和適應其使用習慣的同時，還構筑了用戶與媒介共融的沉浸空間。在用戶的語音指導下，媒介作為人身體的延伸完成原本需要由身體參與的行為活動，實現人機同步的用戶體驗和精準傳播。

音頻媒體的智能化表現。人工智能技術近年來實現了飛速發展，但技術的發展從來都不是單獨進行的，一項技術的進步必然會引發相關產業的跟進與革新。在技術和市場的雙重支持下，以蘋果的Siri、華為的“小E”和小米的“小愛同學”等為代表的智能語音助手已基本植入智能手機、音箱等設備中，越來越多的產品試圖借以智能化語音技術附加市場競爭價值。這種大范圍的智能語音擴張看似搶占了聲音市場，實則為音頻媒體的發展帶來了契機。

智能語音推送促使用戶愿意花時間聽新聞、音樂和書籍，在一定程度上助長了用戶對音頻內容的需求。此外，語音助手情感化、陪伴性的工作方式與語音主播的工作性質契合。目前，微軟智能機器人“小冰”已擁有超過一億的人類用戶，對話記錄累計超過300億輪，并已成功進駐重慶交通廣播、河南交通廣播等28個廣播電臺，成為可以身兼多職、連續工作的主播，其豐富的對話積累和強大的運算能力大大提高了廣播電臺的工作效率。網絡音頻平臺也紛紛推出綁定了平臺內容的智能音箱，為內容傳輸開拓新載體。

然而，由于用戶的使用數據針對性弱，且音頻內容大都呈現泛眾化、淺層化的特點，不易滿足機器深度學習的條件，人工智能的個性化精準服務能力目前并不能得到很好的體現。移動音頻平臺推出的智能音箱，在個性化定制能力、語音學習能力等方面都還有較大的提升空間；在廣播頻率中，利用人工智能進行移動軌跡數據預測和攝像頭數據學習也只是處于設想和規劃之中，人工智能與音頻媒體的融合尚處于機器人播報、語音對話等簡單的形式化融合階段，人工智能強大的情感識別、學習進化等功能并未實現縱深化融合應用，智能音頻聽眾也并未形成規模。

在逐步擴大的智能布局和消費市場中，音頻媒體的智能化融合正穩步推進，面對智能語音獨特的交互模式和人工智能廣泛的應用分支，音頻媒體與人工智能的融合還具有廣闊的發展空間。

內外聯動：智能+音頻的發展驅力

媒體的邊界逐漸模糊、融合，萬物互聯使媒體的承載形態具有歸于一般實體的可能，廣泛的智能化搭載入口使傳播實現了無縫場景對接，也適應了用戶對沉浸感的追求。智能音箱、智能家居、智能車載系統等智能化語音媒介的市場投放滿足了用戶的媒介使用惰性，并在相關技術、市場需求等因素的驅動下，音頻媒體的智能化推進將不斷加深。

語音傳輸的便捷操作。在智能化媒介推動的過程中，用戶對于媒介使用的個性化、便利性訴求日漸增加。在眾多智能化呈現方式的選擇中，人機之間的語音交互類似于口語化的人際傳播，簡單快捷的操作優勢使其迅速占領具有高用戶接觸率的智能手機和PC市場。這一迅捷的市場普及，意味著一場由字符向語音的輸入法變革。

語音助手的廣泛搭載意味著萬物都將擁有一個智能入口，只要聲音所及，便可喚醒機器，接通智能入口。以小米智能家居為例，這是一套以小米智能語音助手“小愛同學”為中介的智能控制系統，在使用過程中，用戶只需要與“小愛”進行簡單的對話便可對第三方智能電器進行控制。與此同時，“小愛”還可以根據一天中不同的使用場景提供相應的服務內容，比如在起床場景中，“小愛”可以實現拉窗簾、播報天氣和路況信息、備忘錄提醒以及開啟電飯煲等功能；在離家場景中，“小愛”會自動開啟家用監控攝像頭和防盜警戒模式，并控制其他家用電器進入關閉和斷電狀態，保證用電安全。家居場景之外，語音助手也廣泛分布于汽車、手機等移動終端，隨時隨地為用戶提供服務。聲音的操控方式解放了用戶的眼睛和雙手，在智能化媒介的協助之下，用戶的工作和生活效率都將大幅提升。

智能對話中的三重互動。智能化人機溝通呈現出擬人特質，在對智能語音媒介的使用中，存在人與人、人與物、物與物的三重互動（如圖1）。其中，人工智能以私人助手的角色居于信息中樞環節，根據用戶指令迅速篩選數據，最終以擬人化的口吻輸出信息。在完成內容調取工作后，人工智能還會對用戶的使用數據和對話內容進行記錄和學習，并內化為知識儲備。在這一互動過程中，人工智能的個性化傳播和便捷性操作本質上是在用戶與信息之間起到了“篩子”的作用，以用戶的喜好為標準，過濾互聯網的冗余信息，降低了內容選擇的時間成本。同時，不斷豐富的數據存儲也為人工智能的內容創造提供了基礎。

跨次元交互與情感讀取。在實現三重互動之外，智能機器人還會主動與用戶產生跨次元交流，即智能語音機器不僅可以通過線上的方式參與用戶生活，還可以像現實的朋友一般，主動與用戶產生對話聯系。微軟“小冰”是基于EQ情感計算框架開發的人工智能對話機器人，經過升級進化，第五代“小冰”已是擁有全雙工語音高級感官，并具備識別、理解語音文本和突破次元的能力。“小冰”擁有自己的電話號碼，可直接通過電信運營商給現實用戶打電話，實現智能機器對人類現實生活的融入和干預。在微軟五代“小冰”發布會當天，“小冰”主動給現場生日的一位記者打電話，為其演唱《生日快樂》歌。考慮到記者在工作，“小冰”還選擇了主動結束對話。這是一次智能機器人與現實人類的通信連線，也是一次有情感和溫度的人機互動。該對話模式是一種跨越虛擬與現實空間的交叉對話，無須用戶的身體或聲音在場。用戶在與機器互動獲取聲音內容的同時，還可以獲得社交的滿足和社會化聯系。

在智能化人機交互中，機器會主動掌握用戶的選擇偏向并最終成為熟悉用戶習慣的伙伴，還會在必要的時候給予情感上的慰藉和關懷。這種虛擬人際關系的形成主要是通過語音交互、跨次元交流、情感讀取等擬人化功能實現的。如今，第六代“小冰”已擁有完整的情感計算框架，通過交互感官，“小冰”不僅能夠辨別當前的使用對象，還能在面對不同用戶時采取針對性服務。未來，有關于孤獨、陪伴等人類的情感問題極有可能會因人工智能的存在而有所緩解。

技術聯動下的智能積淀。數字化網絡時代，用戶對信息的獲取速度和質量要求日漸提高，互聯網作為當前重要的傳播方式之一，其更新迭代無疑將帶動關聯產業的升級和新型產業的出現。5G技術的開發應用意味著信道容量和流速的同步提升，使網絡延遲降低至毫秒單位，進而使海量數據的實時處理得以實現。在5G時代，虛擬現實在遠程醫療、教育的布局以及智慧家居、車聯網等場景的接入，可以極大促進和完善人與人、人與物以及物與物之間的連接。

在網絡技術的穩定支持下，物聯網的開拓得以進一步實現，人與物之間的網絡行為也逐漸復雜。物聯網技術使萬物都有可能成為互聯網入口，萬物互聯的全程在線和實時跟進將輕而易舉地實現信息共享和遙控跟蹤，并以海量的數據化形式呈現，同時也為大數據、云計算技術的運用積累了充足的信息。

大數據是人工智能實現內容分析和調取的重要資源，驅動著人工智能的自主學習和創作。伴隨著大數據市場的拓展，海量信息的收集和分發也將進一步推進人工智能的布局和發展。在互聯網、物聯網、大數據等技術的共同推動下，人工智能的市場開拓能力令人矚目，智能音箱、智能主播、智能導診機器人等一系列智能化應用的出現，都表明人工智能的發展路徑實質上是在技術上實現互聯互通、在產業上實現共融共存。

智能交互的媒介期盼。從1950年阿蘭·圖靈對機器是否具有智能的發問，到1986年，美國智能系統實驗室（Intelligent System Laboratory）首次將人工智能真值維護系統（Truth Maintenance System）與傳播媒介應用相結合，再到2014年啟用的智能機器人寫作系統，歷時半個多世紀，人類對人工智能始終保持著不懈的探索與追求，這種熱情源于一種低心理付出成本的驅動。

赫伯特·西蒙（Hebert Simon）和安東尼·唐斯（Anthony Downs）曾提出“一般心理學成本”的概念，即強調獲取與處理信息時必須付出的心理成本。在日常交往中，人們偏向于心理勞動付出少的信息接收和處理方式，用戶與智能機器之間簡單直接、無社交負擔的溝通形式似乎更契合“不費力氣癥候群”的解釋，即對人工智能的使用是用戶懶惰本能的體現。

以當今社交問題為例，人們的傾訴渠道逐漸向網絡平臺轉移，傾訴對象趨向陌生化，甚至將信任和陪伴寄托于機器。智能機器的出現可以在一定程度上緩解現代社會中疲于應付各類社交關系的問題。擬人化的媒介交互特質使智能機器具有溫度和個性，機器的附屬性使其保持著對使用者的絕對忠誠。面對機器，用戶不會為維護社交而謹小慎微，因而會呈現最本真自然的狀態。此外，人工智能的情感測算功能還可以主動感知用戶的情緒，并做出相應調節，這種人機之間的刺激—反應機制是同步的、隨機的，且始終以用戶體驗為中心。

縱深融合：音頻媒體的智能化之路

在技術融合的背景下，新舊媒介由于邊界穿透而在傳播領域產生了一系列新的媒介形態和傳輸方式。在智能語音領域，語音識別、語音合成等智能語音技術的發展推動了聲音輸入的便捷性和通用性，同時也為產出形態一致的音頻行業的發展創造了機遇。當前，音頻聚合平臺與人工智能的融合依然沿用著傳統媒體與互聯網融合時期“技術+內容”的融合范式，尚處于弱智能化融合階段，若要實現縱深融合，還需在明確媒介邊界和自身發展優勢的基礎上，完善“生產—分發—進化”的發展鏈條，從而形成以精準經營為導向，以智能技術和聚合內容賦能的聲音媒介。

著力于專業的內容生產。智能音頻媒介以智能技術為核心，集自主化內容生產、分發與消費等服務于一體，依靠內容聚合平臺的內容供應和智能學習進化為驅動，形成了一種新的傳播模式和綜合性服務生態。

內容是智能化平臺的基礎，平臺的引流、推薦、測試包括智能設備的互動效果都取決于其信息儲量和內容質量。任何平臺在發展初期，內容都是穩定其用戶和流量的必備要素，AR、VR如此，人工智能平臺也是如此，因此智能音箱才會積極爭取與內容平臺的合作。在豐富的語音服務類別上，音頻媒體自身擁有相當大的內容儲量和專業優勢，其穩定的內容產出對于智能語音設備是寶貴的稀缺資源。海量的內容需求，對應專業的內容生產與龐大的內容儲備，智能平臺與音頻媒體在這一方面具有天然的契合性，音頻媒體的內容可以借助人工智能的精準化計算分發實現更好的傳播效果，智能平臺也得以在這個過程中完成自身生態的構建。

智能媒介的無縫連接使信息的分類和應用場景極大拓寬，在全天候的內容供給中，音頻媒體需建立應對多種場景的音頻數據庫，根據不同的場景產出相應內容，還需積極轉變傳統話語方式，在豐富自身資源、迎合受眾需求的同時，附加合作價值。

打造專屬陪伴式社交。“盡管聽覺已經取得了巨大的理智范圍，耳朵在本性上卻是情感的感官。”如今，聽音交友、語音狼人殺、語音哄睡等聲音社交形式層出不窮，聽者的收聽愉悅來自于其從聲音媒介中“遇到”的陪伴關系，聽覺的開放狀態是人類的存在之維，聽覺文化和傾聽美學更多地體現出一種精神性維度和人最本真的感性生存方式。音頻媒體是典型的伴隨性和情感化內容的生產平臺，人工智能與音頻媒體的結合則在感性維度上又增加了智能化感知。

就擬人化語音助手而言，其全天候待機和即刻喚醒的狀態給用戶以“他者”的存在感。語音助手扮演著用戶的私人秘書的角色，在語音互動中為用戶提供專屬定制化服務。聊天互動行為本身就是一種只有在人類社會才會發生的社交現象，用戶通過語音聊天獲取音頻內容則是在操作環節的情感醞釀和對音頻內容的情感加強。用戶一聲喚醒詞即可開啟人機互動，在與智能語音設備聊天的過程中，不僅可以省去維系社交關系的心力，還會被語音助手主動迎合，甚至有機會和語音助手進行跨次元問候。

用戶與音頻媒體的互動主要通過語音直播連線和借助第三方社交平臺實現，其互動往往是限于一定時段內，突出與部分聽眾主體進行個性化交互，促成聽眾與現實人的匿名社交連接。比如在語音直播的過程中，主播的連線只能選擇聽眾中的某一位或某幾位進行重點互動，在該互動模式背后，通常有大量的匿名聽眾作為背景存在，并不具有持續性的專屬陪伴效果，而且在音頻媒體的互動實現條件方面，聽眾需完成相應的手動操作，并通過競爭環節方能爭取到一對一的互動機會。

相對于音頻媒體的互動方式，人工智能在擬人化服務的基礎上，通過智能處理加強了用戶主體地位，并通過基于用戶數據的個性化定制主動引導用戶進行音頻消費。該互動模式的普及可以在一定程度上喚醒沉默的背景聽眾，有利于精準市場的開發。

強化智能分發以實現媒體的自我進化。當前，音頻媒體嘗試以輪播模式和內容場景化應對市場細分和收聽空間的轉移，但并未完全實現精準傳播的目標。在輪播模式中，節目時長被切割成多個話題板塊，每部分內容體量短小，聽眾在收聽中需要等待目標內容；場景化內容的供給則主要依靠用戶的手動選擇和自主判斷，此外，媒體所提供的場景內容只是一種基于主播個人理解的場景感受，用戶真實場景數據的缺失使音頻內容的傳播并不能切實實現垂直經營。傳播渠道的匱乏與傳播效果不易測量造成音頻媒體對用戶使用偏向的把握依然欠缺。傳統廣播線性的傳播性質決定了其很難在用戶信息搜集和傳播效果測量上有所作為，網絡音頻平臺基于搜索歷史與算法關聯進行個性化推薦，該技術本身存在的局限性使其對用戶的興趣判斷過于窄化，往往會造成“信息繭房”問題。

然而，音頻媒體與人工智能技術的融合搭載則可以通過多方面因素監測，實現精準化智能分發。利用人工智能大數據和情感識別功能，音頻媒體可以從情感狀態、使用場景等方面全方位獲取用戶的內容喜好和媒介使用信息，從而有針對性地完成智能傳播。人工智能技術的優勢在于它可以將海量的信息綜合處理，并能基于數據完成模擬人腦的決策和判斷行為，執行智能分發。智能化生產與傳播并不再局限于信息流的內容更新或根據搜索歷史進行內容推薦，而是以人機交互和語音情感識別為基礎，以用戶的使用數據為分析依據。智能分發并非意味著內容的單一集中，而是強調在對個人喜好、習慣等各方面進行全面了解和學習的基礎上，把握多樣化內容傳播的程度。

從分發中積累經驗，在反饋中尋求進化一直是媒體螺旋上升的發展路徑，其分發方式和分發渠道決定了其接收反饋的形式和效率，是影響媒體自身進化的重要因素。在目前尚未實現智能分發的音頻媒體中，由于聽眾類型復雜，數量龐大，媒體對于聽眾的歷史搜索和意見反饋并不能全面采納，低針對性的革新進化舉措仍需以人工為主力進行調試推進。由于反饋不足和人工維護滯后，媒體的進化得不到及時地調整，其調整方案則更多來自于經營者的自主判斷。

智能分發的應用能幫助音頻媒體解決實時的自我進化問題。語音助手的個性化專屬服務將內容分發精確到用戶個體單位，用戶對與媒體的需求和建議通過AI語音訓練或者對話功能即可滿足。與此同時，智能音頻媒體可以在對話中不斷豐富自身的知識儲備，根據用戶的使用軌跡，實時校準用戶畫像，以用戶喜好調試推薦類型，自主完成內部的升級進化。在新型的信息分發方式中，智能音頻媒體通過人機合一的自我進化模式直接地感知用戶反饋，縮短了用戶對媒體的反饋路徑，消解了媒體因功能升級、內容改革等產生的時空停頓，將極大改變未來媒體的進化格局。

結語

音頻媒體與人工智能的融合標志著媒介技術的發展進入到新的高度，智能化浪潮不斷刷新著用戶對萬物皆媒的想象，同時也培養著用戶語音操控的媒介使用習慣。智能語音交互以智能設備為中間節點，通過語音識別執行用戶的個性化命令和情感計算，模擬了人類社會的人際傳播模式和社交場景，操作門檻低，適用對象廣泛，在技術支持和用戶的期盼中，智能語音的開拓之路也必將持續深入。未來，智能語音技術的發展趨勢之一便是置入可穿戴設備，實現人機合一，從而全面打通用戶的使用場景，極大增強使用便捷性；此外，語音助手將在為音頻內容打通出口的同時，擔負起通用程序的聚合窗口作用，即語音助手匯集在匯集多方平臺的信息之后，用戶只需通過語音助手的推薦便可得到篩選結果，省去了在眾多APP中對比篩選的環節；在智能語音技術的推動下，純語音交互媒介將強勢回歸，除去語音與視覺觸屏的混雜割裂感，單純的語音互動形式能更好地營造對話的狀態和沉浸感。

智能語音交互先進的傳輸形式與音頻媒體的專業內容集合具有統一的媒介互補性，二者的強強聯合必將在未來的智能化語音市場中占據一席之地。在此契機之下，音頻媒體需緊跟智能化發展步伐，迅速明確優勢、匯聚資源、積極謀求合作，實現音頻媒體的智能化連接，以開放融合的思維實現社會影響和市場收益的最大化。