【摘要】人工智能技術的發展,將我們帶入了一個智能傳播的時代,智能傳播中的人機語言交互喪失了有關“人”的因素之對話本質的思考,學界亦存在對人機“對話”一詞的誤解和誤用。基于此,應以語聊機器人的現狀分析作為研究基礎,站在人文主義的新起點上,重思人類對話的內涵特性,總結機器主體的“對話”桎梏。最終通過回望柏拉圖、巴赫金、海德格爾等人的研究理路得出,只有重歸人類對話本身,借助對話的力量賦能人機語言交互,才能讓用戶最大限度地體察到“交流感”與“對話感”,促使人“感同身受”地接納AI與技術合成語音。
【關鍵詞】智能傳播;人機語言交互;對話;人機“對話”;“對話”桎梏
一、問題的提出
人工智能技術的發展已將我們帶入了一個智能傳播的時代。在智能傳播時代,人與機器、人工智能技術與傳播系統相互融合,但是這種融合并非簡單加減,其背后存在諸多未知性與風險性,對人及“人”的因素形成諸多挑戰與阻礙。智能傳播發展至今,其傳播主體越發豐富,不僅在傳統廣電媒體中出現了“康曉輝”“AI王冠”(中央廣播電視總臺)和“小漾”(湖南衛視)等虛擬主播,而且在直播平臺上也涌現了由ChatGPT模型接入的虛擬數字人“朏朏”(天娛數科)、直播帶貨數字人“冬冬”(阿里巴巴)等。2023年2月,微軟推出一款由ChatGPT驅動的聊天機器人Bing Chat(必應聊天),但很快就在與用戶的聊天中翻車,該機器人在聊天中不斷重復“我是,我不是”等胡話,甚至前言不搭后語,面對用戶的日常提問,輸出“慫恿記者離婚”等怪誕內容。隨后,微軟以最快速度控制Bing Chat,并通過檢測異常的方式直接切斷其與用戶的聊天。因此,諸多網友對ChatGPT等聊天機器人表示質疑,認為大部分聊天機器人容易陷入“精神錯亂”,甚至認為OpenAI及其他科技公司的相關人員存在故意訓練其學舌“左派”的非正常言論。
從現狀來看,目前市面上的大部分聊天機器人仍未真正理解人類對話,盡管其聲音的一切形式種類已經相當豐富。例如在音色上可以自由選擇四郎音①、元氣少女音、蠟筆小新音等,但依舊無法實現與用戶(人)交流的自然化、流暢化、共情化等目標,并引起諸多用戶的反感。當前的語聊機器人仍處在一種“論機器以形似,見于兒童鄰”的階段,并未習得對話神韻。即語聊機器人僅具備與人相似的聲音,掌握人類語音及聊天的一切形式,但失卻了人類聲音與對話的自然性、情感性、辯論性、思想性等神韻。往往這些本質化的核心特性才是人類交流與對話的靈韻和本真,才能達到人機語言交互的理想狀態,讓用戶體察到“交流感”與“對話感”,促使人“感同身受”地接納技術與AI。
造成這一現狀的原因之一在于:部分開發者對技術及其產物存在過度的迷思與崇拜,故而忽略了人文的力量和“人”的因素。因此,有關學者指出,“智能傳播極大地‘剔除’了‘人’的因素,而且具有深入各類產品和服務的強大技術滲透性和擴展性,對人類生存方式和社會運行方式都將產生顛覆性影響”[1]。人機語言交互發展近20年來,研究者們仍主要關注以深度學習、自然語言處理等為代表的技術表象,而對包含“對話”與“交流”在內的“人”的因素并無更深入的觀照。致使人機語言交互越發疏離“對話”的本質,脫離了最早有關人機“對話”的原意。因此,若想在一定程度上趨近于人類對話,實現AI與人的琴瑟和鳴、美美與共,就不能不從對話的追思入手,借此回望人類對話與人機“對話”的內涵、重思對話的力量。
二、“對話”與機器的“對話”力演進
“對話”作為一個廣為關注的研究主題,曾在諸多社會學家、語言學家及哲學家的討論中留下痕跡,最終在巴赫金的對話理論中被賦予了涉及人與社會的實際內涵。當前計算機科學界多引用“人機對話”②一詞描述人機語言交互,但對于究竟什么是對話,以及對話的核心特性為何卻無更進一步的深思熟慮。現有的人機“對話”則在一定程度上打破了涉及對話的原生標準,偏離了人機“對話”的原意,剝離了某些“人”的因素體現。社會是由人與人的對話和互動所形成的結構系統,對人類對話的深思既能賦能人與機器的語言交互,亦能幫助人類主體回視“人”的因素,促進人與機、人與人和人與世界的鏈接。
(一)對話及人機對話的內涵
對話理論的奠基者巴赫金最早從蘇格拉底對話與梅尼普諷刺中思考對話的內涵,且希冀從歷史、社會與互動中尋找到對話的源頭、過程和意義。但發展至今,人文主義學者與計算機學者在對“對話”一詞的理解上存在較大偏差。毫不夸張地說,計算機科學界對人機“對話”一詞的使用與真正對話的原意背道而馳,在某種程度上是一種對真正對話的拋棄和否定。在巴赫金的定義中,對話是“日常生活的普遍現象,交際活動最根本的方式”[2]。而“對話交際才是語言的生命真正所在之處”[3]。對話作為一種人際交往活動,它反映和影響著人類關系的發展。若將對話的內容抽象出來,具體至對話的內部形式,則可將其對話結構關系概括為一種包含“同意或反對關系,肯定和補充關系,問和答的關系”[4]的綜合體。目前的語聊機器人及其人機“對話”明顯多停留在問和答的單一關系層面,從而剝離了另外兩層關系結構。進入人工智能時代以來,由于人類身體的離場和具身關系的衍變,在很長一段時間里,人們一直模糊掉了交流和對話的概念,甚至直接將其等同,同時“又將對話當作治療現代性病癥的藥方,然而這個藥方本身卻常常是那致病的病毒”[5]。如果僅用交流一詞囫圇吞棗地描述人類生活和各類社會關系(包括人機關系在內),那么“人”的因素將悄無聲息地離場,“非人”的因素將如滔滔洪水般洶涌而來。但實際上對話的要求遠比交流更高,運用交流的概念來“搪塞”對話和人機“對話”是一種對人類活動的輕視。畢竟對話僅發生在人與人之間,而交流“并非人類所獨有……是我們與動物、電腦、地外生命和天使之間的共享物”[6]。因此,從巴赫金、伽達默爾、馬丁·布伯、海德格爾等人有關對話與交流的經驗總結中可以得出:對話始終作為一種體現“人”之因素的社會交往活動,圍繞對話主體——人而展開,具備主體間性、對話性、辯論性、關聯性等多種核心特質。
在計算機科學界中,人機“對話”作為人工智能領域的重要研究內容,是人與機器的一種新型交互方式。人們通過計算機終端來使用機器,向機器發出指令要求,機器以“對話”的形式執行命令,就好像人和機器在“對話”。“人機對話系統的目標是使人機對話像人人對話一樣有效、快捷和自然。”[7]參考計算機科學界對人機“對話”的定義不難發現,相關人員只是學習和依據人類對話的形式(或曰問答形式)將人機語言交互囊括為人機“對話”,但對人類對話的內涵和核心特性卻并無更進一步的思考。需始終明確的是,機器主體只是一種對人類主體的模仿,實際上并非對話主體。盡管語聊機器人依靠人類主體而存在,但充其量只是一種巴赫金口中的“自我的客體化的事物”。因此,當前所謂的人機“對話”一詞從內涵上來說“有名無實”,而只是計算機科學研究人員的誤解和借用。但若真想視“對話”為人機語言交互的理想目標,促進和優化人與機器及人與人的互動,則需進一步厘清對話的核心特性,思考和化用對話的力量,使其無限趨近于“對話”的狀態。
(二)對話的核心特性
在哲學中,對話通常被理解為一種交流和思想交換的方式,對話中的參與者將共同探討和思考各種問題、觀點和理念。在笛卡爾看來,語言應答能力測試和動作的多樣性測試是人類和動物的分水嶺。雖然技術之物“如鸚鵡可以清晰地模仿人類說話,但它們不能‘表達思想’”[8]。參考柏拉圖、笛卡爾、本雅明、馬丁·布伯、巴赫金等人的理解,對話是屬人的產物,具備某些不可復制的核心特性,如主體間性、對話性、辯論性和關聯性。在巴赫金看來,對話的基礎條件之一是存在他者與他人話語,即在說話者(我)之外,還需存在另一個對話主體(人)。化用巴赫金的理解,“一個意識無法自給自足,無法生存,僅僅為了他人,通過他人,在他人的幫助下我才展示自我,單一的聲音什么也解決不了,且難以形成對話”[9]。對話由自己(說者角度)與他人(對方)的表述構成,其形成必須依托于“我”和“他人”這兩個人類主體來進行,且必須通過其間的思想交流活動反映兩者的主體間性,形成各自言說的對話基礎。因此,兩個真正屬人的有生命的聲音和隱含其中的主體間性是對話的最低條件,亦是“生存的最低條件”[10]的哲學內涵。于對話性而言,對話性是敘事藝術的核心,是從人類對話中提取出來的本質性因素。對話性更多關涉對話的內容,強調對話內容本身需反映出可對話的價值。往往這一要求還與諸多哲學家所言之對話的“思想性”相類似,因為“說話人應該被‘藝術地’描繪出來而不是簡單地傳達出來和‘復制出來’……它是思想的載體”[11]。對話中的“一切話語都具有內在對話性,和對話的外在布局形式”[12],或可言正是對話性造就了話語和對話本身。對話性是巴赫金對話理論的中心,在其理論闡釋中,對話性包含多個實質性的要素,如對話性關系、對話者、指向性、內部對話性完成過程等。
在《柏拉圖對話錄》中,柏拉圖通過描繪蘇格拉底與其他人之間的對話來表達他的哲學思想,對話的形式使得哲學觀點可以通過不同人物之間的交流和辯論來呈現。柏拉圖認為,對話是一種探索真理的方式,通過在對話中提出問題、辯論和討論,人們可以更好地理解復雜的哲學概念。且對話結構本身即包含巴赫金所強調的“同意或反對關系”的原意,聽者既可以通過回答理解和支持說者,也可以雄辯地說服說者。對話中的雙方“應該較為全面而深入地提出一切言語交際領域中存在的他人言語的問題”[13],體現此類自由辯論關系的對話才是真正的對話,才能促進兩個主體間性的相互作用和共同協作。除此之外,馬丁·布伯將對話視作一種人際關系的核心,對話在布伯的哲學世界中被定義為一種交流方式。在他看來,對話不僅是思想交流的方式,也是人們之間建立聯系和理解彼此的重要途徑,理解言說者(人)的話語能在交流的過程中深化人與人的精神交往。與此同時,“人所經歷的關系,乃是與生俱來的‘你’在相遇之人身上實現的產物……這一切都可用關系的先驗前提來解釋”[14]。總之,對話的主體、內容及形式與個人及外在世界的一切事物關系匪淺,對話中的一切呈現亦在有形與無形中與個人的形神氣韻和對世界的理解相關聯,即對話的呈現時刻“散發著各種樣式格調的氣息,與世界觀方面的、流派方面的、社會方面的特定評價相聯系”[15]。
一言以蔽之,盡管前人對對話的定義不盡相同,但他們基本都涉獵了對話特性之主體間性、對話性、辯論性與關聯性等,其闡釋活動也主要圍繞這幾點來進行。另外值得肯定的是,進入20世紀以來,所謂的人機“對話”在語言能力優化上確實存在諸多技術上的突破,其對人類語言和言說能力的理解亦實現了多個階段的迭代升級。
(三)機器的“對話”力演進
在計算機學界中,人機語言交互涉及語音識別、語音合成、情感識別、對話系統等方面,其中,“對話系統過程一般包括自動語音識別、自然語言理解(或稱口語理解)、對話管理、自然語言生成、語音合成五部分”[16]。進入數智時代以來,計算機科學界不再僅把人機“對話”(或稱人機交流)視為一種語言上的交互,而是將其視作一種社會技能(社會互動),借此完成了對人機“對話”理解上的重大轉變,實現了機器主體的理解力升級。自1966年發展至今,機器“對話”主體歷經了從“對話智能體”(如人機“對話”軟件“ELIZA”)到“涉身對話智能體”(如軟件“房產經紀人”REA)再到“數智對話智能體”(如AI王冠、小漾)的更迭演進,并以此完成了從計算機科學到心理學[17]、從文本到圖形、從一方到多方的技術革新和對“對話”的理解與把握。“數智對話智能體”指的是通過數字化技術和數據分析來獲取洞察力和智能化決策的機器“對話”主體,是智能傳播中的傳播主體之一。在對“對話”的理解與把握上,相較于早期的“對話智能體”與“涉身對話智能體”而言,廣泛應用于傳媒領域的“數智對話智能體”在語音延遲和語音情感識別方面有所完善,另外還加入了對副語言信息的研究。其在語音延遲上主要通過兩種方式優化設計,一方面研究流式語音識別,邊聽邊識別;另一方面研究非自回歸語言識別,擺脫解碼時序依賴以加快識別速度。在情感識別方面,先進行特征提取,再進行分類器設計的方式優化情感因素,但在特征提取階段仍依賴于前期人工設計的與情感相關的聲學特征。
盡管改善語音延遲和語音情感識別已讓機器主體在人機語言交互上大有提升,但以“數智對話智能體”為代表的機器主體仍無法與巴赫金所言之“他者”相提并論,其交互方式和語言理解相較于人際溝通而言更多只是照本宣科、生搬硬套。概言之,盡管技術的創新已為人機語言交互帶來諸多收益,但“人”的因素和對話因素的離場已為人機“對話”埋下更大的社會隱患。因此,若想在智能傳播時代實現自然化的人機語言交互,則需結合對話的真正內涵,掙脫人機語言交互中的“對話”桎梏。
三、“對話”桎梏:人機語言交互中的無言、和聲與失聯
對于智能傳播與語音合成技術而言,需始終強調的是,智能傳播時代中的“一切人造物(包括有形和無形)都是技術……一切技術都是文化”[18]。總的來看,目前有關人機“對話”的關注欠缺涉及社會文化與人類對話本質的“預習”和考量,有關人機語言交互的數字事故正在不斷上演,相關技術的革新難以滿足人類對話主體的其他精神需求。對數字技術的過度迷思和崇拜已然背離了柏拉圖、巴赫金和馬丁·布伯等人對人類對話特性之對話性、辯論性與關聯性的強調。
(一)無言:工具理性影響下的真空式答復
1950年,圖靈在《計算機器與智能》一文中提出用人機“對話”來測試機器的智能水平。針對當前的人機“對話”現狀,不管是任務驅動的限定領域對話系統還是無特定任務的開放領域對話系統,從生成內容來看,機器主體多立于工具理性的視角,陷入真空式答復狀態,輸出失卻“對話性”的淺層語音。這一點尤其體現在以人機合作類視聽節目、AI直播帶貨為代表的一對多式人機“對話”場景中。探討語言與對話,可以通過工具主義理論(工具觀)與建構主義理論(建構觀)兩種視角展開。工具觀對應作為工具的語言與對話,建構觀即認為語言與對話不僅作為某種工具式的衍生品來表象事物,相反,語言和對話構成了事物(包括人在內)的意義和現實性。可見,人類的語言和對話本身具備一定的創造性,且無時無刻不影響著對話的接續展開和話語意義的生成。但當前的人機“對話”多基于工具觀的視角視技術、語言與對話為工具,技術合成語音作為工具的產物,具備明顯的“物”性,與對話中的“人”性——對話性相對立。換言之,正是因為建構性對話的存在,人類主體的對話性才有枝可棲,人類才得以借助對話時刻確證自身的在場。于用戶而言,當前的技術合成語音僅具有直觀、簡單的使用價值(給人提供答復),并無任何引導繼續“對話”的對話結構。該對話結構可類比接受美學所言之“召喚結構”,即在人類的對話中,話語本身就存在或多或少的召喚聽者去對話的欲望和結構,也即巴赫金對話理論的核心——對話的對話性(或可言“可對話”性)。而工具理性的思維和真空式答復的存在則在一定程度上消解了對話的核心特征之對話性。
因此,當前的機器語音更像是一種毫無生機趣味的真空式答復,對話性的因素在其中無法尋找到生存的養料和棲息的空間,機器答復的生成往往直接伴隨著某一話題的中斷,從而使得“對話”的另一方——人被迫陷入“無言”的狀態。例如冬奧數字人“冬冬”在采訪武大靖時,有關“冬奧期間最難忘的事兒”“頭盔上的圖案為什么選擇華夏戰神孫大圣”“金墩墩拿回家會放在哪里”等一系列采訪問題,“冬冬”似乎僅設定了單次問答結構,每當武大靖對一個問題作出簡略且意猶未盡的答復后,“冬冬”卻直接跳轉下一個話題,全然不給對方留下繼續“對話”的機會和空間。與此同時,此類令人“無言”的狀態也直接暴露出了“機器所存在的系統設定的‘自我主義傾向’,此類‘自我主義傾向’也會誘導受眾在工具理性的思維定式中像機器一樣思考,頻繁陷入‘被編程的自我意識’之中”[19]。在這一過程中,人類的對話欲望會越來越小,人對機器的印象也將越來越差。機器的這一傾向不僅是對人類對話的漠視,還會對用戶(人)造成誤導,使得對話中的一切“人”性逐漸被“物”性和“機”性所取代。
(二)和聲:問答關系影響下的自證式陷阱
海德格爾曾在《論媒介》中以“在手性”和“上手性”來剖析技術,并用“顯著性”“突兀性”和“不可回避性”來描述上手之體驗,“在手性”對應工具的用具屬性與故障的發生,技術完美主義則指向“上手性”的狂熱追求。在“上手性”的追求浪潮中,計算機研究人員希望機器完全按照人的模樣去發展(包含人的對話在內),但似乎對于巴赫金所強調的對話結構關系之“同意或反對關系”“肯定和補充關系”以及“問和答的關系”卻存在較為單一片面的理解,使得機器多陷入同意、肯定和答復的狀態。畢竟AI自誕生起就是作為為人提供服務的語音助手而出現,只需針對用戶的問題提供包含肯定和同意傾向的滿意答復。因此,市面上的大部分語聊機器人似乎全然不敢表現出否定和追問的舉止。而僅當機器的答復“在手”時、發生故障時,人才會意識到這一關系的問題所在。也即海德格爾所言,至此,“事物會失靈,會崩潰,它原本順手的、具有上手性的正常功能會被打斷,僅在這時,他才會成為在手的”[20]。
2023年,馬斯克旗下公司xAI推出一款名為Grok的語聊機器人,并聲稱經過訓練的Grok擁有“一點叛逆的性格”,會自主拒絕回答某些不想回答的“尖銳問題”。但盡管如此,X(原名Twitter)上的部分右派人士仍抱怨其不那么叛逆,對部分明顯判斷失誤的敏感問題(如種族歧視、性別歧視等)仍始終附和用戶保持相同觀點。故而目前的人機“對話”更像是一種人對機器的“訓話”,人在潛移默化中將機器圈禁在對自己的肯定與認可當中,從而去掉了機器任何有關異議的傾向。一方面,驅使人類主體在“對話”中陷入一種沒有說服力的自證式陷阱;另一方面,也使得機器主體在發展同意、肯定與答復的“征途”中迷失了“對話”的方向和指引。具體至人機合作類視聽節目中,作為“對話”主體的智能機器似乎是人類對話主體的另一種附庸物,人對機器的過度提問(往往是設問的形式)導致機器之音時刻作為人類語音的某種“和聲”,人對機器的持續訓話使得人機“對話”陷入“異口同聲”的僵局,從而淡化了人類對話特性之辯論性的呈現。例如在人機合作類視聽節目《你好,星期六》(原《快樂大本營》)的元旦首秀中,主持人對數字人“小漾”發出連環設問,“小漾你是我們的實習主持人對不對”“你會努力學習的對不對”“你想學什么呢,是認真學好普通話的態度對不對”[21],一連串的提問直接暴露出機器主體的附庸式存在和人類主體的“自證式”陷阱。
(三)失聯:技術“次反映”下的不對稱現象
由于智能機器的背后依然是人在操作,人與機器之間看似可以搭建起某種對話的橋梁,但是技術始終作為理解人類話語的中介而存在,技術合成語音在本質上不同于人的語詞與對話。而“在某種較難理解的意義上來說,語詞幾乎就是一種類似于摹本的東西”[22]。語言是人類原型的摹本,是人心靈與欲表達之沖動的載體和反映,是理解得以完成的形式。語音合成技術以人類語言為樣本,是人類原型與欲表達之沖動的反映(即語言)的反映(即次反映),遂與真正的語言和對話關聯甚少或者毫無關系。在此前提下,以次反映為特征的語音識別在理解人類對話的過程中引發了“對話”的不對稱現象,從而與“對話”對象和上下文失聯。這一不對稱現象可以類比海德格爾在論媒介時所提出的技術“去遠性”,不對稱現象和“去遠性”的到來在某種程度上意味著與對話特性之關聯性的失聯。
2018年,新華社和搜狗在烏鎮峰會現場發布的全球首個AI主播在交流中誤將阿里巴巴創始人馬云的名字“Jack Ma”誤讀成了“Jack Massachusetts”。原因在于語音合成系統在讀到這部分文字稿的時候,并未聯系現場的對話情景及對話上下文對該詞進行分類,便簡單判斷“MA”兩個字母為美國馬薩諸塞州的縮寫。隨之,以CNN、BBC、The Verge等為代表的國外媒體曾對此進行多番冷嘲熱諷。盡管過去了多年,此類挑戰人類底線的數字事故仍在不斷上演,同時遭到了人類的抵制與反感。2023年5月,超過350名AI行業的高管及行業領袖等共同簽署了一封聯名公開信,懇請社會阻止此類人工智能技術繼續毀滅世界。基于此,目前人機“對話”中的“不對稱”表現主要可以概括為“對話”對象不對稱與上下文不對稱兩個方面。“對話”對象不對稱主要發生在一對多式人機“對話”中。在一對多式人機“對話”中,說話對象的變化影響著“對話”風格的變化,而在目前的人機語言交互中,機器本身面臨“一仆多主”的現狀,智能機器在“對話”中容易陷入“六神無主”和“對空言說”的境地,故多存在言說對象不明確與不對稱的隱患。此外,目前的大部分機器回答多是在問題分類后直接從數據庫中提取,且每次提問均重新重復該過程,較少聯系對話的上下文和對話的情景對容易產生歧義的問題作出分類答復,致使機器生成話語存在言說內容無價值與上下文不對稱的嫌疑。
概言之,由于未理解對話的實際內涵和進入對話的真正狀態,計算機只是在模仿人類的對話行為與形式,“ChatGPT也只是在大數據的基礎上對人類行為進行模仿,但并未真正理解對話的內容和本質”[23]。而若想通過有效的人機交流優化人與人的溝通、深化人與機器和人與人的聯系,則必須持續回望對話本身,借鑒對話的力量賦能人與機器的語言互動,緩解人機“對話”中的一系列技術桎梏。
四、以對話的力量賦能人與機器的語言交互
“智能傳播涉及三種新的人機關系:人機協同、人機交流與人機共生。”[24]智能傳播中的人機交流研究不僅需要創新以自然語言處理和神經網絡分析為代表的技術基礎,還應關注包含對話內涵特性在內的其他“暗物質”補充。即“在思考已有的技術基礎時,計算機科學界研究人機對話應以人類對話為模本,回歸到‘對話’本性的反思上”[25]。盡管按照柏拉圖、巴赫金等人的理解,人機語言交互已然不能發展成為真正的對話,但是人類對話的某些核心特性和對話靈韻亦能為緩解人機語言交互中的問題提供本質上的參考與幫助。
(一)創造對話中的召喚結構
本雅明曾經多次提醒大眾應時刻注意文化的細膩本體,要培養在其具象化的過程中所體現出來的對微小變化具有的敏感性。在此前提下,從細微處著手關注對話的本源、沖動與結構具有深刻的意義。沃爾特·翁曾經提出人類語言的分析性,認為“在一定程度上可以說,一切語言和思想都具有分析性,因為它們把結構緊密的經驗連續體分解開來”[26],也即人類話語本身具備明顯的可分析性,這一分析性會在不知不覺中將聽者帶入一個思考的世界,且因循思考活動的展開催生后續的對話沖動。因此,為改善人機“對話”中的“無言”窘境,可以借鑒學習巴赫金對對話指向和對話性的深入闡釋,從說者對聽者的預測、聽者的統覺背景、尾白三個層面細化對話的內部構成,最終在機器生成話語中創造對話召喚結構,體現人類對話的核心特性之對話性。對話性的指向一定是一個往返程的指向,說者和聽者(可以是機器)在其中應就某一話題來回穿梭、反復“對話”。
首先,應幫助機器加入說者對聽者的預測環節,這一嘗試類似于幫助機器主體構建某種“期待視野”③和預測對話中的“隱含的聽者”,再根據用戶的不同背景切換合適的回答方式和話語效果,且在這一過程中始終保留回答和反駁的“權力”。其次,應補充聽者的“統覺背景”。巴赫金將這一“統覺背景”稱之為“一種指物的表現背景,包含兩個方面:一是社會上各種不同意見、觀點、評價,用各種話語復合而成的對某一事物的指向,或叫定義;二是具體語境中,給定的表述的語言意義,兩者合起來,成為聽者對理解該事物的背景知識”[27]。簡而言之,即通過各類方式擴大對事物和話語本身的理解,通過定義指向和具體語境指向給予聽者更多思考空間和對話空間。最后于尾白而言,巴赫金的原意是指“說者話語中對聽者答話的指向,而聽者的答話是說者話語的銜接”[28]。機器的生成語音既要在一定程度上包含對聽者答話的指向,也要在每一次對人的答復中銜接好人的答話,這樣一種循環的“對話”結構才是完整的“對話”表述。通過對以上三者的思考補充或許可以改善概率化的隱患,優化人機語言交互中的反饋機制,為機器語音嵌入和創造對話中的召喚結構,喚醒聽者(人)的對話沖動,劃破人機“對話”中的真空式答復空間。
(二)構建機器追問的辯論基礎
“當人工智能技術演化為一種非正式權力,甚至有可能透過‘用技術言說’的方式帶來異化時,需通過交往理性與人文價值等正式權力來矯正技術導致的越軌行為。”[29]面對機器對人類對話特性的消解和當前人機“對話”所呈現出來的“和聲”境況,我們可將對話特性之辯論性視為一種抵制易形技術文化的方式,從機器提問和追問的過程中構建人機“對話”的辯論性基礎。需加以說明的是,構建辯論性的前提基礎是發現問題、提出問題,這一聲明要求人機語言交互轉而關注對話結構中的“反對關系”與“補充關系”。強調對話中的辯論性并非引導人與機器陷入人機糾纏甚至是人機對峙的僵局,而是期望通過機器主體的提問反饋激活人機語言交互,避免人們陷入自我言說和自問自答(以設問為主)的尷尬局面。
在伽達默爾眼中,提出問題比回答問題更加困難,提問本身代表著某種話語權的過渡,有效提問意味著有效對話的展開。進入數智時代后,一方面,此處的提問應更多強調機器主體對人的追問,而非任務型提問或設問式提問;另一方面,任何提問和追問都應具有開放性,“提問就是進行開放”[30]。但問題的開放性又非無邊界,其中包含了“由問題視域所劃定的某種界限,沒有這種界限的問題乃是空的問題”[31]。機器提問的開放性和邊界感主要體現在外部知識的輸入輸出上,“被提問東西的開放性在于回答的不固定性,被提問東西必須是懸而未決的,才能有一種確定的和決定性的答復”[32]。伽達默爾所言之不固定性和懸而未決可類比中國傳統美學中的“言外之意”與“韻外之致”。“狀難寫之景,如在目前;含不盡之意,見于言外”。提問中的似說非說之意和意猶未盡之感(與前文所提到的巴赫金所言之“尾白”和“雙邊性”相關聯)亦為持續性的人機語言交互留下了無限的想象空間和“對話”空間。因此,可在智能體的“對話”管理中嵌入“言外之意”的外部知識參數,以此完成提問機會的過渡和提問基礎的構建,收獲自然“對話”的“韻外之致”,體現人類對話的辯論性。與此同時,需要注意的是,在為人機“對話”交換問答角色和補充有關反對、補充和提問的關系結構時,也需要及時規避機器出現“反客為主”的傾向和其他一切越軌行動,避免機器進一步馴化人類主體,奴化人類的“人”的因素。
此外,需要確證的是,即使對技術的極致追求和對機器的人性化完善會給人類帶來一定的威脅與挑戰,但人類始終不能也無法抑制技術的突破,“比野蠻人破壞機器的任何行動更可悲的是野蠻人轉移人類發展動機的威脅……是對于促成主要人類技術成就的無私研究的阻礙”[33]。但是就辯論性本身與智能化程度而言,無論語音合成技術的進化程度如何,人必須比機器更智能、更善辯。“如果人不能夠做到比機器更強的話,那么他就被降格到了機器的水平,就是一個麻木、奴性、卑微的生物。”[34]
(三)優化人機“對話”中的對稱關系
在技術的加持下,“所有的事物看起來都聚得更近了,不過事物的本質……卻更難以觸及了”[35]。面對“人”的因素和“對話”因素的消逝,在智能傳播時代重思巴赫金、伽達默爾及海德格爾等人對語言和對話的研究具有深遠的意義。它能引導人類將反映人性的對話帶到人的身邊,幫助其建立起與對話、與人、與社會之間的聯系。在巴赫金看來,對話指涉相互關系,“言語的語言實際單位不是孤立的個體的獨白,而至少是兩種話語的相互關系,即對話”[36],這一經驗見解也似與馬丁·布伯所言之對話的關聯性不謀而合。就建立關聯性本身而言,機器首先需全方位地理解人類語音,在確保無誤的前提下先與人類話語建立聯系,才能進而與人類本身及與圍繞人展開的社會文化建立親密關系。
針對前文提及的人機“對話”中的不對稱問題,應結合計算機學界與哲學界的同步思考從言說對象和回復內容上優化其中的問題所在。與雙方語言交互相比,多方語言交互中的對象明確更為迫切,以人機合作類視聽節目為代表的多方人機“對話”多存在說話人未明確指定言說對象的問題。因此,可在機器“對話”管理中為其添加對象標簽,在機器生成話語中言明交流對象。顯示說話對象能夠減少歧義的發生,緩解人機語言交互中的對象不對稱的問題。同時可參考部分學者的觀點,“對復雜的多方‘對話’歷史進行結構分離,進而采取有針對性的回復。或將多方‘對話’中的上下文按照‘@’式回復關系,構建成樹狀結構,并將其分割成多個序列組合,再使用言說對象所在的樹狀分支中的回復話語來進行‘對話’”[37]。除此之外,還應結合社會文化的補充鍛造智能機器的文化互動力,幫助機器建立與社會文化的深度鏈接,盡管早期的“產業家和工程師們本身并不相信機器體系具有生活和文化方面的特性”[38],但真正具有永恒價值的收益應當是非物質性的文化元素與文化資源。社會文化是一個復雜的集合體,人類的對話與其他“默會知識”等文化元素已經成為人之為人和對話之為人之對話的本質組成部分。
參考古希臘的理解,人類對話已然成為踐行“認識你自己”的這一忠告的重要場所,只有通過體現對話性、辯論性和關聯性的人機“對話”,才能夠將我們的關系世界同經驗世界聯系在一起,借此縮小人機“對話”和人際對話之間的知識差距,抵御智能傳播中的一系列風險沖擊,深化人與機器、人與人、人與社會文化之間的聯系,實現人機語言交互的自然化發展。
五、結語
海德格爾曾言:“語言可以被視為內在情感的外在表達,一種人類行為。”語言和對話作為一種人類高級智能活動,能夠幫助我們認識某種人之特性的東西。機器與技術合成語音作為人的鏡中映像,永遠是某種虛幻存在。當前的人機“對話”已經發展為一場不可避免且效果難測的世紀探險,伴隨各種智能機器的普及化和人工智能技術的發展,這一探險將對“對話”中的一切“人”的因素造成直接剝削。
在智能傳播的背景下,關注人機“對話”能夠反過來幫助我們認識人類本體。研究機器“對話”主體與人機“對話”,除了可從技術角度切入,拓展人工智能技術的疆域之外,還可從社會文化著手,借助人文主義價值理念重思對話的內涵與核心特征。結合對話特性中的對話性、辯論性和關聯性等本質要求,以創造對話中的召喚結構改善人與機器的“無言”窘境;以構建機器追問的辯論性基礎規避人與機器的“和聲”境況;以對稱關系的優化加深人與機器和人與人之間的密切關聯。
綜而述之,面對新時代下技術與文明的新挑戰,應始終回望“人”的因素及人類對話本身,結合對話特性的思考緩解人機語言交互中的一系列“對話”難題,共創適應時代需求的人機語言交互。
[本文為中國人民大學“雙一流”建設項目“中國人民大學馬克思主義新聞觀研究中心課題”(項目編號:RMXY2021C021)的階段性研究成果]
注 釋:
①四郎即大型清宮劇《甄嬛傳》中的皇帝雍正,是其純元皇后和甄嬛對雍正的愛稱。四郎音即扮演者陳建斌的角色聲音,該角色聲音在自媒體平臺曾引起網友的一度模仿與二創,隨后該音源被錄入各大互聯網平臺,命名為四郎音。
②此處的人機“對話”一詞,實際上是計算機學界對“對話”一詞的誤解和借用(抑或是誤用),與文中的“人機語言交互”屬同一意思。另外,還有部分學者以人機交流一詞解釋人機對話和人機語言互動,實際上也稍有不妥。但為了便于理解,自第二部分開始,涉及機器主體的分析部分多采用計算機學界常用的人機“對話”一詞描述“人機語言交互”。
③“期待視野“和“隱含的讀者”的概念由接受美學代表姚斯提出,主要針對文本閱讀活動。期待視野即依據之前的審美經驗、素養趣味等綜合形成的一種潛在的審美期待。隨后的“隱含的聽者”借鑒了“隱含的讀者”的概念,隱含的聽者即在語音生成之前,說話主體所預設的可能或應該出現的聽者,并在其說和聽的全過程中納入對這一聽者的考慮。
參考文獻:
[1]方興東,鐘祥銘,顧燁燁.從TikTok到ChatGPT:智能傳播的演進機理與變革路徑[J].傳媒觀察,2023(5):39-47.
[2]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯書店,1994:18.
[3]巴赫金.陀思妥耶夫斯基詩學問題[M].白春仁,顧亞鈴,譯.北京:生活·讀書·新知三聯書店,1988:252.
[4]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯書店,1994:3.
[5]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:328.
[6]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:328.
[7]俞凱,陳露,陳博,孫鍇,朱蘇.任務型人機對話系統中的認知技術:概念,進展及其未來[J].計算機學報,2015(12):2333-2348.
[8]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:334.
[9]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯書店,1994:21.
[10]巴赫金.陀思妥耶夫斯基詩學問題[M].白春仁,顧亞鈴,譯.北京:生活·讀書·新知三聯書店,1988:344.
[11]孫先科.說話人及其話語[M].上海:上海文藝出版社,2009:6-7.
[12]錢中文.文本對話與人文[M]//巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:208.
[13]錢中文.文本對話與人文[M] //巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:207.
[14]馬丁·布伯.我與你[M].徐胤,譯.天津:天津人民出版社,2018:29.
[15]錢中文.文本對話與人文[M] //巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:213-214.
[16]趙陽洋,王振宇,王佩,楊添,張睿,尹凱.任務型對話系統研究綜述[J].計算機學報,2020(10):1862-1896.
[17]Joseph Weizenbaum.“ELIZA-AComputer Programme for the Study of Natural Language Communication Between Man and Machine”[J].Communications of the ACM,1966,9(01):36-45.
[18]何道寬.媒介環境學辨析[J].國際新聞界,2007(2):46-49.
[19]高貴武,趙行知.進化中的異化:人工智能主播的言說之窘[J].傳媒,2023(4):12-14.
[20]戴維·J.貢克爾,保羅·A.泰勒.海德格爾論媒介[M].吳江,譯.北京:中國傳媒大學出版社,2019:127.
[21]劉亞龍.從人機對話走向數智對話:AI主播的對話策略與跨界實踐分析[J].視聽界,2023(2):44-46+54.
[22]Walter J.Ong.口語文化與書面文化[M].何道寬,譯.北京:北京大學出版社,2008:103.
[23]馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT:人機對話的里程碑及啟示[J].語言戰略研究,2023(2):20-24.
[24]彭蘭.從ChatGPT透視智能傳播與人機關系的全景及前景[J].新聞大學,2023(4):1-16+119.
[25]張帆.人機對話系統的困境與解決[J].哲學分析,2022(6):124-134+193.
[26]Walter J.Ong.口語文化與書面文化[M].何道寬,譯.北京:北京大學出版社,2008:103.
[27]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯書店,1994:41.
[28]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯書店,1994:42.
[29]高貴武,趙行知.進化中的異化:人工智能主播的言說之窘[J].傳媒,2023(4):12-14.
[30]漢斯-格奧爾格·伽達默爾.真理與方法哲學詮釋學的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:471.
[31]漢斯-格奧爾格·伽達默爾.真理與方法哲學詮釋學的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:472.
[32]漢斯-格奧爾格·伽達默爾.真理與方法哲學詮釋學的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:471-472.
[33]劉易斯·芒福德.技術與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業出版社,2009:266.
[34]劉易斯·芒福德.技術與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業出版社,2009:284.
[35]戴維·J.貢克爾,保羅·A.泰勒.海德格爾論媒介[M].吳江,譯.北京:中國傳媒大學出版社,2019:21.
[36]錢中文.巴赫金全集:第2卷[M].石家莊:河北教育出版社,2009:460.
[37]Zhang H,Chan Z,Song Y,et al.When less is more: using less context information to generate better utterances in group conversations. [C].In Proceedings of the 7th CCF International Conference on Natural Language Processing and Chinese Computing,Hohhot,2018(08):76–84.
[38]劉易斯·芒福德.技術與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業出版社,2009:282.
作者簡介:高貴武,中國人民大學新聞與社會發展研究中心研究員、新聞學院視聽傳播系主任,教授、博士生導師(北京 100872);劉亞龍,中國人民大學藝術學院藝術傳播與管理方向碩士生(北京 100872)。
編校:董方曉