【摘要】口語傳播是人類傳播活動中歷史最悠久、最基本、最靈活的傳播形態和傳播手段,同時也是一切人類傳播行為的基礎和人機相區別的重要標志。隨著傳播技術的發展,語音合成技術對人聲的模擬激發了人們對人機對話之維的探討。在新的技術環境下,合成語音“言為物聲”的生成邏輯不能顛覆人類口語“言為心聲”的傳統,我們亟須從人文主義的立場出發重思口語傳播的概念及本質,重申對人及人的精神世界的尊重。
【關鍵詞】技術合成語音 口語傳播 言為心聲 精神交往
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2025)5-073-09
【DOI】10.13786/j.cnki.cn14-1066/g2.2025.5.009
口語作為人類最早的傳播手段和人類精神生命的實體,自始至終具有屬人的性質,“數萬年來,一項專屬于智人的超能力就在于能夠使用語言”。[1](177)隨著傳播新質生產力的發展,以語音合成技術為代表的新技術一方面加速了人類的生活進程,另一方面又試圖將人類逐出口語智慧的伊甸園。在既往的口語傳播中,傳播的主體僅為人類主體,傳播的所有的環節皆是由人到人,而語音合成技術的到來使得非人的機器在某種程度上逐漸成為“言說主體”,增加了從人到機器再到人的傳播環節,使人與機器之間有可能建立起某種虛擬的親密關系,甚至開始影響人的判斷、選擇與主體意識?!澳硞€非人類的、高深莫測的機器完全了解如何以遠超人類的效率來運用人類的弱點、偏見與癖好,而且也能創作各種悠揚旋律、科學理論、技術工具、政治宣言,甚至宗教神話。”[1](178)這一對人類未來圖景的描繪是否真的會成為現實?新技術的發展對人的口語及口語傳播將產生何種影響?口語傳播專屬于人的本質是否會發生改變?由一系列擔心衍生出的此類問題是口語及口語傳播學術研究無法回避的議題。
近年來,有關技術合成語音與人機對話的文獻日益豐富,但涉及口語傳播的研究反而日漸式微,口語與非口語的邊界愈加模糊不清。在沃爾特·翁之后,基于自然語言處理、神經網絡分析和大數據等技術的發展,以羅伯特·洛根為首的一批學者相繼提出“數字口語”與“數字口述”的概念,國外更有學者將“‘數字口語’所具有的知識交流形式的獨特‘紋理’稱之為‘大數據’”,[2]且認為“大數據對Web 2.0時代的敘事實踐做出了獨特的貢獻,為知識的敘述提供了一種獨特的紋理,這種紋理可以理解為‘數字口述’”。[3]“數字口語”或“數字口述”等概念的出現“不僅顯現出媒介技術更新的結果,還普遍性地反映了對現代主義文本感知的語言挑戰”。[3]因此,如何對新技術條件下的口語及口語傳播做出新的理性回應,便成了包括語言學界和傳播學界在內的學術界不得不正視和亟待解決的問題。只有重新審視新技術環境下口語及口語傳播的本質,透析新技術對口語傳播的實在影響,找到口語傳播在新技術環境下的發展進路,才能重新撿拾和突出人類的言說智慧,精心守護人類言說的精神家園,并反向審視和推動合成語音的健康發展。
一、技術合成語音:新技術發展背景下的“物的言說”
2023年9月,ChatGPT-4.0版本更新語音功能,通過新型文本轉語音模型和語音識別系統,實現了“聽”和“說”,并擁有高度人格化的聲音特質,再次激起了人們對人機對話之維的探討。當大多數人都在為ChatGPT非凡的對話能力或歡呼或驚恐的時候,也有學者冷靜地指出:ChatGPT只是“在大規模數據的基礎上對人類的語言行為進行模仿,并沒有真正理解聊天的內容”[4]和聊天的本質。質言之,關于人工智能語言的研究在落地實施的過程中,缺失了對口語能力與人類心智的哲學問題的關注。
語音合成技術即“利用電子計算機或其他裝置模擬人說話的技術,主要包括從文本到語音和語音轉化兩種技術路線,經典的語音合成系統一般由特征分析提取、聲學模型、聲碼器三個模塊構成”。[5]目前,這項技術在大眾傳播領域主要廣泛應用于新聞播報、節目配音、視頻配音、語音交互等多個領域,其“常見的語音合成方法有拼接法、參數法、統計參數法以及深度學習法等,其中拼接法和參數法也被稱為傳統語音合成方法”。[6]縱觀語音合成技術的發展歷程,最早的語音合成技術始于20世紀50年代,主要依賴于模擬方法。及至20世紀60年代,數字化的語音合成技術得到新的發展,語音信息的處理能力才得以大幅提升。21世紀以來,得益于計算機深度學習技術的發展,語音合成技術的能力飛速提升,如2010年,科大訊飛研發出首個基于深度學習的語音合成系統——“訊飛語音合成技術”;2019年,百度推出“百度超級語音合成技術”,其可以生成個性化語音;2023年12月,清華大學計算機系朱軍教授課題組發布基于薛定諤橋的語音合成系統,實現了從數據到數據的生成范式。未來,伴隨5G技術和人工智能技術的發展,語音合成技術將會覆蓋有關廣播電視與網絡視聽的更多領域,與此同時,技術合成語音與人類口語及口語傳播之間的關系也將變得更加復雜。
口語,即口說之語,作為一種社會化的語言,常常需要依托真實的社會場景,強調對話主體間的聲隨人動、聲隨心動、聲隨情動等?!罢Z言(口語)是人類展示自身的最自然的表達方式,計算機人員將這種交流方式擴展到計算機應用中。”[7]在數智化浪潮席卷的當下,由于受到人工智能技術的影響,一方面,口語在言說主體角色、功能等方面出現了更為多元的情況;另一方面,以語音合成技術為代表的計算機科學技術亦引發了人類口語傳播中“人形”“人性”與“人情”的分崩離析,具體表現為片面追求“人”的抽象在場和“人”的語言功能呈現?;蛟S正是因為技術的工具屬性以及技術背后是人的緣故,才有學者依此特征將技術合成語音定義為“數字口語”。人們對技術合成語音和所謂的“數字口語”進行了多番討論,如前文提及的羅伯特·洛根盡管曾在沃爾特·翁的基礎上進一步將人類口語劃分為原生口語、次生口語和“數字口語”,[8]但是“沒有人深入闡釋口語的概念特征或將‘數字口語’的動機與對人類口語的影響進行比較研究”。[9]這使人們不能不開始思考:技術合成語音能否算作真正的口語以及口語傳播的實質和格局是否會發生新的變化?畢竟,所謂“物的言說”和“技術的言說”正不斷打破對口語及口語傳播的既有認知,這促使學人不得不重思口語傳播的概念與邊界。
二、言為心聲:口語及口語傳播的本質
口語傳播亦被稱作言語傳播、口頭傳播、溝通交際等,通常指以言說(即主要使用口頭語言)為介質而進行的傳播。口語傳播的學理雛形最早可追溯至古希臘的“智辯士”,西方一般稱之為“言說的藝術”或“說服的藝術”,后經中古世紀文藝復興,啟蒙時代理性主義、實證主義等學說沖擊,才逐漸形成一個跨語言學、傳播學、心理學、社會學、人類學等學科的交叉領域。亞里士多德在《解釋篇》中指出:“口語是心靈經驗的符號,而文字則是口語的符號?!盵10]麥克盧漢亦表示:“口語是最早的技術,憑借這一技術,人類用一種新的方法去擺脫環境以便于去掌握它?!盵11]中國口語傳播的學理史同樣可以溯源到先秦時代諸子百家中的論辯術,成文于南北朝時期的《文心雕龍》更明確提出“發口為‘言’,屬翰曰筆”,[12](387)即張口說話就是言(偏向口語),書寫出來就是筆(偏向文字),且“文字與它指代的事物本身是互相分離的”。[13]口語及口語傳播在中國雖有著悠久的歷史,但成文的口語傳播概念最早是在21世紀初經由中國臺灣地區學者翻譯而來的。參考秦琍琍等人在《口語傳播》一書中對口語傳播的定義,口語傳播是“回歸到以人為主的傳播研究,無論溝通的中介或是媒介為何,溝通的主體都是人”。[14]
自進入數智時代以來,尤其是受到人工智能技術的沖擊后,既有的口語傳播概念是否仍適用于新的技術環境?新的技術合成語音及人類口語傳播的發展方向是什么?這些問題都亟須回答,而要回答這些問題則需要重新追溯口語及口語傳播的誕生、發展與核心本質。
1. 口語及口語傳播產生的社會條件是人的社會性和精神性需求
如前所述,口語傳播起源于上古修辭學,看重的是傳播主體之間的面面相視與口口相傳,“人類口語的自然生態是面對面的互動,其中包括大量多模態信號的交換”。[15]在口語傳播的既有思想史中,口語更多地體現為一種社會化的語言,尤其強調口語言說中“某些聲音代表著某些思想情感”,[16](90)且明確揭示“語言是從勞動中并和勞動一起產生出來的,這個解釋是唯一正確的”。[17]原始社會時期并未形成較為系統、具體的傳播體系和人類語言,我們的祖先憑借身體本能,以肢體語言、遠古的勞動號子(未成熟的某種原始語言)等實現簡單的信息傳遞和口語傳播。隨后,在人們的需要和人們借以獲得滿足的活動形式進一步發展了以后,“人們就對這些根據經驗已經同其他外界物區別開來的外界物,按照類別給以各個名稱”,[18]這標志著正式化的人類語言與口說之語的誕生。除勞動需要外,人與人之間的社會交往需求也是口語誕生的推動力之一,語言同意識一樣,只是“由于和他人交往的迫切需要才產生的”。[19]
中國古代的《毛詩序》中早已有言:“情動于中而形于言。”[20]《禮記·樂記》亦有所謂“凡音之起,由人心生也。人心之動,物使之然也。感于物而動,故形于聲”[21]的說法?!段男牡颀垺分幸苍撌觯靶纳粤?,言立而文明,自然之道也”[12](2)以及“夫情動而言形,理發而文見”。[12](253)古人的論斷皆從不同側面言明了口說之語的誕生,及其與人類情感傳遞間的關系,意即語言的產生源于人類的思想情感,文字的書寫則基于人類語言的形成。正因如此,語言才被認為是“思想的直接現實”,[22](525)具有明顯的思想性、情感性、精神性。
2. 從原生口語、次生口語到技術合成語音的口語傳播演變
美國學者沃爾特·翁曾在《口語文化與書面文化》一書中對人類口語傳播的歷史作出劃分,并區別出了原生口語文化與次生口語文化。原生口語文化即人類在觸及文字之前的文化,沃爾特·翁“將毫無文字或印刷術浸染的文化稱為‘原生口語文化’”。[23]原生口語時代的口語及口語傳播依托毫無文本的原始生態,跟隨人的思維、情感發展而暗自涌動,再經由人體器官分離出語言表達傾向,最后言之于口。次生口語是基于文字和印刷術的口語文化,雖仍屬口語,但其表達不可避免地帶有濃厚的書面語特征。原生口語與次生口語區別的關鍵在于是否受文字影響和主導,受文字影響和主導的口語即可初步斷定為次生口語。以沃爾特·翁為代表的20世紀的諸多學者及其研究成果在很大程度上發展了關于語言(口語)和語言使用(口語傳播)的高度抽象的理論,但其主要基于書面語料庫,忽略了對整個口語世界本身的思考,[24]當然也欠缺對數字時代下技術合成語音與口語本質的考究。技術介入后,沃爾特·翁的口語內涵界定及推演邏輯局限更是顯而易見,原生口語的樣例以史詩為主,日常交談并不在論述范疇中,界定口語表達的視點單一,而“次生口語文化”將與交流對應的電話納入其中,在概念內涵上與傳播學保持一致的同時,論述外延卻依舊停留在文藝學領域。[25]基于此,技術合成語音是否仍屬口語或具備口語屬性,沃爾特·翁的前序界定并不能構成理論推演的絕對參照。國外有學者曾將此類技術語音定義為“數字口語”,認為數字化的口語以聲音為核心,具有還原性,同時兼顧數字化表達方式,是基于原生口語和次生口語既有慣例及傳統的延伸。[2]可見,有關技術合成語音是否可以劃歸口語陣營的問題仍有待斟酌,技術合成語音或許僅能作為人及口語表達的“鏡中映像,永遠是某種虛幻存在”。[26]但數字技術影響下的口語傳播研究仍舊延續了口語的中心取向,關注口語文化的主體性和結構化背景。[27-28]
自20世紀50年代起,語音合成技術的到來及其發展剝離了口語及口語傳播中的“意會神交”“心領神會”等精神交往內涵,使得此時的對話不再作為真實的對話和口語,而是遠離言說主體(人)的仿真對話,成了一種物質化的感覺與技術化的語音。盡管技術合成語音的背后依舊有人(技術工程人員)在操作,但是經由語音技術合成的聲音確乎不再屬于人,失去了本文前面所提的口語的誕生條件,因此該類聲音雖然聽上去仍是人聲,但實際上只是一種數字化的聲波存在,與真正意義上的口語確已相去甚遠。
3. 言為心聲是口語及口語傳播的核心本質
著名符號學家索緒爾曾提出:“語言是一種表達觀念的符號系統,因此比之于文字、聾啞人的字母、象征儀式、禮節形式、軍用信號等等,它是這些系統中最重要的?!盵29](24)因此,就其功能本質而言,口語更多是一種“行動方式”或“思想符號”,而非一種通信反應抑或物質信息。且此處的“行動方式”更多與具備自主行動能力的生命主體關聯,如人類及動物等,通信數據反應則指向對通訊信號產生反饋作用的一切存在物,例如數字人、人工智能等。雅克·德里達指出:“純粹的表達性將是一種‘意謂’的純粹主動意向(精神、心理、生命、意志),這個‘意謂’使一個其內容將要在場的話語富于生命力?!盵30]德里達的闡釋說明,一切話語均來自活生生的有機體內部,均具有明顯的生命屬性和動態活力。由此,口語及口語傳播的第一個本質屬性便在于其由生命主體自然生成。喬姆斯基與亞里士多德的共識之一在于,“將‘人類語言’視為人類所獨有的、其他物種不具備的功能”。[31]參考上述觀點,口語傳播的第二個本質不言自明,即口語傳播是專屬于人類的言說活動,是以人為主的傳播活動,其溝通主體永遠是人,語音合成技術只能是對人及人之口語的模仿。在沃爾特·翁對兩種口語的劃分中,口語的主體都是具有生命實體的人,這與技術合成語音有著本質的區別。正如沃爾特·翁在《口語文化與書面文化》中所梳理的口頭傳統和口語文化的九大特征之五——“貼近‘人’生世界”,在原生口語時代里,技能和傳統的傳承無文字依傍,只能靠言者(人)與聽者(人)通過演示和口授的辦法來傳承,且口語傳播活動尤其強調信息反饋與互動的主體相關性、時間相關性與地點相關性。對照口語傳播的第二層本質,已能較為明確地區分早期學者口中的人類傳播(口語傳播)與動物傳播。此外,語言及口語既是人類心靈的直接反映,也是“情感的直覺造型”。[16](79)人作為口語傳播活動的主體,其口語傳播內容具備強烈的情感色彩,且傳播內容皆是人類心靈的“符號性創造”和“情感性創造”,因此,“言為心聲”是口語傳播的第三個本質。而語音合成技術則更多關照聲音的物質屬性,呈現出“言為物聲”之勢,背離了人類口語的核心本質。一言以蔽之,伴隨著語音合成技術與人工智能技術的發展,人類需要時刻關注口語傳播的發展走向,警惕因技術發展所導致的對口語及口語傳播的背離與“誤傷”。
三、言心分離:技術合成語音對人類交往的影響
技術合成語音與口語傳播分屬不同的知識領域與生產模式,“這兩種知識生產模式之間存在著令人不安的區別”。[32]如前所述,口語傳播強調以人為直接參與主體,合成語音則以人的數字化聲波作為學習對象。鑒于國內外學者對技術合成語音的迷思和對“數字口語”等概念的倉促誤用,本文選擇對技術合成語音與口語及口語傳播進行比較研究,即為了辨析兩者之間的區別,探究口語發展過程中導致兩者產生本質差異的關鍵因素,從歷史發展的角度認識口語及口語傳播的本質,避免對其產生誤讀與“誤傷”。依前文對口語及口語傳播的內涵本質的觀照,合成語音其實就是要將口語中與人性相關的一切剔除在外,優先追求聲音的功能屬性與物質屬性,這實際上已經背離了人類口語關注生命主體心靈與身體以及口說之語“言為心聲”的核心本質。在此基礎上,語音合成技術所導致的全物質化聲音的生成,造成了人類語言(口語)與人體在時間和空間上的分離,對口語傳播中的人及人的精神交往或許會造成潛在傷害,并可能導致人類主體最終在口語傳播中消逝,從而背離口語傳播的原意。
1. 語言的物質性與物質化的語言
西方學界曾反復探討“物質性”一詞,語言領域尤以馬克思主義論者和語言學者為代表。在語言的物質性與物質化的語言層面,人類原本的語言、文字及錄音錄像表現出程度遞增的物質性,而合成語音則走向了一種完全物質化的可理解之音。索緒爾將語言分為三個層次,“里層是他假設的抽象的、非物質性的形式原則(‘語言’),中間層是介于抽象與具體之間的表現手段(語音和書寫),外層是具體呈現出來的語音和書寫(‘言語’)”。[33]據此可知,外層物質性是決定語言是否物質化的直接因素,而中間層的物質作用方式、里層與生命主體的關聯則是影響口語屬性的關鍵。
人類原初的語言由生命主體自然生成,以聲波為物質性基礎,體現為一定類型的智力活動?!罢Z言是構成思想的器官。智力活動完全是精神的和內在的,一定程度上會不留痕跡地逝去,這種活動通過聲音而在言語中得到外部表現,并為感官知覺到。”[34](65)“透明”的聲音在意義建構中使主體和符碼無限靠近,口語的表征(語音、語調、語氣)與意識情感直接相關。文字到來后,聽覺系統被視覺系統所取代,一方面意味著聲音物質性(聲波)的消失,另一方面體現著書寫符號和書寫材料物質性的誕生。而作為對生命主體聲音的物質性記錄、留存和轉譯,錄音錄像技術生成的聲音物質性已不同于語言自然生成之時,是以技術產物為中介的物質性。不論是留聲機時期的錫箔、蠟制圓盤、槽紋,磁性錄音時期的磁粉,或是光學錄音階段的感光材料,以及數碼錄音階段的數字信號、模擬音頻電流抑或聲卡處理后的數字序列等,均構成了聲波傳至受眾之前的媒介物,這表明技術化背景下口語傳播所歷經的中間環節漸趨繁復,物質層級有所增加。而技術合成語音則全部通過技術手段加工生成,完全由非生命主體自然生成,雖在物理性上(聲紋)與某些生命主體有一定的相似性,但從言說主體、言說行為再到言說結果來看,已與生命主體之間實無任何相關的物質性,而是完全成了物質化的聲音存在。
因此,技術合成的完全物質化的語音已不能再稱之為口語,正如文字(同樣是物質化)不能再被稱為口語一樣,書寫后的文字只有讀者所賦予的意義,雖與言者存在一定關系,但僅從文字無法判斷言者的主體性存在,實際上也就割斷了與言者的關系,此時此景正如巴特所指的“作品誕生,作者已死”。而合成后的語音,雖然有聲音,但也僅是文字意義上的聲音化處理,此時的聲音即便具有某些言者的聲紋特征,也跟言者主體沒了任何關系,實際上是一種完全物質化了的語音,已完全消解了口語及口語傳播應有的社會性和精神性意義,因此同樣不能再稱之為口語及口語傳播,此情此景,如果再度化用巴特的話來說,則是“作品誕生,沒有作者”。
2. 技術發展及口語與人體的三次分離
考察傳播歷史中的口語發展不難發現,時至今日,隨著文字、電話和錄音錄像設備以及語音合成技術的出現,人類的口語及口語傳播實際上已經與人體之間至少發生了三次在時空上的分離,并使人類的言說出現了從“言而無聲”到“言為人聲”再至“言為物聲”的變化。口語與人體的第一次分離顯然是由于文字的出現。文字只是一種記錄,是以視覺符號的方式保留了口語的內容,“有聲的表達是一種對心靈的體驗的顯示,而文字則是一種對聲音的顯示”,[35]布龍菲爾德認為“文字并不是語言,而只是利用看得見的符號來記錄語言的一種方法”。[36]因為其打破了言說行為中身體和口語之間的基本關系,已經失掉了口語的所有聽覺意韻,因此文字不能再被稱為口語,分離后的語言(文字)之于言者而言便是“有言而無聲”??谡Z與人體的第二次分離乃是由于電話機、錄音機和錄像機的發明使用,前兩者保留了口語的聽覺部分,錄像機則在一定程度上實現了視覺和聽覺的統一。盡管如此,這種分離之后的語言仍與言者有一定的關系,即此時被保留的聲音確是某時某地某言者的口說之語,是言者言說的物理或數字化保存,并未改變口語的本質,這在一定程度上可稱之為“言為人聲”。
口語與人體,即言與身的第三次分離則由語音合成技術所導致。通過文本分析、聲學模型構建和波形合成方式,語音合成技術最大程度地實現了擬合人聲,例如導航軟件中的語音韻律遷移技術即是通過有限量的音頻采樣輸入,抽象人聲的要素特征,包括音色、音高、音調、頻率等,進而對文本形成基于采樣特征的音頻播報。[37]隨著技術的發展,語音合成對真人數據的依賴逐漸減弱,目前基于深度學習的語音合成已經可以通過神經網絡訓練直接將文本轉化為語音波形,模擬人聲變化規律,并不需要提前錄入真人數據。人在言說中的主體地位被機器所取代,人類由言說前臺轉向技術訓練后臺,這種聲音不管是即時生成還是生成之后的留存,都與聲音特征(聲紋)指向的言者沒有任何具身關系,此時的聲音完全是一種僅具聲紋特征的物理聲音,即純粹的“言為物聲”。目前被大量運用在行車導航和語音客服中的技術合成語音即屬此類。
口語傳播的核心始終是人,身體既是言說主體也是傳播媒介。語言產自身體并抵達身體,[38]身體將口語傳播劃定在人的范疇和人類身體之中。因此,口語必須與人體相關聯,且不能與意識、社會和心靈相分離。語言與人體的分離表面上看僅是語言與言者身體之間的分離,實則體現的是語言與人的精神世界和情感世界的分離,即語言與心的分離,是語言的完全物質化,而在這一點上,技術合成語音已經與語言誕生時的“言為心聲”的本質正式分道揚鑣了。
3. 技術合成語音對人類精神交往的潛在傷害
“語言是一種精神勞動……這種精神活動的目的是相互理解?!盵34](57-58)人與人之間的對話不僅體現為語言與語言的交往行為,更體現為一種思想與思想間的精神層面的交往?!袄斫庋哉f,不僅要關注口語傳播層面上的訴說與對話行為,還應站在公共信任、意會神交等角度理解‘精神交往’內涵?!盵39]人的思想始終棲居在語言里,文字的出現在一定程度上已削弱了口語表達的音律神韻,消解了人類口語表達的積極性、創造性和能動性。語音合成技術一旦對人類口語表達形成侵占與替代,則無疑會使人的精神世界變得更加空虛、更加黯然。2024年年初,中國社科院社會學研究所、騰訊研究院、騰訊SSV時光實驗室聯手發起一項名為“人情味”的小實驗,有關“大模型是否與老年人交心”的研究表明,在樣本容量n=149的前提下,初體驗前有66%的人表示想與它聊天,初體驗后僅有32%的人表示想再跟它聊天。[40]造成這一現象的根本原因在于當前的語音合成技術未能幫助人類從機器體系中提取到充分的有關“人情味”或精神情感(孤獨或欣慰等)本身的東西,以供言者去觀看、去觸摸、去共情、去交流。語音合成技術僅是物質與物質之間的通訊信號的感應與連接,合成語音的出現打破了主體間的精神互動和人類社群的構建,破壞了人與人之間的“眉目傳情”與“心領神會”。另外有學者曾采用腦電技術通過一系列實證試驗,探究合成語音與真人語音的不同傳播效應和用戶體驗,并最終得出結論:“真人語音比合成語音在情緒喚起和創造性思維活動上更具優勢……人們對于真人語音的認知負荷相對較高,即會調用更多認知資源,聯想參與度更高?!盵41]這再次佐證了“理解口語需要將模棱兩可的聲學流轉化為從音素到意義的表征層次結構”,[42]即應重視口語中有關知覺感知、精神交往、意義生成和情感參與的部分,而不能囿于語音的合成和音色的形似。
四、精神交往:回到口語及口語傳播的原點
由技術引起的疑慮與困境顯然不能只通過發明更多的技術來解決,而是應該重新探索某些技術之外非物質性的、人文性的存在。相較于技術合成語音,口語及口語傳播是具有正常生理機能的人所表達出的“心聲”,口語傳播是以口說語言,即口語,作為重要的載體而在傳播主體(人)與客體(人)間進行的“心與心”的交流??谡Z及口語傳播作為人類精神內容的傳達方式,其以有聲語言和非語言因素為主要媒介,經由心口耳等器官為人的生命活動服務,體現的是人的感官知覺性和交往媒介的精神性和社會性。
1. 體現人的感官知覺性
《文心雕龍》有言:“夫耳目鼻口,生之役也;心慮言辭,神之用也?!盵12](373)言說作為人的生命活動之一,專于耳目口心的配合,強調視覺、聽覺等其他知覺體系的協調統一。正如前文所述,“發口為‘言’”,只有經過人之口而言說的內容才能在一定程度上被稱為口語,人的發聲器官與喉舌齒唇等賦予了人類口語的第一屬性——語音屬性。中國早期的歌謠、論辯、游說等均是口口相傳,作為較直觀、原始的口頭傳播活動而存在,人們通過這種口耳相傳的方式傳達信息、傳遞情感。王先謙《莊子集解》有云,“古書先口授而后著之竹帛,故云然”,[43]強調的亦是文字與竹帛出現之前,口語傳播活動與人類口耳等知覺感官的緊密關聯。現代語言學之父索緒爾也曾明確強調“人們發出的音節是耳朵聽到的音響印象,但是聲音沒有發音器官就不能存在”。[29](15)技術體系似乎天生帶有一種“反知覺的傾向”,“技術合成語音在其表現的沉默中是獨一無二的,因為文本沒有轉換為聽覺領域”。[9]技術工具的出現只能輔助人類延伸其知覺能力,而不能直接取代或“殘害”人的知覺感官,弱化甚至消解人在社會交往中的人與人之間知覺感官間的互動。
技術與機器的創新不應成為言說者逃避復雜視聽、麻痹知覺等切身體驗的中輟路徑,經由語音合成技術生成的語言一旦取代口語的本質內涵,言說者將真正淪為“死亡的作者”,人類的身體感官機能也必將隨之退化。在口語傳播中,一旦言說者耳口鼻心等器官的重要性被弱化,人最終將會被機器所同化,甚至被機器主體名正言順地替代。因此,作為言說主體的人不該在是否將技術合成語音視為口說之語上心有猶疑,而必須在傳播過程中體現人的感官知覺性,使人實在地靠耳聆聽、靠口發聲、靠心去感受,甚至是靠肢體去觸摸,去確認主體(人)與主體(人)間的相互存在。言說主體只有借助合成語音來更好地理解真正的口語,關注“言為心聲”與“言為物聲”之間在更多維度上的細微差別,并對這些人機之差做出及時反應,才能進一步培育人的感官知覺性,并將言說者(人)的一切天賦和能力釋放出來。
2. 作為人類精神的傳達方式
漢代揚雄在《法言·問神》中指出:“故言,心聲也;書,心畫也?!盵44]明確表示言語是心靈的聲音,書寫或文字只是心靈的圖畫?!段男牡颀垺分袆t有著“聲萌我心”和“內聽之難,聲與心紛””[12](299)的說法,亦明指聲音(口語)濫觴于心。馬克思更是直接強調“語言是思想的直接現實”,[22](525)言語中的語流乃是思想流的直接對應物,語言、思想與現實三者在馬克思主義語言觀的概念中始終是辯證統一的。索緒爾曾反復提醒人們應時刻注意口語的首要地位,在他看來,“言語(口語)卻是個人的意志和智能的行為”。[29](22)陳力丹在《精神交往論:馬克思恩格斯的傳播觀》中的《交往媒介》章節中曾明言,“語言是除了人體以外的人類精神交往最早的也是基礎性的交往媒介”,[45]強調的亦是口語作為人與人交往和社會勞動產物的性質??谡Z傳播表現的是言者與聽者間的一種密切交互關系,口語信息包含即時情境,是對話性、互動性的交際信息與行為,[46]需要對話雙方身心層面的接近。由此可見,口語無論如何都不是一種機械化的、無溫度的、純物理性的純物質,而是一種動態的、鮮活的、融匯著言說者思想之流與情感之流的“心聲”。人類的口語及口語傳播活動既需要持續而深入的理性思辨,也需要“意會神交”式的感性直覺。
“氣以實志,志以定言”,[12](255)人依靠氣質充實情志,情志繼而確定語言。聲音作為言說者呈現心靈映像的關鍵,言說者的口說之語無時無刻不與其心靈及情性相關。對于區別于合成語音的口語傳播而言,傳達心靈與其精神意涵不僅是形成聲音的原初目的,更是新技術環境下回歸口語傳播本質的必然要求。因此,口語及口語傳播應作為人類心靈與精神意涵的傳達方式,時刻回望口語傳播“言為心聲”的言說本義。
3. 體現交往及媒介的社會性
“語言是屬于社會現象之列的,從有社會存在的時候起,就有語言存在。”[47]“語言本身是一定共同體的產物”,[48](489)恩格斯亦把語言知識視作人們交往的杠桿所在。具體而言,語言的形成肇始于人與人之間的精神交往與社會勞動,它必然存在交往與勞動中的社會屬性,僅是“孤立的個人……不可能會說話”,[48](483)其必須作為交往間的產物與社會屬性掛鉤,“把語言看作單個人的產物,這是荒謬絕倫的”。[48](489)人類語言既是人類精神交往的最早媒介和最基礎媒介,也是人與人、人與社會交往的直接動力,它必須攜手言說者的人格底色,體現交往的社會性。語言從誕生起就不可能也無法拒絕因交往和勞動所賦予的社會屬性。發聲后的語音一旦進入變動中的社會,便會再次受到社會文化的影響,形成新的口語與口語文化,體現新的社會屬性,這也是沃爾特·翁在《口語文化與書面文化》一書中對原生口語文化與次生口語文化做出區分的關鍵依據與原因所在?!翱谡Z文化能夠反映知識傳播的時代性特征,技術為知識傳播提供可能,而口語決定了傳播的形式與靈韻”,[2]語言不僅在風格、內容、形式、意蘊等方面會隨著社會的變化而變化,人類口語的變化本身在一定程度上就可直接被視為社會變化的縮影。正所謂,“言語活動有個人的一面,又有社會的一面;沒有這一面就無從設想另一面”。[29](15)只有社會才是語言形成的母體,語言作為社會的“產兒”無法也不可能隱去與社會文化的“血緣”關系。
為避免因技術合成語音的泛濫而可能造成的人類視聽覺等官能的互動中輟和人類精神世界的凋敝,在新的技術環境下,口語與口語傳播的發展必然要借助人與人之間的精神交往與言說主體的人格賦能。作為物格的對應物,人格反映的是人的獨特性,多體現為獨立之人格和自由之精神。人格的形成具備顯著的社會屬性,人格之形成覆蓋人類本能、人類語言能力、人類心智等多個方面,主要受到集體無意識、遺傳因素、生活環境、自我認知、社會文化等多方影響。語音合成言說主體不可能存在真正的人格或人格性,因而也就無法實現人與技術以及人與人之間的精神交往,也無法體現交往媒介的社會性。從人類口語的誕生到口語與口語文化的發展,口語與口語傳播始終不能逾越社會屬性的框架,而必須體現語言作為交往媒介的社會性。因此,只有關注社會的全貌和精神交往情況,將口說之語視為人類與外界交往的產物和對社會作出反應的各種經驗,回到口語及口語傳播“以人為本”的原點,才能應對以合成語音為代表的多重技術挑戰。
結語
言說者(人)的口說之語自誕生起就帶有強烈的社會屬性與精神屬性,口語傳播的核心本質便在于由生命主體自然生成,是專屬于人類的言說活動,且始終強調“言為心聲”的言說本質。如直接將技術合成語音等同于人類口語的組成之一或其他形式變體,其最終導致的結果就是:口語傳播活動中人及“人的因素”的離場。此一離場并非僅是人的肉身及人聲在口語傳播交流物理空間上的缺席,其實質乃是對彰顯主體間性的口語對話及其精神交往維度的消解。當非人的言說主體能夠通過海量數據學習和模擬人類口語的韻律與情感時,恰恰是因為模仿,使本是發自人的心靈和映射人類精神活動的口語被降維成可計算、可復制的通信表意符號,僅僅成了一種聲音的物理性存在,言說也就被降格為海德格爾所言之“持存物”(Bestand)的生產過程。由語音合成技術所制造的有聲言說因其標準化、復制化、物質化的聲波特性,實則已經消弭了口語傳播中不可替代的具身體驗與情感體驗,甚至剝離了人類言說主體自誕生以來的部分“集體無意識”與口語經驗積累。與此同時,盡管人類口語與技術合成語音分屬于不同的體系與范疇,但正如劉易斯·芒福德所言:“機器體系的成功反而加強了對于機器體系所不包含的價值觀的認可——不是來源于機器體系,而是來源于生活的其他領域的價值觀。”[49]參照口語傳播的誕生條件與核心本質,新技術環境下的合成語音雖然不屬于口語及口語傳播的范疇,但卻可以從另一個側面來促使人們反觀口語及口語傳播的真正價值。語音合成技術對口說之語的物化,實際上是對口語傳播中生命主體(人)在場性的潛在銷蝕,挑戰且違背了自古以來口語傳播“言為心聲”的旨歸。
面對技術與文明的新沖擊、新挑戰,言說主體必須始終站在人道主義和人文主義的立場上,堅持人作為言說主體的不可替代性,回到口語及口語傳播的原點,重新認識口語及口語傳播的本質和優勢。惟其如此,人類的口說之語或許才能始終作為人類精神內容的傳達,體現人的感官知覺性和交往媒介的社會性,真正體現其作為口語的本性與本質,也才能有效適應新的技術環境,使得技術發展持續回歸服務人性的價值坐標。
參考文獻:
[1] 尤瓦爾·赫拉利. 智人之上[M]. 林俊宏,譯. 北京:中信出版集團,2024.
[2] Papacharissi, Zizi. The unbearable lightness of information and the impossible gravitas of knowledge: Big Data and the makings of a digital orality[J]. Media, Culture amp; Society, 2015(7): 1095-1100.
[3] 翟羽佳,趙英喬. 次生口語的學理邏輯與傳播形態:從Web2.0到Web3.0[J]. 現代傳播,2024(6):148-157.
[4] 馮志偉,張燈柯,饒高琦. 從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J]. 語言戰略研究,2023(2):20-24.
[5] 楊帥,喬凱,陳健,等. 語音合成及偽造、鑒偽技術綜述[J]. 計算機系統應用,2022(7):12-22.
[6] 張小峰,謝鈞,羅健欣,等. 深度學習語音合成技術綜述[J].計算機工程與應用,2021(9):50-59.
[7] Akcay M B," K. Speech emotion recognition: Emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers[J]. Speech Communication, 2020(116): 56-76.
[8] 何道寬. 羅伯特·洛根:麥克盧漢思想圈子碩果僅存的跨學科奇人[J]. 國際新聞界,2018(9):166-176.
[9] Soffer O. \"Silent Orality\": Toward a Conceptualization of the Digital Oral Features in CMC and SMS Texts[J].Communication Theory, 2010(4): 387-404.
[10] 亞里士多德. 范疇篇 解釋篇[M]. 方書春,譯. 北京:商務印書館,1986:55.
[11] 埃里克·麥克盧漢,弗蘭克·秦格龍. 麥克盧漢精粹[M]. 何道寬,譯. 南京:南京大學出版社,2000:273.
[12] 王運熙,周鋒. 文心雕龍譯注[M]. 上海:上海古籍出版社,1998.
[13] 崔林. 媒介進化:沉默的雙螺旋[J]. 新聞與傳播研究,2009,16(3):42-49,107-108.
[14] 秦琍琍,李佩雯,蔡鴻濱. 口語傳播[M]. 上海:復旦大學出版社,2011:4.
[15] Holler J, Levinson S C. Multimodal language processing in human communication[J]. Trends in Cognitive Sciences, 2019(8): 639-652.
[16] 余秋雨. 藝術創造學[M]. 武漢:長江文藝出版社,2013.
[17] 馬克思,恩格斯. 馬克思恩格斯全集:第20卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1971:512.
[18] 衛志強. 馬克思恩格斯列寧斯大林論語言[M]. 北京:中國社會科學出版社,2015:1.
[19] 馬克思,恩格斯. 馬克思恩格斯文集:第1卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,2009:533.
[20] 毛萇. 詩序[M]. 上海:商務印書館,1937:1.
[21] 張樹國. 中華傳世經典閱讀·禮記[M]. 青島:青島出版社,2009:164.
[22] 馬克思,恩格斯. 馬克思恩格斯全集:第3卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1960.
[23] 沃爾特·翁. 口語文化與書面文化[M]. 何道寬,譯. 北京:北京大學出版社,2008:11.
[24] Daniel C. O'Connell, Kowal S. Orality and literacy in public discourse: An interview of Hannah Arendt[J]. Journal of Pragmatics,1998(5): 543-564.
[25] 皮楠楠. 沃爾特·翁“原生口語文化”的概念外延及適用性探賾[J]. 新聞界,2022(10):86-96.
[26] 高貴武,劉亞龍. 重思對話:智能傳播背景下人機語言交互中的“對話”賦能[J]. 新聞愛好者,2024(7):8-15.
[27] Soffer O. Liquid language? On the personalization of discourse in the digital era[J]. New Media amp; Society, 2012(7): 1092-1110.
[28] Soffer O. From textual orality to oral textuality: The case of voice queries[J]. Convergence, 2020(4): 927-941.
[29] 索緒爾. 普通語言學教程[M]. 高名凱,譯. 北京:商務印書館,2009.
[30] 德里達. 聲音與現象[M]. 北京:商務印書館,2010:46.
[31] 邱雯. 亞里士多德的語言哲學[M]. 石家莊:河北人民出版社,2017:26.
[32] Royston R A. Podcasts and new orality in the African mediascape[J]. New Media and Society, 2023(9): 2455-2474.
[33] 李永毅. 索緒爾符號學的解構之維[J]. 外國文學評論,2014(1):229-239.
[34] 洪堡特. 論人類語言結構的差異及其對人類精神發展的影響[M]. 姚小平,譯. 北京:商務印書館,1999.
[35] 海德格爾. 在通向語言的途中[M]. 孫周興,譯. 北京:商務印書館,2015:242.
[36] 布龍菲爾德. 語言論[M]. 袁家驊,等,譯. 北京:商務印書館,1980:22.
[37] 百度地圖定制語音包:AI新技術帶來新體驗——百度AIG資深用戶界面設計師董騰飛專訪[EB/OL].[2024-04-05].https://mp.weixin.qq.com/s/MELXKi4NEpOzokkMNme5eA.
[38] 陳翔. 論媒介系統與身體之關系——基于A.哈特的“媒介系統論”[J]. 西南民族大學學報(人文社會科學版),2012(9):159-162.
[39] 高貴武,趙行知. 進化中的異化:人工智能主播的言說之窘[J]. 傳媒,2023(4):12-14.
[40] 加入AI向善語料庫共創,給AI來一點人情味兒[EB/OL].[2024-09-09].https://www.tisi.org/30229/.
[41] 馮菲,王文軒,修利超,等. 冷熱媒介:合成語音與真人語音的不同傳播效應——基于EEG的實驗證據[J]. 新聞與傳播研究,2020(12):5-20,126.
[42] Heilbron M, Armeni K, Schoffelen J M, et al. A hierarchy of linguistic predictions during natural language comprehension[EB/OL].[2024-12-02].https://www.biorxiv.org/content/10.1101/2020.12.03.410399v4.
[43] 劉武. 莊子集解內篇補正[M]. 北京:古籍出版社,1958:138.
[44] 揚雄. 法言[M]. 韓敬,譯注. 北京:中華書局,2012:126.
[45] 陳力丹. 精神交往論:馬克思恩格斯的傳播觀[M]. 北京:中國人民大學出版社,2016:55.
[46] Yeganeh H. Orality, literacy and the \"great divide\" in cultural values[J].International Journal of Sociology and Social Policy, 2022(5/6): 564-582.
[47] 斯大林. 斯大林選集:下卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1979:514.
[48] 馬克思,恩格斯. 馬克思恩格斯全集:第46卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1979.
[49] 芒福德. 技術與文明[M]. 陳允明,王克仁,李華山,譯. 北京:中國建筑工業出版社,2009:237-238.
Speech Being the Voice of the Object or Speech Being the Voice of the Heart? Redefining Speech Communication in the Age of New Technology
GAO Gui-wu1,2, LIU Ya-long3,4(1.Research Center for Journalism and Social Development, Renmin University of China, Beijing 100872, China; 2.School of Journalism and Communication, Renmin University of China, Beijing 100872, China; 3.Research Center for Audio-Visual Communication, Renmin University of China, Beijing 100872, China; 4.School of Journalism and Communication, Tsinghua University, Beijing 100084, China)
Abstract: Speech Communication is the longest, most basic, and most flexible form and means of communication in the history of human communication. It is also the foundation of all human communication behaviors and an important symbol of human-machine differentiation. The simulation of human voice by speech synthesis technology has stimulated people’s exploration of the dimensions of human-machine \"dialogue\". In the new technological environment, the generation logic of synthetic speech, \"speech being the voice of the object\", cannot overturn the traditional human oral principle of \"speech being the voice of the heart\". It is imperative to reconsider the concept and essence of speech communication from a humanistic perspective, reaffirming respect for human beings and their spiritual world.
Keywords: technology-synthesized speech; speech communication; speech being the voice of the heart; spiritual communication
(責任編輯:呂曉東)
作者信息:高貴武(1971— ),男,寧夏中衛人,中國人民大學新聞與社會發展研究中心研究員、中國人民大學新聞學院教授、博士生導師,主要研究方向:視聽傳播與社會文化;通訊作者劉亞龍(2000— ),男,湖南常德人,中國人民大學視聽傳播研究中心研究員、清華大學新聞與傳播學院博士研究生,主要研究方向:視聽傳播與媒介文化。