
比接到騷擾電話更煩人的是什么?是接到了來自AI的騷擾電話,讓你即便想吐槽,想表達不需要,都沒有機會,因為你無論如何表述,對面的機器人都異常冷靜,不悲不喜。
不知從何時起,AI電話外呼已經蔓延到了各個行業。與傳統電話外呼模式相比,AI電話效率更高且成本更低,因此近年來在國內外都發展迅猛。
在國外,AI電話不僅頻頻被用于詐騙,而且今年恰逢美國大選年,一些別有用心之人會用AI模擬名人聲音,為候選人“助選”。
AI電話來勢洶洶,面對這一監管難題,各方都在加速頒布各項法規,以期能規范以AI電話為代表的AI行業發展。今年8月起,歐盟《人工智能法案》正式生效,旨在解決公民健康、安全和基本權利面臨的潛在風險,明確了開發人員和運營者關于人工智能特定用途的明確需求和義務。
不久前,美國聯邦通信委員會(FCC)也公布了新提案,希望再次擴大對電話相關的AI技術監管范圍,要求相關公司必須披露在短信和電話中使用AI的報告;在此之前,FCC已禁止了在針對消費者的自動語音電話中使用語音克隆技術。
從技術角度而言,AI電話呼叫并非什么高科技。早在1950年代,美國的泛美航空就已經建立起了全世界首個具有一定規模的呼叫中心。如今的AI電話呼叫則是在原有呼叫中心的技術基礎上,搭載了多項人工智能技術的產物。
從技術角度來看,在呼叫和篩選層面,AI能力往往體現在從眾多的客戶信息中,篩選出更有觸達價值的客戶—但這需要足夠的數據,相關算法也并未開源,因此在實際操作中,不少電話呼叫往往并不篩選,而是選用更為簡單的或按區域/號段,或根據具體名單呼叫的方式。
從使用場景來說,AI電話在國內主要應用于告知客戶優惠信息、回答常見問題、處理投訴等情況,在這過程中會與客戶產生一定量的對話,因此就會用到自動語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)等多項AI技術。這些技術經過多年的發展已經相對更為成熟,市面上也多有低價甚至免費的解決方案。
簡單來說,一次完整的AI通話包括以下幾個步驟:在電話接通的一瞬間,用戶最先聽到的是TTS技術制作的AI語音,如果用戶在此時對語音做出了回應,AI就會調用ASR和NLP技術,以便能聽懂客戶的回復并得出回話的文字內容,再通過TTS制作成為語音內容進行回復,從而實現與人類進行語音對話。
雖然描述比較復雜,但在實際應用中,這些技術通常都能在較短時間內響應,只要用戶回復不是過于復雜,AI基本能做到及時回復,這也是為什么一些初次接到AI電話的用戶,往往并不能識別出電話那頭是AI而非真人。
不過,以目前的技術成熟度而言,大部分AI電話并不能完全理解較為復雜的對話,這也是為何哪怕有用戶耐心回答完AI的所有提問,AI電話往往也是以“稍后會有負責人與您聯系”作為結尾。
與國內的AI外呼目前多用于銷售相關場景不同,歐美的AI外呼往往與詐騙關聯度較高,不少名人也是受害者。據英國《金融時報》報道,全球最大的廣告傳播集團WPP首席執行官馬克·里德,被使用語音克隆的騙子盯上了,騙子從網上獲取到了馬克詳盡的語音和視頻資料,通過AI進行了“克隆”,從而以電話或視頻方式試圖詐騙WPP的合作方。
從技術層面來說,這些騙子是在AI外呼的基礎上,額外搭載了歌聲合成(SVS)和歌聲轉換技術(SVC),即通過AI將一段人聲音頻轉換為另一種聲線。地圖軟件里的明星虛擬導航員、此前異常火爆的AI翻唱,大多都是應用了這類技術。

AI能力往往體現在從眾多的客戶信息中,篩選出更有觸達價值的客戶。
極低的成本,是AI外呼行業能夠迅速擴大規模的原因之一。以某搜索引擎中搜索結果排名前列的一家電話呼叫平臺為例,該平臺客服表示,其AI外呼平均每天可以撥打800—1200個電話,不僅相當于3—5名員工的工作量,而且365天全年無休,3%左右的獲客率,也略高于人工外呼。
此外,該AI還可以配備多套話術,并提供全程電話錄音,200元即可支持1800分鐘通話時長,平均算下來每分鐘不過0.11元,價格遠低于人工客服。
之所以價格如此低廉,也與AI行業的技術下放有關。AI外呼電話在通話過程中所需要用到的各項技術,頭部AI廠商均提供了免費的接口。
以ASR為例,科大訊飛、OpenAI、網易、騰訊等均有自己的語音識別系統,科大訊飛更是早在2017年就開放了自家語音識別接口,可供用戶免費或者付費使用。

GPT-4o平均短至0.32秒的響應速度,已與人類反應時間不相上下。
又如NLP,無論是阿里巴巴等互聯網企業,又或是清華大學自然語言處理與社會人文計算實驗室等研究機構,都有自己的NLP模型和開源項目;而微軟開源的TTS技術,早就被各類營銷號和諸如“3分鐘看完一部電影”等自媒體所熟練掌握。
即便是大廠并未提供免費使用的技術,網上也有不少技術大牛熱衷于分享開源代碼,試圖教會網友。
今年5月,OpenAI發布了一則視頻,演示了該公司旗艦大模型GPT-4o。在視頻中,GPT-4o能夠像真人一樣和人類進行視頻通話,不僅能用語音準確回答提問,還能通過攝像頭看懂人類究竟在做什么。
GPT-4o平均短至0.32秒的響應速度,已與人類反應時間不相上下,應答過程中的表現,也與真人更為接近,這一技術顯然是對現有AI電話能力的全面覆蓋與升級。
雖然此后OpenAI并未正式上線這一大模型,但其在視頻中展示的功能,卻在今年7月被機器學習工程師出身的科技博主Santiago給成功“仿制”,并將代碼無償分享給了所有人。
Santiago在教學視頻中表示,他所用到的大模型,均為ChatGPT、谷歌Gemini等企業現成的AI模塊,無需太多專業知識也可掌握。
考慮到AI行業仍處于高速發展期,AI技術也在不斷迭代升級中,舊有技術也會不斷下放,普通人可以輕松掌握的AI技術只會越來越多。
某互聯網頭部企業AI算法工程師曉晨告訴《看世界》,據他了解,專注于AI電話領域的大公司不算多,市面上大多數AI外呼平臺都是中小型企業,這些企業用到的技術是相對低端的免費技術,所以可能會呈現出答非所問或響應時間過長的情況,這也是消費者對AI電話深惡痛絕的原因之一。
技術本無罪,熱衷分享的互聯網精神,也是科技進步的動力之一。但當一些心懷不軌之人盯上了這些技術利用AI作惡時,合理的監管就必須被提上日程。從全球范圍來看,如何監管AI電話,無疑是一大難題,往往是按下葫蘆浮起瓢。
去年底,美國新罕布什州發生了多起利用AI語音克隆技術誘騙選民投票的案件。為此,今年2月,FCC通過了相關法案,禁止在AI電話中使用包含語音克隆的內容—但這一禁令并未限制AI智能回復和使用錄音,公司可以通過提前錄制大量錄音,或語音剪輯等方式,來繞過禁令。

為此,FCC在7月公布出了一份新的提案,要求呼叫者必須明確披露自身使用了AI技術,且需在消費者知情并同意接收AI電話的情況下方可撥打。而如果呼叫中包含AI語音,則呼叫方必須在每次呼叫開始時,明確告知接聽者該呼叫正在使用AI技術。目前,這一提案正在審查中,尚未正式實施。
8月起,歐盟《人工智能法案》正式生效,作為全球首部全面監管AI的法規,該法案無疑是歐盟在規范AI方面的重要舉措,但仍有一定的局限性:美聯社指出,該法案的限制會分布推進,大部分內容最晚至2026年8月才開始實施,相關企業有2年左右的緩沖期,企業在執行細則方面仍有溝通空間。
與歐美情況不同,曉晨認為,在國內,令人煩擾的AI電話與其說是AI技術作惡,不如說是信息泄露和對高頻次呼叫限制不足導致,畢竟AI外呼平臺用到的技術并不高級,監管層面幾乎不可能對這些最底層技術一禁了之。
面對層出不窮的AI電話,他建議消費者可以采用手機自帶或第三方攔截工具進行攔截,又或者嘗試開啟手機里的AI通話助理功能—不過他也坦陳,這些工具并不能完全阻截騷擾電話,只能說是治標不治本。
盡管國內外消費者對AI電話觀感都不佳,但并不妨礙這一行業高速發展。美國市場研究公司Grand View Research發布的《AI呼叫行業趨勢報告》指出,截至2022年,全球AI呼叫市場規模為13.8億美元(約合人民幣98.9億元),預計2023—2030年,將以23.1%的復合年增長率增長。
如何監管這一龐大的行業,無疑是對相關部門智慧的又一次考驗,畢竟,任何科技進步的出發點,都該是更好地造福人類,初心是為人類提供精準服務的AI呼叫,不該淪為遭人白眼的代名詞。
(文中曉晨為化名)
責任編輯 吳陽煜 wyy@nfcmag.com