艾文偉 胡 湲 陳悅勤 李 喆 滕 靖
(1. 上海軌道交通運營管理中心, 200070, 上海; 2. 同濟大學道路與交通工程教育部重點實驗室, 201804, 上海;3. 同濟大學上海市軌道交通結構耐久與系統安全重點實驗室, 201804, 上海∥第一作者, 高級工程師)
智能語音技術,又稱為智能語音人機交互技術,是以語音作為主要的信息載體,使機器具備能說會聽、學習思考的能力,從而實現人類與機器之間類似人類互相之間的自然語音交互過程[1]。城市軌道交通車站的乘客問詢量非常大,客運服務(以下簡稱“客服”)人員承擔著高強度、超負荷的服務工作。將智能語音技術應用于城市軌道交通客服中,采用語音機器人替代部分的人工服務,可以大幅節省人力資源,顯著提升城市軌道交通客服的效率和服務水平。因而,在城市軌道交通行業引入并推廣智能語音技術,建設智能的客服系統,具有重要意義。
作為目前人機交互最重要的方式之一,智能語音交互技術的發展可以通過兩方面來衡量:一是軟件性能的提升,二是與硬件的結合。智能語音技術主要包括語音識別、語音合成和自然語言處理等三個方面。
語音識別技術被認為是2000—2010年間信息技術領域十大重要的科技發展技術之一[2]。語音識別技術是將聲音轉換為文字的技術,涉及前端識別處理,主要包括噪聲消除、身份識別、智能打斷等。最早的基于計算機的語音識別系統是由貝爾實驗室開發的[3]。19世紀60年代,人工神經網絡被引入到語音識別中,該時代的兩大技術突破是線性預測編碼和動態時間規整技術[4]。語音識別技術的最重大突破是隱馬爾科夫模型的應用[5]。在學者Baum提出的相關數學推理以及學者Labiner等人的研究成果基礎上,卡內基梅隆大學的李開復第一個實現了基于隱馬爾科夫模型的大詞匯量語音識別系統——Sphinx[6]。2012年,隨著卷積神經網絡投入應用,語音識別的準確率有了大幅提升。
語音合成技術是將文字轉為聲音并輸出,目前這項技術已較為成熟。語音合成的發展經歷了機械式語音合成、電子式語音合成和基于計算機的語音合成等發展階段[7]。語音合成方法的分類存在差異,目前主流的、獲得多數認同的分類是將語音合成方法按照設計的主要思想分為規則驅動方法和數據驅動方法兩種。語音合成涉及的各個方法并非完全獨立,近些年來研究人員將各種方法進行取長補短并整合。其實現算法主要包括波形拼接——PSOLA算法、STRAIGHT算法、限制玻爾茲曼機算法和深信度網絡算法等。
語音合成分為前端和后端。前端是涉及自然語音處理較多的部分,即文本處理部分[8]。它對句子進行分詞、標音、標韻律等操作,生成包含分詞結果、韻律、音素等的標注文件。后端則是聲學處理,利用標注和語音進行語音信號處理、建模,產生最終的語音文件。多數在語音合成中所做的努力都集中在后端,而合成的前端技術亟待取得進一步的突破。
自然語言處理屬于認知智能范疇,包含詞法分析、句法分析和語義理解三個層面。其中,語義理解涉及知識庫的構建、語音語言學、數據分析挖掘、算法建模、海量詞匯熱點檢索、自主學習等技術,目前仍處于淺層處理的階段。
以語音交互技術為核心的人工智能產品正逐漸被應用于各大領域,包括在移動設備、汽車、家居等C端的應用,以及在客服、教育、醫療、金融等B端的應用。例如,科大訊飛開發的智慧法院庭審系統、智慧醫療等系統,通過智能語音技術的應用,在一定程度上替代了人工服務,提升了工作效率和服務水平。
伴隨著我國移動互聯網的迅猛發展,以及智能語音助手應用的不斷發展,我國的智能語音市場規模得以進一步提升。截至2018年,我國智能語音市場的規模達到了160億元。以下對智能語音在各行業客服中的應用情況進行簡要梳理。
國外不少機場和航空公司在地面客服中引入了語音機器人。如日本東京羽田機場的機器人“佩珀”精通日語和英語,其語音識別系統可以通過語音識別,自動選擇相應的服務語言。
在我國軌道交通領域中,合肥地鐵添置了語音自助售票機,乘客可以通過觸發語音按鈕實現出行導航、站點定位、票價咨詢、換乘查詢等功能;鄭州地鐵引進了機器人“晶晶”;廣州地鐵引進了智能機器人“YoYo”。這些智能機器人可以通過語音交互提供簡單的問詢服務,包括換乘路徑、線網首末班車查詢、出入口公交信息查詢等。
在金融行業,智能語音質檢系統的應用實現了工作人員與客戶通話內容的全量轉寫,以及利用關鍵詞檢測、靜音檢測、語速檢測、情緒檢測等功能,構建質檢規則,可對工作人員的業務能力、服務態度等進行全面質檢,并提供標準的話術支持。該技術在銀行方面的應用案例較多。如浦東發展銀行信用卡中心的可視化質檢系統利用語音分析技術,將運營工作中積累的大量有業務價值的客服語音數據轉化成文本,并對文本進行了深入的數據挖掘和分析,從而可以快速發現有問題的錄音,提高客服檢測質量的工作效率,加大語音客服質檢的威懾力。應用此系統后,質檢員的工作效率較應用前提升了近2.2倍,質檢覆蓋率較應用前提高了60倍,客戶滿意度得以顯著提升。
歐美的大型電信公司、主要商業銀行、航空公司,其呼叫中心均是智能語音技術的應用者,近80%的企業用戶對智能語音系統感到十分滿意或滿意。支付寶熱線目前已經用純語音交互流程全面代替了傳統的按鍵流程,智能語音客服會根據用戶的描述判斷用戶的意圖,可為不同需求的用戶提供快速的直達服務,或向用戶直接推送自助解決方案。一旦發現用戶問題屬于緊急問題,則將問題直接轉給對應業務線的人工客服予以處理。
城市軌道交通客服主要由車站客服和熱線服務兩部分組成。目前城市軌道交通的客服主要依靠人工來完成,存在著工作量大、服務質量難以控制等問題。智能語音系統可在一定程度上彌補人工服務的不足,為乘客提供高效率、高質量的服務。本文梳理了智能語音技術在城市軌道交通客服中的功能需求框架,如圖1所示。
圖1 城市軌道交通語音客服系統的功能需求
目前,城市軌道交通車站客服主要通過人工實現。車站為乘客提供的客服主要包括問詢服務和票務服務。其中:問詢服務為乘客提供出行咨詢和車站相關服務釋疑;票務服務則為乘客提供與票卡相關的服務。
乘客在車站內需要的問詢信息及票務服務內容如圖2所示。總體來看,常態的服務工作主要是為乘客提供出行路徑、列車線路等信息;在非常態情況下,則需要為乘客提供實時的線路、列車、替代出行方案等信息服務,以及退票、發放致歉信等票務服務。
圖2 車站客服的工作內容
相應地,車站客服的智能語音應用需求可劃分為智能問詢服務和智能票務服務兩方面。
3.1.1 智能問詢服務
車站的智能問詢服務可以分為常態和非常態兩種情況。常態情況下的問詢服務是指列車、車站正常運營情況下向乘客提供的問詢服務,主要包括列車運行信息和出行路徑指引信息、站內空間布局和服務設施位置信息、車站周邊地理信息和換乘交通信息等內容;非常態情況下的問詢服務是發生列車延誤、突發大客流等異常情況時為乘客提供的問詢服務。非常態情況下乘客需要的問詢服務信息通常集中在列車延誤時間、后續列車運行間隔、站臺擁擠情況、其他線路運行信息等方面。經調查,上海軌道交通乘客在非常態情況下車站主要問詢服務信息需求的比例如圖3所示。在智能語音技術應用的初期階段,智能問詢服務應能滿足常態情況下的乘客問詢服務需求。
圖3 非常態情況下車站乘客問詢信息比例分布
3.1.2 智能票務服務
車站票務服務同樣分為常態和非常態兩種情況。常態下乘客的票務服務需求主要是購票、票卡充值及異常車票的處理。以上海軌道交通為例,目前乘客可通過自助售票機、人工售票、手機應用等多種渠道購買車票;而對異常票卡的處理(如卡內余額不足、進出站異常等)則需要人工完成。非常態情況下,車站票務服務還需要增加發放致歉信等功能。在智能語音技術應用的初期階段,智能票務服務應能滿足常態下語音自助購票需求以及異常票卡的自助處理需求。
軌道交通熱線客服的工作可以分為兩個部分,即通過客服熱線為乘客提供服務和對客服人員服務質量的監測評估。
3.2.1 軌道交通服務熱線的服務內容
根據服務內容的不同,軌道交通熱線服務可分為咨詢、求助、表揚或投訴、建議等4個類別。
1) 咨詢類熱線。指乘客通過電話及其他方式詢問與軌道交通相關的信息。咨詢類熱線的常見內容包括:① 與列車相關信息,包括列車首末班車、列車運行狀況等;② 與車站相關信息,包括車站內部設施及周邊信息、換乘路徑信息等;③ 與公交卡相關信息,包括票卡種類、票價、票卡的充值及維修、退卡、優惠活動等;④ 條例及規章制度信息,包括軌道交通管理條例的攜帶物品規定及其他信息等;⑤ APP(應用程序)使用的相關信息,包括APP的操作方法、異常問題處理方法等。
2) 求助類熱線。指乘客通過熱線及其他方式向軌道交通運營企業尋求幫助。求助類熱線的常見內容包括尋人、尋物,或尋求其他幫助等。
3) 表揚、投訴類熱線。指乘客通過電話對列車運營、車站設施、車站環境、人員服務等進行表揚或投訴。
4) 建議類熱線。指乘客通過電話為軌道交通運營提出建議。常見的建議內容包括服務設施改善、列車運能提升等。
目前城市軌道交通人工客服熱線的工作流程如圖4所示。乘客通過電話接入熱線客服中心,工作人員首先詢問乘客需求,然后根據乘客所需的信息內容分類創建工單,并為乘客提供信息服務;需要分發至其他部門的工單,在人工審核后分發至相關部門,用以解決乘客反映的問題;在問題解決并反饋于乘客后,通過人工確認的方式完結工單。運營單位的客服部門會定期抽檢接線人員的通話錄音,對工作人員的通話態度是否良好、是否符合標準、用語是否文明等進行評估,并將通話服務的改進意見反饋至工作人員,至此熱線服務的整個工作流程結束。
圖4 軌道交通人工客服熱線的工作流程
3.2.2 軌道交通服務熱線的功能需求
熱線服務對智能語音技術應用的需求主要包括智能客服功能和智能質檢功能兩方面:
1) 熱線的智能客服。熱線的智能客服系統需要具備的基本功能包括:① 自助語音服務。通過智能語音為乘客提供自助服務,提供簡單問題的解答方案,如咨詢類問題;② 語音識別轉成文字。將通話音頻內容自動轉寫生成文字,實現語音內容全面覆蓋;③ 自主創建工單。根據乘客自助語音錄音或工作人員人工通話內容,自主創建熱線工單,省去人工創建工單的過程。此外,智能語音技術還應具備檢查工單內容是否完整的功能。當工單內容不完整時,可通過智能語音或文字提示工作人員的方式進一步完善工單;④ 方言和外國語識別。需要兼顧滿足普通話、方言和主要國際語言的識別功能,為乘客提供自助語音服務或為工作人員提供文字提示,幫助工作人員理解乘客語義,提升工作效率。
2) 熱線的智能質檢。熱線的智能質檢需要具備的基本功能包括:① 內容檢索。可通過指定關鍵詞對待質檢語音進行檢索,實現低成本、高效率的質檢目的。如可以設置話術用語、禮貌用語、禁忌語等關鍵詞來實現語音質檢;② 情緒分析。通過分析接線人員的語氣、語調等信息,實現對接線人員情緒波動情況的識別;③ 語速分析。對接線人員的通話語速進行檢測。可根據話術,設定完成時間,幫助接線人員客服控制語速快慢,以到達令客戶舒適的應答語速;④ 靜音分析。可根據坐席是否及時應答、業務是否熟練,以及等待時間長短等信息來檢測通話的有效時長,以此分析接線人員業務熟練情況、服務態度等;⑤ 統計分析報告。根據通話質檢結果自動生成每個接線人員的工作表現統計分析報告,為接線人員績效考核、工作改進提供定量參考依據。
上海軌道交通積極將智能語音技術應用到客服中,通過與高技術開發企業、大學合作,在車站語音購票機、車站智能服務終端及智能語音熱線系統等方面進行了探索。
車站語音購票機支持乘客通過與購票機對話來完成車票的購買,從而替代了傳統的觸摸操作,避免了因對購票機不熟悉導致車票購買困難的情況。語音購票機通過智能語音交互系統、智能呼叫系統以及智能對話分析系統等實現了語音購票功能。其功能框架如圖5所示。
語音購票機首先通過設置于機器上方的攝像頭和麥克風采集用戶的語音和視頻信息;然后在工控機上做噪聲消除處理,得到清晰的用戶語音數據,并將語音數據送到云端服務器進行語音識別、語義理解和地圖查詢;最后將得到的用戶目的地、目的車站、換乘路徑等數據列表通過串口發送給購票機主機。
圖5 車站語音購票機功能框架
如圖6所示,智能語音購票機同時支持語音輸入和手動輸入兩種輸入方式,并可輸出模糊搜索和精確搜索兩種查詢結果。當輸入的地點不是具體的軌道交通站點時,系統會進行模糊搜索,提供相近的軌道交通站點供乘客選擇。當輸入的地點是確定的軌道交通站點時,系統則直接返回乘客選擇的軌道交通站點。
a) 語音激活界面
b) 模糊查詢界面
c) 拼音查詢界面
乘客可通過與車站智能服務終端的對話來完成信息的查詢,其替代了傳統的人工問詢,在提高信息查詢準確性的同時減少了工作人員的工作強度。車站智能服務終端的系統框架如圖7所示。
圖7 車站智能服務終端的系統框架
在采集信息和處理信息的技術流程上,智能服務終端與智能語音購票機相同。在信息輸出時,智能服務終端將得到的用戶目的地、到目的地的步行路徑等數據列表通過串口發送給終端主機,并通過語音播報的方式反饋給用戶。
此外,車站智能服務終端采用了免喚醒的技術,可以實現乘客走來即說功能,使得各種背景的用戶無需學習,方便使用。同時,通過和地圖系統的結合,用戶可在三維地圖中直觀了解到具體的路線,如圖8所示。觀看路線信息時,系統還提供了放大和多視角展示功能。
智能語音熱線系統是運用智能語音交互技術,將語音轉換為文本,送入智能客服系統,匹配知識庫后將輸出文本合成語音,輸出給用戶,從而完成智能語音交互。智能語音熱線系統通過用戶意圖識別和多輪對話等特性,在與用戶交互中可觸發函數請求從而實現具體的業務交互。智能語音熱線的系統框架如圖9所示。
智能語音熱線系統的呼叫中心是基于云端服務的呼叫中心,可以借助該服務以更低的成本獲得更可靠和更靈活的熱線服務,從而提升服務質量。云呼叫中心配備了交互式語音應答(IVR)和自動呼叫分配(ACD)技術,并具有大量提升效率的應用,如簡單易用且功能強大的商業智能和靈活多變的客戶關系管理(CRM)集成方式等,可以實現智能質檢的全覆蓋。
智能語音熱線系統是基于智能語音識別和對話進行技術分析的。電話接入后先智能語音識別,再進行智能對話分析服務,然后根據分析結果自動回答乘客問題或轉人工服務。因而,基于智能規則的智能對話分析服務可實現從對話錄音或者對話文本中分析對話內容,從而挖掘出對話中可能存在的問題。該系統既能幫助提升接線人員的服務質量,也能在監控輿情風險、優化服務策略等方面發揮作用。
a) 站內設施查詢
b) 站外地點查詢
c) 換乘路徑查詢
圖9 智能語音熱線系統框架示意圖
城市軌道交通是城市的公共交通窗口行業,客服具有受眾群數量巨大、乘客類型多樣、服務環節復雜等特點。智能語音技術的融入,推動了原有的以人工客服為主模式向以機器服務為主模式轉變的進程。該技術較好地實現了語音和文本的互轉、語音和圖像的互嵌,綜合運用了視聽兩種感知手段,使信息的傳遞變得更加生動、形象。此外,該技術還為語音識別、語義分析奠定了基礎,通過匹配知識庫,客服人員解答問題的能力將得到拓展。
本文探討了智能語音在城市軌道交通客服中的應用需求,以及相關應用技術的實現邏輯。未來上海軌道交通將持續推進包括智能語音技術在內的人工智能技術在乘客全出行鏈服務上的深度應用,智能語音服務將由車站服務端、熱線服務端向個人服務端進一步拓展。