陳華龍,廉文彬,賀曉聰
(1.北京經(jīng)緯信息技術(shù)有限公司,北京 100081;2.中國國家鐵路集團有限公司 客運部,北京 100844)
鐵路客戶服務(wù)中心作為鐵路與旅客、貨主及承運人的交互窗口,具有非常重要的地位。隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,以及鐵路“降本提質(zhì)增效”的要求,面向鐵路的智能客服應(yīng)運而生。2016 年,智能語音識別技術(shù)的準(zhǔn)確率達到了與人類同等級別的水平,智能語音識別產(chǎn)品也得到了廣泛應(yīng)用。智能手機的語音助手、家庭版智能音箱、智能耳機、智能車載設(shè)備等語音交互產(chǎn)品逐漸進入人們的日常生活,這標(biāo)志著智能語音識別技術(shù)的時代已經(jīng)來臨。因此,如何應(yīng)用智能語音識別技術(shù)來構(gòu)建智能客服體系是中國鐵路未來發(fā)展的重要課題[1]。
鐵路客戶服務(wù)中心智能化發(fā)展是大勢所趨,本文概述了鐵路客戶服務(wù)中心的現(xiàn)狀和智能客服體系的關(guān)鍵技術(shù),探索和研究了智能客服在12306 互聯(lián)網(wǎng)售票系統(tǒng)(簡稱:12306)客服電話、12306 客戶端、列車長乘務(wù)管理、實體機器人等場景的具體應(yīng)用。同時,本文還總結(jié)了智能客服在北京鐵路客戶服務(wù)中心試點運行的經(jīng)驗,驗證了智能客服在北京—張家口高速鐵路(簡稱:京張高鐵)應(yīng)用的可行性。
鐵路客戶服務(wù)中心主要分為線下服務(wù)和線上服務(wù)兩種形式。
各級車站(特等站、一等站、二等站等)已陸續(xù)設(shè)置問訊處,向旅客提供咨詢(查詢余票、票價、列車到發(fā)和停站時刻等)、票務(wù)受理(退票、改簽、購買站臺票等)、求助(遺失物品查找、信息廣播、老幼病殘孕等重點旅客服務(wù))等服務(wù)。列車上設(shè)置了專員(列車長、乘務(wù)員、警務(wù)員等),以保障旅客安全出行。
鐵路客戶服務(wù)中心自2010 年開通后,在全國鐵路18 個鐵路局集團公司所在地設(shè)置了區(qū)域性客戶服務(wù)中心,共設(shè)置約1 500 個客服坐席;開通客運(12306)/貨運(95306)客服電話,為旅客、貨主及承運人提供語音自助查詢和人工服務(wù);通過客運和貨運網(wǎng)站(中國鐵路12306、中國鐵路95306)、短信、電子郵件、客戶端、微信公眾號、微信小程序、支付寶小程序等多種方式提供服務(wù)。雖然面向旅客和貨主客戶的鐵路客戶服務(wù)中心已經(jīng)成為展示鐵路服務(wù)質(zhì)量的重要窗口和平臺,但是,目前的線上服務(wù)仍以人工服務(wù)為主。隨著京張高鐵的開通運行,鐵路客服智能化的需求日益迫切。
隨著我國社會與經(jīng)濟的發(fā)展,鐵路旅客已經(jīng)從最初單一的乘車需求提升到安全舒適、快捷高效、多樣化、國際化的出行需求,旅客對鐵路服務(wù)的響應(yīng)速度、服務(wù)體驗、處理效率等需求越來越高[2]。目前鐵路旅客出行智能化水平不高更是加大了鐵路智能化出行需求的差距。
語音合成(TTS,Text to Speech)又稱文語轉(zhuǎn)化,是一種將文本信息轉(zhuǎn)化為語音數(shù)據(jù)的技術(shù)。TTS 技術(shù)涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、多媒體技術(shù)等多種學(xué)科,是中文信息處理領(lǐng)域的一項關(guān)鍵技術(shù),其核心應(yīng)用是讓計算機模擬人進行說話[3]。基于TTS技術(shù)的語音合成過程如圖1 所示,具體步驟如下。

圖1 基于TTS 技術(shù)的語音合成過程
(1)文本信息經(jīng)過前端的語法分析后,根據(jù)語義詞典和合成規(guī)則進行處理,得到格式規(guī)范(過濾語氣詞、停用詞等不規(guī)則和無法發(fā)音的字符)、攜帶語法層次的信息,并傳送到后端[4]。
(2)在前端分析結(jié)果的基礎(chǔ)上,后端經(jīng)過韻律分析和處理,得到語音的時長、音高等韻律信息,并根據(jù)這些信息在語音庫中挑選最合適的語音單元,通過語音合成器進行調(diào)整和拼接,最終得到語音數(shù)據(jù)[4]。
TTS 技術(shù)可用于12306 客服電話智能語音導(dǎo)航、車站的列車信息播報、實體機器人、虛擬售票窗口、數(shù)字虛擬形象大使等應(yīng)用。
自動語音識別(ASR,Automatic Speech Recongniton)是一種讓計算機快速準(zhǔn)確識別人類語言的技術(shù),是人機交互的關(guān)鍵技術(shù)之一,其目標(biāo)是使用語音識別算法來獲得更高的識別率。近年來經(jīng)過GMMHMM(混合高斯模型-隱馬爾科夫)、DNN-HMM(深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫)、RNN-HMM(深度循環(huán)神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型)、CNN-HMM(深度卷積神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型)等語音識別算法的不斷發(fā)展與迭代,本文采用基于注意力機制的編解碼模型實現(xiàn)語音識別,彌補了GMM-HMM 算法沒有利用幀的上下文信息和難以學(xué)習(xí)深層非線性特征等不足[5];解決了RNN-HMM、CNN-HMM 聲學(xué)模型和語言模型之間的協(xié)同問題,大幅簡化了語音識別算法訓(xùn)練流程,解決了發(fā)音詞典標(biāo)注不準(zhǔn)確的問題。
2.2.1 注意力機制
注意力機制的特點是能夠靈活地從給定的信息中提取與上下文相關(guān)聯(lián)的特定信息。這一機制提高了獲取關(guān)鍵信息的準(zhǔn)確性。具體到智能客服方面,注意力機制能夠?qū)蛻舻男枨筮M行精準(zhǔn)的語音識別和理解,進而通過機器代替人工進行回答。
傳統(tǒng)的端到端模型將輸入的句子壓縮為一個長度固定的隱向量,忽略了信息的真實長度,導(dǎo)致壓縮后句子的信息與原始句子末端詞匯的關(guān)聯(lián)性較大,難以保留句子起始部分的信息。因此,當(dāng)句子過長時,端到端模型的性能下降得比較快。此外,端到端模型為句子中的每個詞賦予相同的權(quán)重,使句中不同詞之間沒有明確的區(qū)分度。注意力機制解決了這個問題,能夠從全局的角度出發(fā),捕捉詞與詞之間的聯(lián)系。
注意力機制的本質(zhì)是加權(quán)求和。匹配度的計算和加權(quán)向量的計算是注意力機制的兩大組成部分。匹配度的計算主要為了判斷輸入的哪個部分更加需要被關(guān)注、更重要。其計算方式包括點積、乘法、多層感知器等,這些計算方式在實際運用時會受到不同程度的限制。例如,點積要求源和目的的隱藏層輸出的維度一致;乘法要求更快捷、更高效的存儲條件,以使用矩陣計算,實現(xiàn)更快的運算;多層感知器依據(jù)結(jié)構(gòu)的不同也有很多的選擇,本文不進行詳述。
2.2.2 編解碼模型
本文采用基于注意力機制的編解碼模型進行語音識別,該模型由編碼模塊、解碼模塊和注意力機制模塊組成,其結(jié)構(gòu)如圖2 所示。

圖2 基于注意力機制的編解碼模型結(jié)構(gòu)
編碼模塊將每幀語音轉(zhuǎn)換為時頻圖像,采用深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過多個卷積層和池化層的組合,完成對每幀聲學(xué)信息的編碼。
解碼模塊采用單向長短期記憶(LSTM,Long Short Term Memory)網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)歷史文本的漢字序列,輸出下一個漢字的預(yù)測概率,從而實現(xiàn)對語言信息進行建模。
注意力機制模塊從經(jīng)過編碼模塊編碼的聲學(xué)信息中挑選對下一個漢字的預(yù)測最有幫助的聲學(xué)信息片段,并將這些片段進行合并,輸送給解碼模塊來輸出下一個漢字的預(yù)測概率。注意力機制模塊使編解碼模型可以很好地進行聲學(xué)模型和語言模型的聯(lián)合建模,從而解決了兩個模型之間的協(xié)同問題,提高了語音識別的準(zhǔn)確率。
基于注意力機制的編碼解碼模型框架簡潔,具有語音識別效果好、多語種識別、占用本地資源少,以及簡化聲學(xué)模型和語言模型訓(xùn)練、訓(xùn)練效率高等特點。基于注意力機制的編解碼模型可以實現(xiàn)不同語種、方言的建模和訓(xùn)練,使同一模型可以識別多種語言,做到了真正的“免切換”。
2.2.3 智能問答
智能問答技術(shù)融合了知識庫問答(KBQA,Knowledge based Question Answering)與知識圖譜特性,通過對人類語言的自動分析,對詢問進行回答,包括一問一答及類人化的多輪問答、問題引導(dǎo)、知識推薦等功能[6]。智能問答技術(shù)主要分為兩類:基于語義解析、基于信息檢索。
(1)基于語義解析
基于語義解析的智能問答技術(shù)將自然語言轉(zhuǎn)化為語義表示的邏輯形式,再通過知識庫推理查詢,得到最終答案。
(2)基于信息檢索
基于信息檢索的智能問答技術(shù)對問題中的實體進行提取,通過在知識庫中查詢該實體,來獲得以其為中心的知識庫子圖。子圖中的每個節(jié)點或每條邊作為候選答案,從而得到表征問題和候選答案特征的特征向量。基于信息檢索的智能問答技術(shù)對候選答案進行排序,得到最終答案[7]。
2019 年,鐵路客戶服務(wù)中心年均互動式語音應(yīng)答(IVR,Interactive Voice Response)的進線量約為6 225 萬通,其中,轉(zhuǎn)人工接聽約為3 331 萬通。IVR 轉(zhuǎn)人工接聽的轉(zhuǎn)接率約為53.5%,這表明目前中國鐵路客戶服務(wù)中心的線上服務(wù)方式仍以人工服務(wù)為主。在接入的通話中,旅客咨詢約占總接入量的60%,這使大量簡單的重復(fù)性工作占用了寶貴的人力資源。12306 智能語音導(dǎo)航系統(tǒng)通過語音識別和語義理解技術(shù)的綜合應(yīng)用,推出24 h 智能客服,為旅客可以提供退票、改簽、身份核驗、兒童票購買、賬戶注冊等服務(wù),也可以與旅客進行多輪對話,進行余票、票價、車次時刻表等動態(tài)業(yè)務(wù)的實時查詢[5]。12306 智能語音導(dǎo)航系統(tǒng)實現(xiàn)了全天候?qū)崟r服務(wù),常規(guī)且重復(fù)性高的問題由語音機器人進行答復(fù),較復(fù)雜及個性化的問題則由人工客服進行答復(fù),其服務(wù)規(guī)模不再受人工席位數(shù)量的限制,有效地解決人工成本高、線路忙、服務(wù)時間有限、服務(wù)質(zhì)量參差不齊等問題。
目前,使用中國鐵路12306 網(wǎng)站和12306 客戶端購票時,旅客仍需要進行多次輸入、查詢、選擇等操作。12306 售票智能語音助手可以實現(xiàn)一句話語音界面導(dǎo)航、一句話實現(xiàn)界面跳轉(zhuǎn)及輸入項(乘車站、到達站、乘車日期、車次)自動填寫。語音引導(dǎo)購票功能讓旅客通過語言來表達購票需求,使購票過程變得更高效和便捷[8]。
列車長乘務(wù)智能管理助手不僅可以提供語音播報功能,支持中、英、日、韓、法等多種語言的自然合成,還可以提供語音交互機器人功能。當(dāng)旅客提出咨詢時,列車長乘務(wù)智能管理助手可實時返回答案,輔助列車長回答旅客問題,有效減輕了列車長工作強度。
隨著京張高鐵的開通與運行,站內(nèi)設(shè)置實體機器人也是智能客服一個重要的應(yīng)用場景。實體機器人融合了智能客服技術(shù),提供站內(nèi)導(dǎo)航、客運信息智能化搜索、行李搬運、旅客問詢等功能,并結(jié)合12306 客戶端通過語音方式提供線下和線上的無接觸式服務(wù),重點關(guān)照老幼病殘孕等特殊群體,為旅客提供智能化的出行體驗。
智能客服在京張高鐵的應(yīng)用價值包括兩方面,具體如下。
(1)經(jīng)濟效益。人工智能(AI,Artificial Intelligence)技術(shù)的運用降低了中國鐵路客戶服務(wù)中心、車站、列車等有形場所,以及人員和設(shè)備的投入,使鐵路高質(zhì)高效地運營。
(2)社會效益。智能化服務(wù)提高了客戶服務(wù)質(zhì)量,減少了溝通糾紛,縮短了旅客的排隊時間,提高了對客戶多樣化需求的響應(yīng)速度,極大地提高了中國鐵路客戶服務(wù)中心的服務(wù)水平[9]。
北京鐵路客戶服務(wù)中心智能客服試點工作開始于2020 年5 月,充分采用了上海鐵路客戶服務(wù)中心試點的結(jié)果和寶貴經(jīng)驗。2020 年6 月—7 月,對北京鐵路客戶服務(wù)中心運營人員進行培訓(xùn)。經(jīng)過培訓(xùn)后,鐵路客服人員已經(jīng)可以獨自完成運營優(yōu)化工作。智能客服在北京鐵路客戶服務(wù)中心試點運行的情況如圖3 所示。由圖3 可知,在2020 年12 月31 日,北京鐵路客戶服務(wù)中心試點智能客服系統(tǒng)的字轉(zhuǎn)寫正確率為89.7%,智能導(dǎo)航正確率為92.3%。智能導(dǎo)航答案對旅客咨詢問題的覆蓋率為88.4%。

圖3 智能客服在北京鐵路客戶服務(wù)中心試點運行情況
隨著技術(shù)的不斷發(fā)展,以及在京張高鐵的應(yīng)用,智能客服的準(zhǔn)確率和自助服務(wù)率將進一步得到提高。智能客服的應(yīng)用場景可以進一步拓展至網(wǎng)站、移動設(shè)備客戶端、新媒體服務(wù)號、智能質(zhì)檢、語音大數(shù)據(jù)分析等,逐步實現(xiàn)業(yè)務(wù)量增長,而人力不增長或小增幅增長。智能客服為進一步落實中國國家鐵路集團有限公司“降本提質(zhì)增效”的要求打下了堅實的基礎(chǔ)。