段瑞霞 張海東


摘要:利用語音識別、語義理解、聲紋識別等技術,準確識別用戶意圖,可以實現語音轉文字、智能質檢、智能檢索等功能,大大提升工作效率。該文基于呼叫中心的智能語音需求,研究如何搭建語音訓練平臺和語音識別系統,實現訓練模型可復用、服務統一、優化流程角色、安全運行監控化,根據用戶業務需求快速開展定制化模型開發,實現對傳統呼叫中心的純人工服務向人機協作的語音資源利用方式升級,最大化利用語音資源,減少人員投入,提升呼叫中心服務質量。
關鍵詞:語音識別;訓練平臺;智能語音
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)15-0094-00
1 概述
1.1 現狀及背景
傳統呼叫中心完全由人工進行接聽電話、處理工單,定期由專人進行電話錄音檢查,核查有問題錄音,查找問題,每年業務量約20萬電話,被抽檢進行語音檢查的不足2%??头藛T所需技術不強、人員工資較低、人員流動較大、經驗無法有效傳授,由此造成培訓成本增高、不易管理。
智能機器人全天候工作取代30%的人工客服,智能質檢不僅可以使用質檢合格的語音不斷進行學習提升準確性,而且可以形成知識庫,實現由人工質檢向機器質檢過渡,幫助呼叫中心更高效提供服務。
當前大部分語音應用系統,根據不同業務的需求,各自構建陣地,雖然取得了部分成績,但存在“煙囪式”開發,重復建設,成本高、不易集成,模型研發缺乏標準指導、參與角色眾多,模型訪問方式各異,調用關系錯綜復雜,缺乏編排優化、缺乏協同、效率有限,缺少統一的模型運行、監控平臺、服務管理接口及更新、維護機制等問題[1]。
1.2 研究必要性
基于呼叫中心的業務,將智能語音識別技術和人工客服相結合,建設一套語音識別系統,采用人機協作模式,可以提供呼叫中心的服務質量和效率,提升用戶體驗。
建設語音識別系統必不可少的是語音模型訓練,進行語音模型訓練建議搭建一個語音識別訓練平臺。語音識別訓練平臺可實現人工智能的能力可復用化、服務統一化、流程角色優化、運行監控化和資源管控化,根據業務需求快速提供訓練模型,實現用戶需求。通過語音識別訓練平臺的深度學習和加載語音智能分析,提供對語音需求的迅速實現和靈活試錯功能,完成由傳統呼叫中心的純人工服務向人機協作的語音資源利用方式升級,研究探索服務電話錄音的精準感知、問題錄音的主動發現;基于運行數據積累及數據價值與關聯應用,完成智能質檢工作的高效處理,科學預警預測,防患于未然,最大化利用語音資源,為呼叫中心帶來新的工作模式,從而提升企業的人工智能創新能力。
1.3 研究目標
1)挖掘語音深度應用
融合當前業內成熟可用的語音識別技術,結合呼叫中心需求,利用語音資源結合語音分析算法實現對智能質檢、智能會議等應用落地,形成一套智能語音應用解決方案,為其他智能語音項目建設與應用提供指導。
2)拓展傳統客服業務能力
通過對原有客服系統、設備進行智能語音賦能,在傳統客服工作上進行算法快速迭代,減少人工投入,提升工作效率和用戶體驗,提升企業的信息化應用水平。
1.4 研究內容
本文重點研究將人類的聲音信號轉化為文字或者指令的語音識別技術,搭建一套語音訓練平臺,進行相關語音訓練,實現呼叫中心的相關語音可通過語音識別系統進行應用和配置。
2 系統架構
2.1 整體原則
系統最大限度地滿足呼叫中心在人工智能語音識別方面的需求,充分結合現有成熟完善的技術,遵循以下四個原則。
1)標準化與一體化原則
嚴格遵循呼叫中心數據管理相關規范與標準,基于現呼叫中心業務系統整體架構,融合先進的語音識別技術,提供標準化應用接口,支撐智能會議應用、智能客服應用、智能調度應用等應用場景,與其他人工智能技術模塊實現一體化設計原則。
2)可擴展性原則
采用通用開發平臺,提供標準化數據接口供其他應用系統進行集成與二次開發;相關配套硬件配置支持平滑擴展;支持業務的靈活重組,提供二次開發與訓練的開放接口。
3)兼顧實用性與先進性
充分考慮多種現有成熟的主流技術的綜合,搭建語音識別訓練平臺,結合呼叫中心實際業務,找出應用效果顯著的業務場景,實現業務模式升級和服務優化。
4)安全性原則
惡意軟件的入侵、黑客攻擊、個人隱私泄露等信息安全問題較為常見。隨著大數據、人工智能等新一代信息技術的廣泛應用,對信息安全提出了新的需求和挑戰。我國政府高度重視信息安全,領導并規劃了一系列信息化發展和信息安全的保障措施[2]。呼叫中心有大量客戶數據、客戶交互會話等敏感數據,系統安全性顯得尤為重要。在建設中充分考慮信息的秘密性、完整性和可用性;在設備安全、網絡安全、操作系統安全、數據庫安全、行為安全等方面做好相關措施,確保系統長期穩定、安全、可靠、高效地運行,業務數據不會泄露[3]。
2.2? 功能架構
總體功能架構包括四層,架構圖見圖1。
開放接口層:提供C++ SDK / App SDK / Java SDK / Restful等標準接口方式,實現與其他業務的集成。
終端接入:支持呼叫中心系統實時話務8K語音流、麥克風/鵝頸麥等硬件拾音設備實時16K語音流、錄制語音流接入等多種終端接入。
邊緣計算:語音分析服務器支持對語音進行智能分析,訓練平臺支持語音采集、標注、模型訓練和優化等。
應用展示:基于語音技術的各種應用場景。
2.3? 技術架構
總體技術架構包括五層,滿足企業在技術先進性、安全性、可擴展等要求(如圖2)。
1)基礎支撐:支持GPU、CPU異構計算資源池統一部署。
2)素材集:實現呼叫中心語音庫的建立,支持語音數據的導入/導出、素材標注、素材管理等。
3)模型訓練:提供定制化開發多場景語音識別模型,并根據使用效果進行模型優化、模型評估。
4)模型管理:支持模型上傳、模型下發、模型導出、文件上傳/下載等業務功能層。
5)接口:將完成開發的語音模型進行API封裝,通過API網關層對外提供服務,為上層各類業務應用提供統一服務入口;提供在線識別接口等,支持外部命令行接入、SDK工具集等,提升系統的擴展性能和服務管理能力[4]。
3? 語音識別系統設計及應用
3.1? 關鍵技術
1)全程建模技術
在人工智能發展中,模型是開發過程中的一個不可缺少的工具。結合呼叫中心的業務需求和技術現狀,利用語音/聲紋識別及個性化智能模型自主訓練等建模技術,構建一系列有序的功能模型、信息模型、數據模型、控制模型和決策模型等。通過執行各個模型來驗證其正確性并確定后續研究方向,通過全程建模技術實現將模型轉到開發語言,減少翻譯轉換工作[5]。本文設計采用業界認可的統一建模語言進行軟件從業務到設計的全程建模,通過建模保證整個項目的可視化[6]。
2)容器技術
容器技術將應用進行打包,對服務器部署位置沒有限制,通過一行命令即可完成簡單的服務部署;再次抽象操作系統的資源,可以快速將打包好的服務進行啟動;將不同服務封裝在對應的容器中,定制化編寫腳本使所有容器按照業務需求進行相互協作,實現多業務組合;容器的標準化加快交付體驗,允許對工作負載進行遷移,避免局限于單一平臺的供應商[7]。
3)異構加速計算技術
由于需要針對大量的訓練數據進行模型訓練,采用異構分布式計算,基于 GPU+CPU異構計算平臺進行優化,充分利用 GPU的高性能計算能力,提供高效的大數據在線/離線批處理、實時計算、交互式查詢等功能。異構計算提供非凡的應用程序性能,將應用程序計算密集部分轉移到 GPU,同時仍由CPU 運行其余程序代碼[8]。
4)訓練任務調度技術
訓練集群存在多租戶、多任務、多數據及多資源的復雜管理,使用訓練任務調度的服務引擎,可以統一調度維持設備間IO通信、IP分配,合理協調分配訓練資源,在任務釋放資源時及時回收用于新任務的調用,實現有效提高資源利用率,降低系統非必要功耗[9]。
3.2? 語音識別系統設計
語音識別系統包括語音識別前端、素材集和模型訓練平臺。
1)語音識別前端
語音識別前端界面,可以是輸入錄制音頻文件進行語音識別,也可以是按下麥克風按鈕說話或接入呼叫系統進行實時語音識別。
2)素材集
對不同業務領域的語音素材進行收集、管理,包括數據的導入導出、數據標注、數據管理等,實現素材數據的統一管理和開放共享。
3)模型訓練平臺
根據用戶業務需求,定制化進行語音識別核心模型開發,如聲學特征提取模型、聲學模型、語言模型及語言處理等模型。根據用戶實際使用情況,對模型識別速度、識別準確率等進行評估,針對準確性不滿足要求、識別速度慢的模型反饋給模型訓練平臺進行模型優化與訓練,提高識別準確率和速度。
3.3 語音識別系統應用
1)會議紀要智能語音轉錄
呼叫中心在會議中,通過語音識別將參會人員發言轉錄成文本,形成完整的會議記錄,減少會議記錄人的工作量。
2)智能語音機器人
呼叫中心面向用戶提供智能語音交互服務,提供企業組織架構查詢,工單查詢,業務流程查詢等智能服務,建立“自動應答+人機協作”的新模式,提升客戶智能感知,減少人員投入。
3)智能座席
呼叫中心可以給客服專員和管理人員提供智能助手服務,可提供實時流程推薦、實時工程師聯系方式推薦等服務,提高客服人員工作效率,縮短接聽電話時間。
4)智能語音質檢
通過多元化的自定義規則,對呼叫中心的錄音或實時對話內容進行智能語音分析,幫助呼叫中心快速發現服務中的問題,提升服務質量,優化服務策略。
4? 結束語
語音識別系統以呼叫中心業務需求為導向,依托智能語音技術,采用以GPU為核心的異構并行計算分布式架構,基于用戶提供的真實語音數據,完成模型訓練,進行大量業務應用,極大推動語音資源價值挖掘,賦能多樣化業務應用,實現業務模式質的改變,助力呼叫中心業務運行的“安全、順暢、有序”,最大化實現人力資源釋放。
參考文獻:
[1] 洪青陽,李琳.語音識別:原理與應用[M].北京:電子工業出版社,2020.
[2] 郭晶,丁西,張小龍.基于微服務微應用架構的新一代企業門戶實現與應用[J].電力信息與通信技術,2021,19(2):94-98.
[3] 黃杰.信息系統安全[M].杭州:浙江大學出版社,2020.
[4] 李斌.企業信息安全建設與運維指南[M].北京:北京大學出版社,2021.
[5] 李晨晗,趙志峰.基于容器技術的數字版權管理[J].廣播電視信息,2020(S1):26-28.
[6] 青潤.軟件工程之全程建模實現[M].北京:電子工業出版社,2004.
[7] 程寧,劉桂蘭.Docker容器技術與應用[M].北京:人民郵電出版社,2020.
[8] [美] 胡文美(Wen-mei W.Hwu) 著,方娟,蔡旻,譯.異構系統體系結構:原理、模型及應用[M].北京:機械工業出版社,2018.
[9] 李蓀,曾然然,殷治綱.AI智能語音技術與產業創新實踐[M].北京:人民郵電出版社,2021.
【通聯編輯:聞翔軍】