徐秋平,任 玲,樊璽炫,王義華
(青島地鐵集團有限公司,山東青島 266000)
語音識別技術,又稱為語音人機交互技術,是以語音作為主要信息載體,使機器具備能說會聽、學習思考的能力,實現人類與機器之間類似人類互相之間的自然語音交互過程。隨著城市軌道交通線網規模的不斷增大,乘客購選票時間會延長,尤其對于不熟悉自己出行路徑和設備操作的乘客,購選票花費時間則更長。另外,由于存在車站乘客的問詢量大,問詢內容涉及站內外信息、票務政策等業務知識廣等問題,站務人員需承擔高負荷、高強度的問詢答疑工作。因此,將語音識別技術應用于城市軌道交通,對實現車站服務的自助化、智能化、人性化,具有重要意義。目前,國內部分城市軌道交通已將語音識別技術應用于自動售檢票(AFC)系統中,如上海、合肥、南京和深圳等城市軌道交通對原有自動售票機進行改造實現語音購票功能;深圳、青島、寧波和西安等城市軌道交通上線集票務服務、語音問詢、車站信息資訊于一體的智能客服中心。由于語音識別技術可實現無接觸式交互,特別在受新冠肺炎疫情影響的情況下,更加體現出其優勢價值。隨著語音識別技術在城市軌道交通AFC系統中的應用推廣,傳統AFC系統設備業務流程和系統架構將隨之改變。
語音識別技術在城市軌道交通AFC系統中的應用包括語音購票和語音問詢2類業務。
語音購票功能是在傳統自動售票機上增加語音處理模塊,支持乘客通過語音對話來完成車票的購買,從而替代傳統觸摸式購票操作,避免因不熟悉自動售票機而導致的車票購買困難,有效縮短原本需點選屏幕選站、售票的時間。語音購票實現的重點和難點在于嘈雜環境下的自動語音識別,當乘客走近自動售票機,攝像頭自動喚醒語音處理模塊,準確接收和識別乘客語音輸入的目的地信息,進而完成人機互動。對于部分乘客只知目的地而不知具體車站名的問題,可在語音識別技術的基礎上應用模糊地點搜索,將單一的購票行為升級為問路、路徑選擇、購票相結合的復合行為。語音購票業務流程如圖1所示。

圖1 語音購票業務流程圖
語音購票的功能需求包括:在強噪聲環境下準確識別并顯示乘客語音;能完全屏蔽左右兩旁自動售票機使用者對中間售票機的影響;能完全屏蔽當前乘客背后排隊者的語音干擾;理解乘客意圖,判斷出乘客的目的地名稱,支持車站外各種地點的查詢,例如小區、大樓等;結合云端地圖數據搜索出距離乘客目的地最近的車站;提供從當前站點到目的地的詳細換乘路徑信息;具備人臉識別能力,能判斷使用者數量,無需乘客喚醒或者手動激活語音;乘客可進行語音購票與觸摸購票2種方式的自由切換。
乘客通過語音識別終端設備可自助語音查詢站內服務設施、出入口、導航、運行時間、票務政策等信息;也可選擇人工服務,與遠程坐席客服進行語音交互,實現在線問詢,解決知識盲點及投訴問題,以及突發狀況時的緊急求助。語音問詢業務流程如圖2所示。

圖2 語音問詢業務流程圖
語音問詢功能需求包括:乘客可轉人工服務,與后臺客服人員進行實時語音問詢;具有完善的知識庫系統,涵蓋地鐵出行所涉及的各種業務知識;具備后臺運維管理功能,可對乘客的問詢內容進行統計、分析,并針對知識盲點補充知識庫系統。
語音識別技術的關鍵在于在強噪聲環境下通過攝像頭和麥克風陣列檢測目標乘客,并能準確接收和識別乘客語音信息,精準理解乘客意圖,對獲取的目的地信息做模糊地點搜索,推薦距離目的地最近的地鐵站并提供相關的換乘信息;或者對乘客咨詢的問題進行知識圖譜庫檢索,以文字、圖片、聲音、動畫等形式輸出答案。實現上述功能涉及的關鍵技術包括:人臉唇動檢測、定向語音增強、模糊地點搜索及知識庫系統。
城市軌道交通車站環境嘈雜,人臉唇動檢測技術可有效監測、捕獲需進行語音交互的乘客,實現免喚醒語音輸入。設備前端安裝高清攝像頭,支持不同身高乘客的場景需求。根據攝像頭檢測到的人臉尺寸,系統自動判斷乘客與設備間的距離,當距離值在系統定義的允許測距范圍內則可喚醒語音服務進行語音采集。
為避免受周圍人聲、環境背景聲、乘客長時間滯留等因素的影響,需要唇動檢測來提高語音識別質量。攝像頭通過持續采集圖像獲取乘客唇部狀態變化,再經唇動檢測算法,得出乘客開始說話和結束說話的時間階段,在乘客嘴唇活動的時間段內,進行語音采集;反之,乘客嘴唇未動的情況下不進行采集。
大客流車站人群密集,語音購票和乘客問詢會受到全方位語音干擾,多人操作聲音、車站廣播、各種聲音產生的混響均會導致設備收到的語音信息嘈雜,導致語音識別的效果難以保證。語音增強是指當語音信號被各種各樣的噪聲干擾甚至淹沒后,從含噪聲的語音信號中提取純凈語音的過程。
定向語音增強的麥克風陣列可實現對設備前方某個固定扇形區域的人聲增強,而對其他方向的人聲和噪聲進行抑制。
傳統模式只能通過選擇具體車站名稱來進行購票。語音識別技術搭載地圖軟件可實現模糊地點搜索,可覆蓋到景點、地標、樓宇、小區和道路等各種非車站名稱。語音識別乘客所述的地點信息后,若為車站名稱,則直接進入購票界面,并提供換乘路徑、距離等信息;若非車站名稱,則訪問地圖軟件查詢附近的地點站名,返回對應的車站名稱引導乘客購票。當檢索到多個候選目的車站時,提供多個目的車站名稱供乘客選擇。
知識庫系統是向乘客提供語音咨詢各項服務的核心,可通過對文字、圖片、視頻等信息進行錄入、管理和加工,為乘客提供智能化顯示。乘客可通過智能客服中心、智能咨詢機等語音咨詢終端,對運營線路、首末班車、票價、票務政策、站內設施、站外路線、車站出入口等城市軌道交通常見信息進行語音自助查詢。
語音識別硬件包括攝像頭、錄音分壓板、線性麥克風陣列、語音識別模組,其中,語音識別模組可集成人臉檢測、唇動檢測、麥克風陣列降噪、語音交互算法。語音終端設備架構圖如圖3所示。

圖3 語音終端硬件架構圖
攝像頭感知到乘客后,發送信號給語音識別模組,控制錄音分壓板和線性麥克風陣列工作,麥克風陣列降噪算法對兩側噪聲進行抑制、回聲消除等降噪處理,確保錄音音頻的質量。語音識別模組將錄音通過語音交互算法發送到語音云平臺進行處理,獲取語義理解結果;語音識別模組在獲取語義理解結果后通過串口傳給工控機;工控機在接收到語義結果后,根據業務類型、意圖、關鍵詞判斷是否執行操作,即可快速實現語音交互功能。
嵌入語音識別功能后的AFC系統架構如圖4所示。

圖4 嵌入語音識別的AFC系統架構圖
自動售票機、票務處理終端、智能客服中心等設備通過有線網絡,智能咨詢機、智能機器人和智能手持終端通過無線網絡接入AFC系統專網,并通過互聯網票務平臺的安全接口連接外網接入語音云平臺實現終端設備的語音交互功能。購票、票卡處理交易依次上傳至車站計算機系統、線路中央計算機系統、清分系統,由清分系統與城市一卡通、金融IC卡等外部系統進行清分結算,由互聯網票務平臺統一接入微信、支付寶、銀聯等第三方支付系統完成互聯網支付功能。
針對城市軌道交通語音業務,全線網建設統一的語音處理平臺,具體系統架構如圖5所示,整個系統劃分為4層,從下到上分別為硬件層、算法層、接入層、應用層。

圖5 語音云平臺系統架構圖
4.3.1 硬件層
硬件層在機房搭載部署語音交互引擎、人工智能(AI)語義結構化可視化開發平臺所需的圖形處理服務器(GPU)、中央處理服務器(CPU),并部署引擎及平臺運行所需的服務組件,包括但不限于調度服務、消息中間件、數據庫。
4.3.2 算法層
算法層部署語音交互所需的語音識別、語義理解、語音合成引擎,并部署AI語義結構化可視化開發平臺,使終端設備具備“聽”“懂”“說”這3項能力。同時支持購票、線網圖查詢、站內導航等語義技能的可視化開發,滿足持續優化語義理解效果的需求,從而不斷提升自動售票機、智能客服中心等語音交互的智能度。
語音識別好比“機器的聽覺系統”,它讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。語音識別的效果直接影響系統設備能否獲取乘客真實的需求,應特別關注語音識別的準確率,以及支持所在服務地區方言語種的需求。語音識別應支持線網所有語音終端設備接入的需求,語音識別準確率至少達98%,語音輸入速度至少180 字/min,并實時返回識別結果,達到邊錄入邊識別的效果。
語義理解最大的挑戰是如何理解乘客同一個意圖的不同問法。系統應支持詞槽抽取,以及乘客模糊表達、斷句、多音字的容錯理解,采用多輪會話、上下文語義理解。為提高語義理解效果,需要不斷積累城市軌道交通行業語料。
語音合成解決的主要問題是將文字轉換為聲音,語音的自然度取決于發音聲調的變化,而在連續語音流中,字的發音不僅與這個字本身發音有關,還受到前后相鄰字的發音以及語氣表達的影響。基于城市軌道交通應用場景,調整合成的語速、音色、音量以及各種發音細節,極大提升合成音的“擬人度”,從而讓語言終端設備提供親切自然的服務。
4.3.3 接入層
接入層是通過語音識別模組、軟件開發工具包(SDK)等接入方式,實現硬件采集音頻,軟件通過SDK上傳到算法層進行語音識別、語義理解處理,并進行業務結果回答播報的語音交互接入方案。
4.3.4 應用層
應用層包含自動售票機、智能客服終端、智能機器人等語音交互設備。自動售票機在原有觸屏購票的基礎上增加語音購票功能,實現語音購票與觸屏交互的結合;智能客服終端、智能機器人為乘客提供線網圖查詢、乘車路線查詢、票價查詢、站內導航等業務咨詢服務。后期可接入城市軌道交通app、微信公眾號和小程序等,滿足乘客隨時隨地語音問詢的需求。
語音識別技術作為一項高度智能的科技手段,應用于城市軌道交通,可實現無接觸式交互,為乘客提供購票、問詢等業務功能,實現車站服務的自助化、智能化、人性化。通過對語音識別技術在城市軌道交通AFC系統應用的全方位整體規劃,極大推動語音識別技術在城市軌道交通智慧乘客服務領域的應用,促進城市軌道交通智能化轉型升級。