陳悅勤 錢小毅
(上海申通地鐵集團有限公司, 201103, 上海∥第一作者, 工程師)
發展城市軌道交通是建設綠色城市、智慧城市的有效途徑。智慧車站基于全面的智能感知、深度的數據融合、高效的數據治理理念,利用多種智能化手段,實現豐富乘客乘車體驗、提升乘客滿意度、提高設備設施可靠性及實用性等目標[1]。
簡便購票流程、提高購票效率能夠有效提升乘客滿意度。傳統的乘客購票方式主要有人工窗口購票和自動售票機(TVM)購票兩種。自動售票機能夠快速實現線路查詢、車票發售、找零等功能,相較于人工窗口購票,其能夠有效提高乘客的購票效率,節約乘客購票時間。但當乘客不熟悉操作流程或不識字時,可能造成購票耗時的增加,甚至可能因操作不當引起設備故障以及增加人工窗口的負擔[2]。
智能語音售票機引入了語音識別功能,能夠幫助不熟悉的乘客完成購票全部流程,以避免發生上述問題。乘客購票時,可通過觸發語音切換按鈕將手動操作轉化為單純語音輸入操作,高效便捷地實現票價咨詢、站點信息查詢、換乘信息查詢、嘈雜環境下語音正確識別、車票購買等功能[3]。僅需通過口述目的站點及車票張數等信息即可實現正確購票,大大簡化了購票流程,提高了購票效率,也減輕了票務人員人工操作壓力。
智能語音售票機需具備嘈雜環境語音識別能力。公眾空間混合強噪聲環境中的多人人聲、車輛行駛轟鳴聲、廣播播報聲、大封閉空間產生的混響等多種因素會嚴重影響語音識別的效果,因此該技術的關鍵及難點在于噪聲處理[4]。此外,在該環境下售票機的喚醒方式不宜采用語音喚醒,人臉識別技術能夠更加有效地保證設備喚醒效率[5]。
目前,智能語音輔助購票技術已應用于上海軌道交通部分車站的自動售票機,在乘客購票的關鍵步驟中提供“因人而宜”的個性化語音提示,使乘客在購票準確度、購票服務支持等方面的體驗有了較為明顯的提高[6]。
本文針對地鐵車站嘈雜環境和實際用戶需求,探討新型智能語音售票機系統的線性麥克風陣列語音增強技術、基于視頻的人臉識別技術和多模態信息融合技術應用,該系統可實現售票機“免喚醒”,以及高效的智能語音購票和地點查詢功能,可有效提升乘客購票效率。
為了應對嘈雜環境對智能售票機語音識別能力的影響,智能語音售票機系統采用了線性麥克風陣列語音增強技術、基于視頻的人臉識別技術和多模態信息融合技術。
圖1為麥克風陣列拾音示意圖。
常見的單麥克風前端語音增強方法雖然能實現大量降噪,但對非平穩噪聲抑制能力較弱,同時會使引入的語音信號失真,導致在地鐵車站等噪聲動態范圍大、噪聲模式多樣的場景下難以獲得較高的語音信號信噪比,無法滿足語音識別的要求。
均勻線性陣列示意圖如圖2所示。圖2中,M個麥克風以δ為間隔,接收由聲源發出的聲音信號X(f)(f為頻率),聲波入射角度為θd,第i個麥克風接收信號為Yi(f),Vi(f)為第i個麥克風的加性高斯白噪聲。
麥克風接受信號組成的矢量Y(f)為:
Y(f)=d(f,cosθd)X(f)+V(f)
(1)
式中:
d(f,cosθd)——陣列的導向矢量;
X(f)——由聲源發出的聲音信號矢量;
V(f)——麥克風的加性高斯白噪聲矢量。
d(f,cosθd)=[1 e-j2πfτ0cos θd…
e-j(M-1)2πfτ0cos θd]T
(2)
式中:
j——虛數;
τ0——聲波入射角度θd=0時相鄰兩個麥克風之間的時間延遲。
麥克風陣列的主要性能指標包括波束圖和白噪聲增益。波束圖可表述陣列在特定頻率f對不同入射角信號的增益B(f,θd),應用延遲求和波束成形算法的波束增益公式為:
B(f,θd)=dH(f,cosθd)h(f)
(3)
其中:h(f)=[H1(f)H2(f) …HM(f)],Hi(f)表示第i個麥克風在頻率f上的響應;dH表示對向量d作共軛轉置。
白噪聲增益為空間非相干白噪聲場下的陣列增益,即指向方向的增益與平均噪聲功率之比。當采用延遲求和算法時,其陣列增益W(f)表達式為:
W(f)=M
(4)
可見,白噪聲增益與麥克風數量M成正比,麥克風數量越多,指向方向獲得越好的抗噪性能。
地鐵環境聲音嘈雜,也無法對乘客提前進行語音購票機使用培訓,采用“喚醒詞+命令句式”實現語音購票功能喚醒不適用于地鐵車站環境。智能語音售票機系統采用視頻攝像頭檢測人臉,確定人員正在購票,從而喚醒語音購票功能。
地鐵車站環境視頻檢測復雜性較高,存在大量背景雜物,人臉姿態角度不一,光照和遮擋也會對檢測造成影響,進行快速準確的人臉檢測難度較大。
本文基于多任務卷積神經網絡(MTCNN)架構設計了一種人臉匹配算法,對人臉特征進行多重檢測后提取人臉信息。其網絡構架(見圖3)主要包含PNet(Proposal Network,候選網絡)、RNet(Refine Network,修正網絡)和ONet(Output Network,輸出網絡),分別負責人臉的初步檢測、位置修正、復雜樣本分類,最終輸出人臉位置和關鍵點信息。
多模態信息融合是指整合或融合兩種及兩種以上信息來源,利用不同信息媒介的優勢,使得識別或信息處理更加精準。在智能語音售票機系統中,多模態體現在以下兩個方面:
1) 音視頻協同處理:可同時采集高清視頻流、麥克風陣列信號和用戶操作信息,通過用戶點擊“語音購票”按鈕或攝像頭檢測到有人走到售票機屏幕前,語音模塊自動喚起。其采用免喚醒語音輸入,不需要輸入其他同類產品的喚醒詞,免去了用戶培訓過程。此后,攝像頭通過用戶臉部關鍵點來定位用戶聲源位置,麥克風陣列通過8個麥克風孔來進行波束成形,將主瓣對準用戶,結合攝像頭和麥克風陣列來判斷當前說話用戶的位置是否一致,一致則用戶語音有效,不一致則用戶語音無效。即通過視頻識別與聲音識別進行多模態信息融合判斷。
2) 地圖知識庫支撐的地鐵站點查詢:一般語義識別方案僅支持查詢特定地鐵站名作為購票起止點,不具備模糊查詢功能,如根據地標設定附近車站。智能語音售票機系統采用外部地圖的成熟技術數據,協同語義識別的起止點信息,自動反推最近的地鐵站,大大提高了語音售票機服務的便捷性和易用性,更適應乘客常用的起止點表達方式。
基于上文所述的麥克風陣列語音增強技術、人臉檢測算法和多模態信息融合技術,在傳統TVM基礎上增加了智能語音模塊,使其具備車站復雜環境下的語音購票功能。本節重點介紹具體硬件架構和購票業務流程。
智能語音售票機系統硬件架構(見圖4)包含以下主要模塊:
1) TVM主控:地鐵站現有的售票機箱體機器通過串口與智能處理工控機進行數據交互。
2) 智能處理工控機:負責麥克風陣列語音增強處理和視頻人臉檢測處理。
3) 語音處理云服務器:部署在地鐵運營公司數據中心,是一臺專有云語音識別和自然語言理解服務器,由地鐵專網保障其網絡信息安全。
4) 第三方地圖信息服務器:部署在地鐵運營公司數據中心,是一臺專有云第三方地圖服務器,為語音購票技術提供地理位置查詢功能。
5) 高清攝像頭和麥克風陣列:工業級別的攝像頭和麥克風陣列,需要在TVM機器上打洞安裝,通過USB與信號處理工控機通信。
6) 數據回傳模塊:由無線或有線網絡連接至AFC(自動售檢票)專網,將語音和視頻信息經過數據安全性增強后接入專有云服務器。
語音購票過程中的典型人機交互流程如圖5所示。
當工控機通過高清攝像頭檢測到用戶靠近時,會主動發送OnWakeup(喚醒指令)請求給TVM主控。TVM主控需返回確認喚醒ACK(確認喚醒),并顯示語音提示窗口。
隨著用戶說話的過程,工控機會多次發送ASR,逐字返回用戶語音內容。TVM主控需要多次刷新語音提示窗口中的語音內容。當用戶說完以后,工控機查詢到結果,則會發送路徑請求給TVM主控,直接跳轉路徑導航頁面。如果有超過一個候選項,則顯示多個候選項。
在語音提示窗口狀態下,用戶點擊屏幕其他區域或者點擊返回按鈕,則TVM主控發送睡眠請求,并關閉語音提示窗口。
1) 語音問詢:乘客在問詢時,可以直接通過語音說出要去的地點,問詢機會推薦附近的地鐵站和引導相關購票流程。
2) 免喚醒啟動:監測到用戶走到問詢機器前時,語音模塊會自動喚起,隨即進入問詢初始化界面,乘客從而可以直接進行語音問詢。
3) 地點確認:用戶每說完一句話,經過語音轉文本、語義分析后,結合第三方地圖信息查詢到最近站點,給出出行建議。如果有存在多個地點或者多個地鐵站的情況,將備選項(包含地點、附近地鐵站推薦)顯示在界面上供用戶選擇,最多顯示5個。
智能語音售票機需具有良好的實時響應性能和準確的乘客語音識別能力。因此,需能夠實時監測乘客靠近、高抗擾語音識別和提供無延遲綜合服務。
本文從麥克風陣列的抗噪性能、智能TVM總體技術性能和用戶體驗3個角度分析應用效果。
通過仿真計算得到基于8個麥克風的線性陣列和語音增強技術的波束圖,如圖6~7所示。圖6中,兩側旁瓣相對于正前方主瓣至少弱18 dB,圖7中的也至少弱13 dB。可見,該語音增強技術可有效提升正前方聲音增益,屏蔽側方其他TVM的乘客語音。結合人臉識別和關鍵點定位,可進一步在時域或空間域處理目標語音,消除其他方向的干擾。
在實際應用中,通過測試驗證,該智能語音售票機可滿足以下性能指標:
1) 在80~90 dB的強噪聲環境下仍然可以正常工作;
2) 滿足人距離設備1 m以內的語音交互場景;
3) 支持免喚醒語音輸入、拼音首字母輸入和模糊地點查詢功能;
4) 設置地鐵車站名詞415個(涵蓋所有地鐵站名),導入上海地標、景區、地鐵周邊設施、小區等名詞近3 000個(幾乎涵蓋所有地點);
5) 地址名詞正確率>90%;
6) 網絡通暢時,時延≤0.5 s;
7) 支持地址模糊查詢;
8) 滿足IP54(防塵防水等級)、部署、長期維護和檢測、數據統計等各類其他要求。
在上海軌道交通漢中路站進行了傳統售票機和智能語音售票機的購票測試。共采集兩種售票機的購票時間數據樣本89個。購票時間是指用戶開始與TVM交互,至購票結束為止所用時間。傳統售票機用戶平均購票時間為30.64 s,而智能語音售票機的僅需11.85 s,大大提升了售票效率。
本文探討了智能語音售票機系統麥克風陣列語音增強技術、人臉關鍵點識別技術及多模態信息融合技術,介紹了具體硬件架構和業務流程。智能語音售票機系統可實現乘客智能語音購票、縮短乘客購票時間、減少購票排隊壓力,同時也能有效降低設備故障率及維修人力、物力的投入,提升服務質量。