便捷式售貨智能語音交互系統的設計與實現

2021-01-25 01:40:04王秀旭李川鵬王耀福

汽車實用技術 2021年1期

王秀旭，李川鵬，王耀福

（中國汽車技術研究中心有限公司，天津 300300）

引言

隨著居民生活水平的逐漸提高，以及科學技術的飛速發展，終端商品銷售渠道向無人化趨勢發展；其中無人售貨機器將成為推動終端“新零售”的主力軍，用戶作為無人零售機器的終端用戶，用戶體驗的便捷性、高效性直接關系到零售機器產品本身的銷量和零售機器貨物的銷售額，傳統零售機器的控制主要采用手動觸摸顯示屏，在觸摸屏上選擇購買的商品，電機結算，然后選擇支付方式（刷臉支付或二維碼支付），最后支付完成。對于智能化高度發展的今天，普通的點觸方式已不能滿足消費者的需求，在零售過程中如何更智能、更便捷地操作，成為亟需解決的問題，同時也影響著消費者的用戶體驗。

隨著智能語音識別技術的發展，語音識別率的逐漸增加，智能語音技術在智能家居場景開始不斷應用，在智能語音零售機器的產品已成為未來的發展趨勢，也將在未來市場中占有更高的市場保有率。本文將以智能零售控制技術為基礎，結合智能語音識別技術，進行數據的嵌入融合，對智能語音控制系統進行設計，實現零售機器可通過語音完成商品的無接觸購買，使得消費者擁有更便捷、高效的交互體驗。

1 設計方案

1.1 系統設計和功能設計

系統包括軟件和硬件系統，系統操作軟件將在Linux平臺下，運用語音識別技術和零售控制技術，實現零售的智能語音控制。包括嵌入式（Linux）軟件平臺、語音識別處理平臺、通訊技術、硬件平臺（Cortex-A7），實現零售機器的智能控制?？傮w設計如圖1所示。

圖1 總體設計

嵌入式（Linux）軟件平臺包括語音識別處理APP、零售控制平臺和無線通信處理模塊，實現語音識別算法處理、語義分析處理、零售控制邏輯處理以及遠程控制等功能。語音識別處理平臺通過云知聲識別模塊，實現系統的語音喚醒、語音識別和語音合成。硬件平臺（Cortex-A7）包括處理器模塊、MIC語音輸入、Speaker語音輸入、顯示模塊、通信模塊組成，實現語音采集、輸出及通信控制[1]。系統主要實現以下功能：

（1）實現語音控制零售機器開機和關機；

（2）實現語音選擇商品的種類、數量；

（3）實現語音選擇商品支付方式，并可刷臉支付；

（4）實現智能語音對話，天氣查詢、地理信息查詢等技能。

1.2 硬件設計

在上述功能需求下，以及軟件的要求，對市場中各硬件模塊組件進行調研，篩查包括語音交互模塊、處理器模塊、顯示模塊、通訊模塊等并對其進行分析：

（1）語音交互模塊：對市場中語音設備進行分析，語音硬件設備將選用同心雙環陣列布局，根據同心雙環特點車身外殼進行了對應的出音孔設計，最遠可實現4米語音識別，識別率在95%以上；并配備有一個智能擴音器，同時受自身和外界雜音干擾小。

（2）處理器模塊：對比分析后選用 Cortex-A7內核的RK3308處理器，四核、主芯片內置音頻CODEC和ADC，為滿足支持多喚醒詞和命令詞，選用64M內存和256M滿足計算和存儲要求，整體硬件系統支持多種喚醒詞，可滿足用戶正常的零售商品購買需求[2][3]。

（3）顯示模塊：選用高精度一體式工業顯示屏，通過觸屏可實現控制零售機器開啟、關閉、購買、宣傳等信息；語音購買流程的顯示，以及下一步的提示都會在顯示屏中呈現。

（4）通訊模塊：本系統通過總線與零售機器進行通訊，依據兩芯雙絞線實現無極性通信及供電，不用另外布置線束供電。

1.3 軟件設計

語音識別與零售機器控制軟件：可以實現語音接收、語音的智能識別和智能語音播報，語音識別和零售機器控制之間建立通訊連接，并在一個服務器下運行，根據特定的串口信號通信。語音識別模塊可通過串口將控制命令發送給零售機器控制板上，售賣機器控制板根據語音識別模塊發送的控制命令，對語音進行識別解析處理，將需要播放顯示的提示內容發送到工業顯示模塊中，同時發送給語音識別模塊，語音識別模塊對需要播報的內容進行在智能擴音器上播報。

語音模塊和顯示屏中購買APP都是由無線通訊組成，實現在線語音識別時，與人的交互以及與服務器的交互，語音識別 APP將識別的語音字段發送到服務器進行語義分析和識別，語義服務器將識別結果反饋到語音開發板中，通過與零售機器的通訊連接，將實現對售賣APP的智能控制，從而可實現通過語音選擇商品種類和數量，并可完成移動支付（刷臉支付），從而實現無接觸式商品購買。

1.4 語音識別模塊

整體采用云端語音識別技術，加入內置算法組件，可實現在無網離線狀態下進行語音識別，通過無線連接可同云端語義服務器實現在線語音識別服務。語音接收模塊可通過語音引擎中的回聲消除、抑制混響、空域濾波等處理技術，將雜亂聲音過濾掉，實現對清晰語音的獲取；在通過語音識別和語義理解，實現自然語言命令的解析，并通過語音合成技術，實現對操作軟件中的命令指令的控制處理。

實現語音購買商品的目標，為提高不同環境、不同人員、不同發音、非特定距離等情況下的識別效果要求，對語音模塊進行了多喚醒詞設計、隱含命令詞設計、多領域設計。多喚醒詞設計主要針對不同的使用對象，可突出不同的主體，本系統喚醒詞分別為：小智小智、小美小美、小虎小虎等；隱含命令詞設計最主要方便用戶交互溝通，無需對固定話語進行死記硬背，通過識別特定命令詞的固定組合并可支持擴展隱含命令詞的使用，通過不同組合、不同順序、相近含義的命令詞設計，可很大程度減輕用戶的記憶壓力，同時提高用戶體驗；多級喚醒設計；多知識領域設計針對零售機器涉筆的使用性能，識別中增加了天氣預報、在線/離線音樂、熱點新聞、交通限行咨詢等，滿足用戶日常生活咨詢需求，增加語音交互服務體驗感。

2 系統測試與驗證

根據語音識別功能的使用環境和性能要求，選擇在安靜和有雜音環境兩種不同環境下進行測試。選取男聲和女聲不同音色，對喚醒率和識別率兩個指標進行了實測，在1米距離內分別選擇了100個男聲和100個女聲，男聲和女聲主要選擇了16至55歲區間的年輕主力消費群體，通過實測男聲和女聲對喚醒率和識別率基本一致，受影響程度可忽略不計，最終平均喚醒率為 99.5%，平均識別率為 99.3%，整體性能較為穩定。另外又對這100人（50男聲和50女聲）在安靜和有雜音兩種環境下同系統設備的相對識別距離進行測試，最終在4米以內識別率可達95%以上，4-5米之間識別率在80%左右，5-6米之間識別率在50%左右，6米以上識別率在20%以下。上述測試都是在同一分貝音量下進行的，當聲音分貝增大時，喚醒率和識別率整體略有增加；當聲音分貝減輕時，喚醒率和識別率整體略有減少。

3 結論

本系統通過語音識別技術、嵌入式、通訊技術，將終端零售機器的控制與語音應用相結合，實現了零售機器產品語音智能控制。本方法將商品終端售賣方式做到了全程語音交互、無接觸式使用體驗，實現正常距離內自然語音下95%以上識別率的效果，目前該系統以搭載到智能售賣車中性能穩定、體驗良好。相信隨著智能家居和物聯網應用場景下的不斷成熟，語音識別技術、AI技術和通信技術的不斷進步，智能終端售貨機器的語音控制系統將會不斷更新優化，用戶體驗更加人性化，實現更高效、便捷、友好的交互體驗[4]。