蔡一帆 呂思雄 陳遠霞



摘 ? 要:文章介紹了一種基于在線語音識別及翻譯技術的智能警用隨身字幕馬甲產品??梢越鉀Q民警在夜間、雨雪天、高噪音等戶外環境下執行指揮交通、疏散群眾等任務時通過語音難以準確向民眾實時傳遞信息的痛點。系統主控模塊采用ESP32微處理器,在警用反光馬甲前后各配置一個柔性LED顯示屏。使用者說出的實時語音信息上傳到云服務器通過百度語音識別和語音翻譯技術返回相應文字信息,最終把字幕信息滾動顯示在馬甲的LED屏上。產品接入了百度文心一言大語言模型可以作為警用智能助手輔助民警日常工作,可翻譯多國語言(英語、日語、韓語等)做到邊說邊翻譯幫助民警與外國人溝通。系統可與城市智慧交通指揮調度系統連接,具有定位功能可通過微信小程序后臺遠程控制顯示屏播放。該系統具有結構簡單、成本低、識別準確率高、易擴展等特點,還可以為消防員、護林員等高噪音環境下特殊工種提供可視化交流工具。
關鍵詞:ESP32微處理器;非特定語音識別;百度云語音識別引擎;LED柔性顯示屏
引言
對于人類來說語音交互具有天然的便捷性和高效性,因此在許多領域中具有廣泛的應用前景。然而,語音交流也存在一些問題,例如在聲音傳播與接收受干擾的情況下信息難以被快速準確地記錄和理解。此外,信息的可視化程度不足也限制了語音交流在一些特殊場景下的應用。
本文利用麥克風、揚聲器、ESP32微處理器模塊[ 1 ]和柔性點陣式LED顯示屏模組設計制作一款基于在線語音識別轉文字技術[ 2 ]的智能馬甲控制系統,產品接入百度文心一言大語言模型可以通過自然語言對話獲取網絡數據庫信息,具有多國語言實時翻譯能力,可連接城市智能交通系統[ 3 ]獲取實時路況信息,實現城市道路交通狀態全息精準感知和分析研判,根據交警位置自動發布交管引導信息,協助交警實時通報路況及交通管制信息。
1 ?系統方案設計
本智能馬甲的系統結構框圖如圖1所示,主要由麥克風、信號處理模塊(VAD)、主控模塊(ESP32 MCU)、電源部分( LDO ) 、喇叭、柔性LED顯示屏等組成 ,硬件設計上實現了語音信號采集 、語音信號預處理 、語音信息存儲 、語音包上傳/下載、語音識別結果顯示、語音播放等功能,如圖1所示。
1.1 ?MCU 選擇
采用ESP32微處理器ESP32-WROOM-32開發板(圖2)是一款通用型Wi-Fi+BT+BLE MCU模組,功能強大,用途廣泛,可以用于低功耗傳感器網絡和要求高的任務,例如語音編碼、音頻流和MP3解碼等。此款模組的核心是ESP32-D0WDQ6芯片,兩個Xtensao 32-bit LX6 CPU核可以被單獨控制,運算能力高達600 MIPS。時鐘頻率的調節范圍為80 MHz到240 MHz,448 KB ROM · 520 KB SRAM?;緷M足本項目所需功能支持。
1.2 音頻采集模塊/語音播放模塊
對于戶外嘈雜場景采用3.5接口領夾式高清降噪麥克風,高保真智能降噪屏蔽設計,具有ATDA動態噪音抑制處理電路,自適應調節聲音強度和瞬間沖擊音,有效防止語音失真與衰減拾音效果極佳。音頻采樣電路選用差分放大電路[ 4 ],抑制共模干擾 ,放大有用信號 ,有效地解決采樣噪聲硬件預處理的問題 。揚聲器采用4歐3W喇叭,可外接藍牙音箱擴音,如圖3 。
1.3 ?LED顯示屏模組
第一代樣機采用LED點陣式串口屏,點陣規格16x64(圖4)。
第二代樣機采用彩色柔性LED顯示屏(圖5),防水防刮可彎折,更加貼近民警日常實際使用需求。
1.4 ?電源模塊
系統所有分立模塊采用5 V電壓標準,設計單節3.7 V鋰電池充放電及升壓電路。自帶過充、過放、過流保護功能滿足系統供電需求。
1.5 ?警用馬甲
采用目前警察通用多功能反光馬甲作為系統載體,前胸及后背通過魔術貼各粘貼一個防水柔性LED顯示屏。目前已與國內多家警服反光馬甲企業聯系達成定制合作,為后期產品量產做準備。
2 ?系統軟件設計
2.1 ?軟件設計整體思路
軟件系統的設計主要由以下四部分構成:
(1)語音芯片底層驅動。語音芯片接口定義,方便主程序調用。
ESP32 MCU主程序。本次系統開發采用 Arduino IDE 編 程 環 境[ 5 ]。Esp32 開 發 板 通 過麥克風錄制人聲音頻文件。開發板再與百度語音識別及翻譯云平臺建立連接,通過 HTTP 協議發送音頻文件上傳到云平臺,最后云平臺返回識別后的文本。再通過數據結構ESP32 內部建立動態鏈表,與返回的文字進行一一匹配。
(2)AI智能警務助手。對接百度文心一言大語言模型平臺[ 6 ],將文心一言API接口集成到ESP32主程序中,通過調用接口實現自然語言處理,文本分析處理,警務知識問答等核心功能。
(3)實時字幕翻譯。采用百度翻譯開放平臺的通用翻譯API[ 7 ]進行語音識別及中文翻譯英語、韓語、日語等多種語言,這種在線翻譯解決方案,基于百度提供的后臺云服務,具有功能強大、翻譯速度快、準確率高、翻譯質量高等特點。
2.2 ?語音識別算法
2.2.1 ?離線語音識別框架
作為嵌入式應用,語音識別默認會一直開啟,需要通過諸如:“你好,小智!”“翻譯模式”“檢查系統狀態”等預先設定語音喚醒系統方能響應不同功能。這個只能采用本地識別的方式,這就離不開算法模型和識別模型,而ESP32-A15是基于第三方esp_sr庫為基礎的。而esp_sr提供語音識別相關方向算法模型。
2.3 ?AI警務助手
本系統可接入百度文心一言大模型,實現智能回答問題。用戶可以通過語音指令向系統提出問題,系統可以利用百度大模型進行語義分析和回答。這一功能使得本系統更具有智能性和實用性,尤其體現在警員在執行任務過程中可以通過語音提問方式獲取法律、法條、管理規定、道路景點位置等知識,更好更快地為群眾提供幫助。
2.4 ?城市交管信息移動發布屏
本系統可接入城市級交通管理智慧大腦云平臺[ 8 ]讓交警的馬甲屏作為一個移動的交管信息發布提示牌,根據交警位置后臺自動推送附近道路的停車、擁堵、施工占道、交通管制信息,提醒所有可以注意到提示牌的駕駛員及時變道。功能架構如圖7所示。
3 ?系統整機調試及功能測試
3.1 ?樣機軟件調試及語音識別效果測試
為了驗證本系統語音識別的實用性和準確性,樣機完成后我們設計并進行了一系列實驗。首先,對在線語音識別技術進行了測試,將識別結果與標準答案進行對比。下面以 “ 天氣不錯、心情很好、注意安全、突破、完成、檢查系統狀態 ”這 6 個隨機設定詞為例 ,分別在安靜環境和火車站 ,抽取 20 位不同性別、不同年齡 和不同地域的人對本系統進行測試。測試結果 如表 1 所示。
實驗結果表明 ,安靜環境下平均識別時間在 0.77 s左右 ,滿足一定的實時性要求, 系統響應時間較快 。在安靜環境下系統對孤立詞的識別率達到了90%以上(個別2-3個詞匯的短名詞,因為存在多音字百度語音識別無法判斷使用者具體想表達的文字) ,在環境噪聲較強的火車站 ,系統的識別率下降 3% ~5% ,嘈雜環境的誤識率較高 ,可以通過改善麥克風硬件設備以及進一步優化算法提高識別率。
其次,我們對柔性LED顯示屏的顯示效果進行了測試,發現該顯示屏亮度高、色彩鮮艷、能夠滿足室外日間/夜間環境下的使用需求。
最后,我們對整個系統進行了測試,將使用者的語音指令通過ESP32傳輸到LED顯示屏上,并實時顯示文字信息,結果表明該系統響應速度快、穩定性高、可靠性好,能夠滿足系統設定的使用要求。
4 ?結束語
本智能警用馬甲的嵌入式語音識別系統是一種基于ESP32在線語音識別技術的LED顯示屏系統。不僅可以為民警日常工作帶來更加便捷、安全、智能的體驗,更在其他多種應用場景具有重要的應用價值和發展前景,可以廣泛應用于移動LED廣告背包、導游解說LED導覽牌、明星演唱會應援牌、車載后窗LED顯示屏、馬甲廣告屏等產品的改造提升。也可為消防員、護林員等高噪音環境下特殊工種提供可視化交流工具。
參考文獻:
[1] 范鎮業,王福順,段曉瑞,等. 基于esp32的智能便攜語音識別系統的淺略研究[J]. 電腦高手(電子刊),2020(1):559.
[2] 楊煥崢,楊國華,徐玲,等. 云端AI與本地相結合的嵌入式語音識別系統[J]. 寧波職業技術學院學報,2019,23(1):86-89.
[3] 樊晟姣. 新型智慧城市建設背景下智能交通系統設計分析[J]. 電子制作,2022,30(2):29-32.
[4] 李鴻,趙亞冬. 數字音頻功率放大器優化設計[J]. 電子設計工程,2011,19(14):101-103,106.
[5] 陳眾賢. 用Arduino玩轉掌控板(ESP32)Siri語音識別讀取傳感器數據網絡服務器應用示例2[J]. 無線電,2020(10):28-32. [6] 李登峰,王雷鳴,徐雪潔. 基于云平臺的自然語言識別系統的設計[J]. 信息技術,2017(11):117-120.
[7] 郝二偉. 基于百度云服務的在線翻譯軟件實現技術研究[J]. 數字通信世界,2019(12):106,7.
[8] 謝一明. 城市交通大腦應用現狀與業務體系研究[J]. 中國科技信息,2022(11):136-138.