基于Alot的智能語音交互助手

2022-07-19 09:35:04張志良孫曉虎申亞坤

計算機與網絡 2022年11期

張志良孫曉虎申亞坤

基于智能物聯的語音交互，可以為人們提供更加舒適便捷的家居服務，實現真正的智能家居。以下提到的系統開發利用計算機技術、數字技術和短消息等多種技術，并結合百度鴻鵠語言芯片，將其應用到家居場景中，以實現基于Alot的智能語音交互助手，同時使用語音識別模塊改善整個系統，建立真正的智能家居，為人們提供更加舒適、便捷的服務。

與傳統物聯網（IoT）相比，智能物聯最大的不同就是：前者是人說出自己的需求讓機器做，后者是機器發現人類的需求主動做，這不僅僅是錦上添花了，一旦接入AIoT以后，用戶的生活方式將會發生改變。隨著科學技術的發展，IoT在遠去，AIoT在崛起，AIoT智能語音交互機器人的本質和目標就是為人提供存在推理、分析并作出自主決策的智能家居。基于語音識別、語音合成、自然語音理解等技術，賦予設備“會聽”“會分析”“會說”的功能，讓用戶和設備進行智能的人機交互。

百度鴻鵠語音芯片提供基礎的信號處理和喚醒能力，提供完整的語音處理硬件模組方案輸出，通過SDK輸出包括遠場信號處理、語音喚醒、廠商定制喚醒，語音識別、語義理解和語音合成等完整的AIoT語音解決方案，通過百度鴻鵠語音芯片的識別，最后控制電器完成家居智能化。

鴻鵠語音芯片

支持多達6路的麥克陣列語音信號輸入，并支持傳統數字信號處理時的雙聲道立體聲回聲消除、聲源定位和波束形成等。基于百度領先的Deep Peak和Deep CNN語音喚醒技術，實現復雜內外噪音場景下的高精準喚醒，單日誤報次數不大于1次。默認支持無網環境下智能物聯場景的語音識別，并支持車載場景下命令詞識別。

開發板ESP32-Korvo-DU1906

ESP32-Korvo-DU1906搭載百度鴻鵠語音芯片，采用2 mic設計，能夠實現5 m準確拾音，3 m內85 dB播放打斷喚醒功能，以及低于1天1次的誤報。它搭載了基于百度深度學習技術Deep Peak的高性能喚醒引擎和基于復數CNN的語音增強和聲學建模一體化建模技術，大幅提升了語音交互體驗。ESP32-Korvo-DU1906基于百度云端識別SMLTA模型，大幅度提升語音識別精度，同時還支持部分方言識別及中英文混合識別。實現端側全鏈路語音交互，與云端無縫打通，使語音操作方便快捷。

語音控制智能設備的運行流程如下：

拾音：通過單麥或麥克風陣列準確獲取到用戶語音信息；

自動語音識別：將前端拾音的語音信息轉化為文本信息；

自然語言處理：將文本信息轉化為機器語言；

平臺接入：通過各IoT平臺，接入不同廠商的設備，下達控制信息；

語音合成：帶有Speaker的設備結束控制操作后，播報結果語音，完成閉環；

最后通過語音完成對設備的操作，完成開燈，關燈，開啟風扇，抽水泵等操作。

終端在接收到本地語音信息后，通過AI鏈式語音語義服務將語音信息發送到百度語音云進行識別，再將云端反饋的數據解析并與本地設置指令匹配，獲得正確的控制指令。

通過服務器和網關將這些指令轉發給相應的設備進行指令的執行，可隨時隨地對家庭內部設備進行語音控制。

嵌入式便攜語音控制器在家庭內部通過家庭網關融入到智能家居無線傳感網中，終端在本地獲取語音信息后進行識別并將相應的控制指令轉發給網關，經由網關和服務器轉發給相應的設備進行動作指令的執行。

在鏈路調用上，為需要全套解決方案的客戶提供獨特的鏈式語音語義服務，具有一次調用三重結果的超高性能表現。同時也可以為具備一定基礎的客戶提供單項的AI能力拆解調用。鏈路支持底層與百度云IoT平臺直接打通，完美實現AI與IoT的有機融合。

整個系統硬件主要包括開發板ESP32-Korvo-DU1906，直流電機以及家居模型，通過內置的AIoT語音模組ESP32-DU1906和百度云端完成了智能的語音交互。