智能語音識別系統在智能家居中的應用

2018-03-08 03:13:00胡冬琴王琳娜

科技資訊 2018年36期

胡冬琴　王琳娜

摘要：本設計采用高性能處理器，高速數據傳輸功能的802.11AC WiFi芯片以及語音處理DSP芯片為架構，利用智能麥克風為輸入口，通過語音識別技術構成整個技術平臺，收集到的語音數據會通過WiFi或者4G通訊模組被發送到云端服務器進行處理，組成一套完整的智能家居語音控制系統。

關鍵詞：語音識別智能家居 WiFi

中圖分類號：G64 文獻標識碼：A 文章編號：1672-3791（2018）12（c）-0040-02

1 智能家居的意義

在智能家居方面，總能聽到用戶對手機作為唯一入口的抱怨，客廳應該是一個首先受益于語音識別的地方，因為傳統電視遙控器的眾多按鍵就讓電視的操作很不方便，新的互聯網電視更是讓很多人尤其是老年人不知道怎么使用，而語音識別使得你可以直接對電視說出你想看什么節目，想看什么電影則更是會方便很多。其次是燈、空調、窗簾等這種高頻次簡單操作類的家居設備，語音識別將給人帶來大大的方便。目前，從目前國內外的研究情況來看，在智能家居應用中，以智能音箱、智能開關等家居為載體的語音識別技術應用越來越廣泛。利用亞馬遜的echo智能音箱、阿里巴巴的X1智能音箱等，都是行業的標桿性產品。因此，我們有必要研究出相關的應用方案，并在智能家居中推廣，利用語音識別技術去控制家里的冰箱、空調等設備。然后把這種研究成果轉化成課程改革項目并做成課程模塊進行推廣，具有很好的現實意義。

本項目主要使用高性能處理器，高速數據傳輸功能的802.11AC WiFi芯片以及語音處理DSP芯片為架構，搭建整個系統平臺，利用智能麥克風為輸入口，通過語音識別技術構成整個技術平臺，收集到的語音數據會通過WiFi或者4G通訊模組被發送到云端服務器進行處理，這樣就組成一套完整的智能家居語音控制系統。項目中涉及的語音處理DSP系統，使用業內最流行的Knowles公司的Audio DSP系統，具有非常高的處理性能，是目前應用最流行的語音處理芯片，非常適合應用在智能家居語音控制系統中。本項目涉及的智能家居語音控制系統主要使用全志公司的充電芯片、高端ARM A處理器芯片，以及博通公司的802.11ac WiFi芯片，集成在一起組成一款高性能的智能化的語音控制設備。

2 系統硬件設計

系統硬件設計主要是語音控制終端，終端的主要作用為：帶有麥克風陣列，可搜集各個方向的聲音，收集到的聲音被送到語音處理器進行語音喚醒，并把有用的語音信息進行語音識別，高性能處理器會根據識別的語音進行下一步的控制動作，控制相應的家居設備，一些設備信息和不能識別的語音信息將被傳到云端服務器。系統硬件主要包括ARM處理器、4G模塊、存儲器以及WiFi模塊，Audio處理器單元以及供電系統。

2.1 語音識別和麥克風陣列原理

所謂麥克風陣列就是放置在空間中不同位置的多個麥克風。根據聲波傳播理論，利用多個麥克風收集到的信號可以將某一方向傳來的聲音增強或抑制，利用這種方法，麥克風陣列可以將噪聲環境中特定聲音信號有效增強。麥克風陣列技術廣泛應用于智能家居中，它負責對從聲源來的聲音進行采集并進行識別，系統根據識別的結果進行動作的處理。麥克風陣列和語音識別的原理如下：模擬語音信號經語音處理器采樣，采樣的頻率設置為8kHz，則一秒鐘采樣8000次，一個采樣點按8bit的精度量化，那么一秒鐘就有8000×8bit=64×103bit≈8kByte（小于）。將采樣信號送入到RAM中；在系統RAM中，設置三段緩存區，每段大小為8kB，也就是一段緩存區存滿的時間為1s，三段緩沖區循環利用，提高系統的實時性；當一段緩存區數據填滿后，系統從緩沖區中取出數據，并對數據進行分析，首先對數字語音信號進行加窗分幀，采用漢明窗，取每幀的長度為20ms，幀移為10ms，每幀包括160個采樣點，進行端點檢測，若檢測到不是語音信號的起始點，則直接丟掉；若檢測到時是語音信號的起始點，則從該幀開始，對每幀數字信號提取特征參數，并存放到特征參數模板庫中，也即一段內存中，依此類推，當檢測到數字語音信號的終點時，則停止進行特征參數的提取和存放。循環進行，這個循環的次數即訓練要求的次數。

2.2 高性能ARM處理器

在本系統采用Rock Chip公司的高性能微處理RK3288，這是一款四核Cortex-A17，主頻為1.8GHz，被認為是近幾年應用最為廣泛的ARM處理器，支持MIPI、USB OTC、支持5路USB2.0 HOST等高性能數據傳輸和顯示接口，能夠滿足項目的研發需求。RK3288在整個系統如同人的大腦，它是整個系統的核心部分，它負責語音信號的收集并把這些語音信號進行識別，它要把這些從麥克風陣列采集到的數據進行“翻譯”，并根據這些指令去控制相應的控制設備。RK3288采用Linux操作系統，可以運行802.11ac/b/g/n/c無線通訊協議，使系統沒有4G網絡時與WIFI路由器連接。

2.3 無線通訊4G模塊及Wi-Fi模組

采用SIMCOM公司的SIM7600CE模塊作為整個系統的蜂窩解決方案，負責把需要發送的數據發送到云端服務器，SIM7600CE模塊可支持GSM、WCDMA、TDD-LTE和FDD-LTE功能，具有很高的性價比。SIM7600CE提供一路SPI接口，兩路SDIO接口電路，很方便的與MCU進行數據通信，也提供了一路USB2.0接口，以便于進行程序調試。采用博通BCM4356方案，通過PCIe接口與處理器連接，信號從天線到2.4G&5.8G的雙頻天線，到Diplexer 來進行天線頻率的選擇，進入到芯片內部進行處理。系統采用DDR3L類型的RAM和三星存儲器KLM8G1GEND，這兩種器件具有性能穩定，讀取速度快的特點，方便系統重啟時恢復。

3 系統軟件設計

系統軟件主要包括服務器軟件，以及語音控制終端軟件兩個部分組成，服務器端軟件主要存儲語音控制設備上傳得數據，以及供用戶通過Web的方式登錄服務器并去查詢設備的一些信息。數據服務器可分為前端頁面導航部分和后端架構模型部分，前端頁面導航部分負責展示系統的整體拓撲結構，后端架構中的Web Socket服務，負責服務器與網關的實時通訊。

采集端的軟件設計過程是：首先，用戶通過特定的語音去喚醒語音控制終端，語音控制終端通過麥克風陣列采集語音數據，采集到的數據被送到RAM中進行語音識別，由于Audio處理器內部的RAM比較小，只能識別少數的語音指令，大部分的語音指令需要通過麥克風陣列―――〉Audio 處理器―――〉高性能ARM處理器―――〉WiFI/4G模組，然后數據被發送到云端處理器進行語音分析，分析完成后會翻譯成約定的通訊協議通過云端服務器―――〉高性能ARM處理器，再通過路由器發送給其它設備進行相應指令的操作。

4 總結

從這個系統的架構來看，本系統的核心在于語音識別和云端部分的系統設計。本項目具有語音數據采集、識別、傳送、返回、執行的全過程，這是一個典型的物聯網系統架構，這樣架構的語音識別控制平臺，具有識別準確、反映迅速，執行快的特點，這樣的產品將會在智能家軍中會應用越來越廣泛。本系統架構簡單，開發快，成本低，產品化后肯定能夠快速的打開市場，為企業帶來價值。

參考文獻

[1] 俞棟. 語音識別實踐[m]. Kindle電子書，2016.

[2] 海登. 智能家居原理及應用[m]. 武漢：華中科技大學出版社，2014.

科技資訊2018年36期

科技資訊的其它文章: 結合具體案例淺談化學領域方法權利要求創造性的答復思路; 轉型發展背景下軟件工程專業人才培養研究; 學前教育專業鋼琴即興伴奏教學的實踐探索; 機器人VEX項目高中組競技實踐; 電力物資采購中的問題和對策; PDA運用與機動車查驗規范化建設要點淺析