基于語音控制的人機交互智能系統研究*

2015-02-18 00:35:54梁漢泉陳錦彪

新技術新工藝 2015年9期

關鍵詞：研究

梁漢泉，陳錦彪

(廣東電網有限責任公司佛山供電局，廣東佛山 528000)

基于語音控制的人機交互智能系統研究*

梁漢泉，陳錦彪

(廣東電網有限責任公司佛山供電局，廣東佛山 528000)

摘要：語音控制是當前最具發展前景的新興技術之一,目前已廣泛應用于車載終端、智能機器人等場合。對語音識別在玩具車上的應用進行了深入研究。基于高度集成的DSP芯片進行語音控制系統的設計，使用了雙硅麥減噪，能夠獲取到清晰的音頻數據。根據DTW算法和動態模板匹配，對輸入語音信號進行了端點檢測，對特定人的孤立詞進行了識別。當多個語意近似詞匯無法準確識別時，提供選擇處理，使語音引擎對音質、音色的區別進行了靈活的處理，提高了識別率和用戶體驗感受。該語音識別在正常生活環境中進行了測試，能適應日常生活或工作環境。研究結果表明，此方案和算法具有準確的識別效果。

關鍵詞：語音控制；人機交互；智能系統；研究

語言是人類進行信息表達的最自然的手段。隨著技術的發展，以語音識別為核心的語音控制在汽車聲控、自動售票、智能玩具和智能家具等方面的應用越來越廣泛。語音控制方式的人機交互具有快捷、簡便的顯著優點，但由于人類語言的多樣化，語音控制的實現也存在一定的復雜性，需要在實踐中不斷研究并加以提升。筆者結合多年工作經驗，設計了一套語音控制系統，其特點是關鍵詞語列表可以任意動態編輯，小體積、低功耗和可通用，因此有著廣泛的應用前景。

1語音控制原理

語音控制的實現包含2個基本環節[1]：1)語音識別；2)語音與計算機交互。

1.1語音識別

語音識別的過程主要分2個階段[2]：1)訓練階段；2)識別階段。訓練階段是通過用戶輸入若干次訓練語音，經過預處理和特征提取后得到特征參數，最后通過特征參數建模達到建立訓練語音的參考模型庫的目的；而識別階段是將輸入語音的特征矢量參數和參考模型庫中的參考模型進行相似性度量比較，然后把相似性最高的輸入特征矢量作為識別結果輸出，從而達到語音識別的目的。語音識別的工作原理如圖1所示。

圖1　語音識別的工作原理

語音識別的關鍵技術包括：1)預處理，主要要做好語音識別基元選取和端點檢測，可采用的技術有反混疊濾波、模/數轉換和預加重等；2)特征提取，常用的特征采集函數為倒譜、共振峰、線性預測系數、平均能量和過零數等；3)距離測度，常用的方法有HMM距離測度、似然比測度和歐氏距離測度等。

1.2語音與計算機交互

該環節的過程為經識別的語音轉換成字符，計算機尋找與字符相匹配的指令集并調用相關指令，然后經計算機指令接口去觸發指令所代表的操作。關于第三方軟件的語音操作，可以通過統一的語音指令接口，由第三方軟件監聽相應的指令從而實現對第三方軟件的語音操作。

2語音控制系統的設計

2.1總體設計方案

目前，適用于語音控制的硬件芯片全部基于嵌入式原理[3]，具有代表性的有三星公司的S3C2440A、凌陽的SPCE061A和I-CRoute的LD332X等。考慮到語音處理涉及的數據運算量大，數據算法復雜，筆者結合現實環境，選用集中性強、功耗低的DSP類芯片來進行系統設計。系統總體框架如圖2所示。

圖2　語音控制系統的總體框架

SDRAM為數據存儲器，FLASH為程序存儲器，RPT2000為無線收發模塊，語音編解碼芯片為TLV320AIC23 B。經由麥克風的語音通過音頻解碼處理后傳送給DSP芯片，DSP根據預設算法進行分析，識別出語音控制命令。語音命令一方面送LCD顯示，另一方面通過無線方式與智能設備實現交互。

2.2語音識別的算法選擇

從計算量、移植便利性和語音識別率等多方面綜合考慮，本文選用DTW算法來作為本設計的算法。該算法的主要邏輯公式為[4]：

(1)

2.3系統軟件實現

軟件編制流程圖如圖3所示。

圖3　語音控制系統的軟件編制流程圖

語音編制解碼芯片與DSP之間用I2C總線互聯，系統啟動時，DSP通過CSL片上支持庫和MCBSP串口來分別完成對TLV320 AIC23的配置和讀寫操作。存儲器通過EMIF口與DSP進行雙向通信，主要存儲聚類過程中的模板。無線收發模塊有7個引腳，引腳功能配置通過DSP的I/O口進行。

3基于語音控制的智能系統結構

從工作模塊上講，基于語音控制的智能系統一般包括3個組成部分：上位機部分、區域控制器部分和核心控制中心。其中：1)上位機支持麥克風作為語音輸入接口，主要負責智能系統的系統管理、實時狀態監控等，是人機交互主界面；2)區域控制器由DSP處理器、外擴存儲器、CAN總線模塊和電源管理模塊等組成，負責指令的解析(包括經語音識別產生的指令)、信息的處理；3)核心控制中心的構成與區域控制器類似，唯有增加了編碼器接口模塊以及可能的電動機驅動模塊(如機器人控制就需要用到電動機驅動模塊)，負責完成指令的終極執行。

基于語音控制的智能系統工作模式如下：1)用戶的語音指令經麥克風輸入，上位機處理后產生計算機能理解的程序代碼；2)區域控制器通過通信網絡(如以太網)接收上位機給出的程序代碼，并進行解析計算，產生各類控制量；3)核心控制中心通過CAN總線接收控制量信息，輸出最終的控制信號，完成指令的執行。

4性能測試

4.1計算機仿真

對本文設計的語音控制系統進行簡單的計算機仿真，其結果見表1。其中，模板1表示對“1”的聚類，模板2表示對“2”的聚類，其余類推。顯然，在語音輸入“2”時，系統檢測到模板2與其最接近，因此判斷為“2”；在語音輸入“8”時，系統檢測到模板8與其最接近，因此判斷為“8”。仿真結果初步顯示了系統的有效性和正確性。

4.2用于對玩具小車的測試

將本次設計的語音控制系統用于玩具小車，分別針對2種情況進行測試：1)輸入語音的時間固定(如3 s)；2)輸入語音為語音流，即長短不一，需要進行端點檢測。為了保證檢測效果的合理性，在試驗中選擇了5個不同音色的人進行語音命令的發布。檢測結果的匯總(每次測試100遍)見表2。

表1　語音控制系統識別效果的計算機仿真

表2　不同音色人員應用語音控制系統的實際結果

實驗室測試結果顯示，本次設計的語音控制系統的控制成功率>98%，因此滿足國家要求，可將其投用于實際生產中。同時應認識到，測試樣本是基于實驗室環境的純凈樣本，當周邊噪聲增強時，識別率可能會有所下降。這也說明，語音控制的關鍵是要做輸入語音的預處理工作。

5提高語音識別率的措施探討

筆者結合多年工作經驗，總結出如下幾個提升語音控制水平的措施：1)盡量使用標準化語法、格式化語法進行命令表述；2)對應用系統的專業性詞匯進行容錯、近似詞匯定義；3)為應對標準語法命令(前半部分為指令抬頭，后半部分為執行內容)，應將識別文本定義為類似DOS命令及其參數格式的樣子，建立標準的指令通信接口和標準指令集；4)對存在多個近似詞匯的情形，可將疑似信息全部輸出，然后采用選擇題方法供用戶確認，這樣一方面增加了體驗感，另一方面也提高了準確性。

6結語

利用語音控制實現人機交互，一方面解放施令方的雙手，另一方面也便于實現遠程控制。可以說，語音控制技術是時代的前沿，也是各行各業應用的趨勢，應該加以快速推廣。本文主要就語音控制系統的設計進行了研究，同時對語音控制系統如何融入整個人機交互的智能系統做了闡述。運用實例證明，本文構建的語音控制系統簡捷、有效。當然，因語音自身的復雜性，以及周邊環境的影響，今后語音控制系統應在容錯、降噪等方面進行深入研究。

參考文獻

[1] 金鑫. 基于LD3320的語音控制系統設計實現[J]. 電腦與信息技術, 2011, 19(6):38-39.

[2] 鄭微. 基于DSP的智能語音控制系統設計[J]. 傳感器與微系統, 2012, 31(2)：48-50.

[3] 夏峰. 語音控制的多功能車載終端系統的設計與實現[J]. 機電一體化, 2013, 6(9)：173-174.

[4] 于春雪. 嵌入式語音控制選單系統的實現與應用[J]. 電聲技術, 2012, 2(1)：13-14.

* 中國南方電網有限責任公司科技項目(030600KK52140058)

責任編輯鄭練

Intelligent System Research based on Voice Control Human-computer Interaction

LIANG Hanquan, CHEN Jinbiao

(Foshan Power Supply Bureau, Guangdong Power Grid Co., Ltd., Foshan 528000, China)

Abstract：The voice control is one of the most promising emerging technologies, and it currently has been widely used in automotive terminals, intelligent robot, etc. The application of speech recognition in the toy car is studied. By DSP chips for voice control system based on a highly integrated design, use the double silicon wheat noise reduction to achieve the audio data clearly. Based on DTW algorithm and dynamic template matching, the input speech in signal endpoint is detected, and someone's isolated word is recognized. When multiple semantic approximation vocabulary is failed to be correctly identified, provide selection processing, make the speech engine timbre and tone color different for the flexible processing, improve the recognition rate and the user experience. The speech recognition is tested in the normal life environment, and it can adapt to application in daily life or work environment. The results show that the scheme and algorithm has accurate recognition effect.

Key words:voice control, human-computer interaction, intelligent system, research

收稿日期：2015-05-15

作者簡介：梁漢泉(1962-)，男，高級工程師，主要從事軟件工程及智能化應用等方面的研究。

中圖分類號：TP 183

文獻標志碼:B