王宇?彭森


摘 要:語言是人類相互間進行通信的最自然和最方便的形式,語音通信是一種理想的人機通信方式。要使機器人真于具有人的智能,人機間的語音通信就必不可少。因此,進行語音控制的研究工作具有實際意義和應用前景。語音技術,包括語音識別、語音合成、關鍵詞檢出、說話人識別與確認、口語對話系統等,是現代人機交互的重要方式之一,具有廣泛的應用前景。其中語音識別技術,尤其是連續語音識別技術,是最基礎、最重要的部分,而且已經逐步走向成熟與實用。
關鍵詞:語音識別;動態時間規整(DTW);數字信號處理器(DSP)
1 引言
語音識別按不同的角度有以下幾種分類方法:從所要識別的單位,有孤立詞識別、音素識別、音節識別、孤立句識別、連續語音識別和理解。目前已進入識別的語音識別系統是單詞識別。以幾百個單詞為限定識別對象。從識別的詞匯量來分。有小詞匯(10-50個)、中詞匯(50-200個)、大詞匯(200以上)等。從講話人的范圍來分。有單個特定講話人、多講話人和與講話者者無關。特定講話人比較簡單,能夠得到較高的識別率。后兩者難度較大,不容易得到高的識別率。 從識別的方法分。有模塊匹配法、隨機模型法和概率語法分析法。這三種都屬于統計模式識別方法。
2 系統硬件及組成
2.1 系統概述
語音識別系統的典型實現方案如圖1所示。輸入的模擬語音信號首先要進行預處理,語音信號經過預處理后,接下來重要的一環就是特征參數提取,其目的是從語音波形中提取出隨時間變化的語音特征序列。然后建立聲學模型,在識別的時候將輸入的語音特征同聲學模型進行比較,得到最佳的識別結果。
2.2 硬件構成
本文采用DSP芯片為核心(圖2所示),系統包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應的模擬信號放大器和抗混疊濾波器。外部只需擴展FLASH存儲器、電源模塊等少量電路即可構成完整系統應用。
2.3 系統主要功能模塊構成
語音處理模塊采用TI TMS320VC5402, TMS320VC5402含4 KB的片內ROM和16 KB的雙存取RAM,一個HPI(HostPortInterface)接口,二個多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort),單周期指令執行時間10 ns,帶有符合IEEE1149.1標準的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一體的模擬接口電路,并且與DSP接口簡單,性能高、功耗低,已成為當前語音處理的主流產品。16位數據結構,音頻采樣頻率為2~22.05 kHz,內含抗混疊濾波器和重構濾波器的模擬接口芯片,還有一個能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內還包括一個定時器(調整采樣率和幀同步延時)和控制器(調整編程放大增益、鎖相環PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接,如圖3所示。
3 結論
本文以TMS320VC5402芯片為核心的系統硬件設計迸行了研究,通過TLC320AD50C對語音信號進行A/D轉換,通過TMS320VC5402對語音信號“0”、“1”、“2”進行訓練和識別,并由對于燈LED0、LED1、LED2亮來顯示結果是否正確;該系統核心識別算法采用動態時間規整(DTW)算法,主要流程包括預處理、端點檢測、提取特征值、模式匹配和模板訓練,取得了很好的識別效果。
參考文獻
[1] 朱銘鋯, 趙勇, 甘泉. DSP應用系統設計 [M].北京:電子工業出版社,2002.
[2] 郭華. 自適應濾波算法及應用研究[D].蘭州:西北師范大學,2007.
[3] 張雄偉..DSP芯片的原理與開發應用[M].北京:電子工業出版社,2009.
[4] 張德豐. 數字圖象處理(MATLAB版)[M].北京:人民郵電出版社,2009.
作者簡介
王宇,邵陽學院魏源國際學院電子科學與技術專業學生。
通訊作者
彭森,邵陽學院信息工程系教師。