基于DSP語音識別系統(tǒng)的設(shè)計

2016-11-15 23:55:27王宇彭森

卷宗 2016年8期

王宇?彭森

摘要：語言是人類相互間進行通信的最自然和最方便的形式，語音通信是一種理想的人機通信方式。要使機器人真于具有人的智能，人機間的語音通信就必不可少。因此，進行語音控制的研究工作具有實際意義和應(yīng)用前景。語音技術(shù)，包括語音識別、語音合成、關(guān)鍵詞檢出、說話人識別與確認、口語對話系統(tǒng)等，是現(xiàn)代人機交互的重要方式之一，具有廣泛的應(yīng)用前景。其中語音識別技術(shù)，尤其是連續(xù)語音識別技術(shù)，是最基礎(chǔ)、最重要的部分，而且已經(jīng)逐步走向成熟與實用。

關(guān)鍵詞：語音識別；動態(tài)時間規(guī)整（DTW）；數(shù)字信號處理器（DSP）

1 引言

語音識別按不同的角度有以下幾種分類方法：從所要識別的單位，有孤立詞識別、音素識別、音節(jié)識別、孤立句識別、連續(xù)語音識別和理解。目前已進入識別的語音識別系統(tǒng)是單詞識別。以幾百個單詞為限定識別對象。從識別的詞匯量來分。有小詞匯（10-50個）、中詞匯（50-200個）、大詞匯（200以上）等。從講話人的范圍來分。有單個特定講話人、多講話人和與講話者者無關(guān)。特定講話人比較簡單，能夠得到較高的識別率。后兩者難度較大，不容易得到高的識別率。從識別的方法分。有模塊匹配法、隨機模型法和概率語法分析法。這三種都屬于統(tǒng)計模式識別方法。

2 系統(tǒng)硬件及組成

2.1 系統(tǒng)概述

語音識別系統(tǒng)的典型實現(xiàn)方案如圖1所示。輸入的模擬語音信號首先要進行預(yù)處理，語音信號經(jīng)過預(yù)處理后，接下來重要的一環(huán)就是特征參數(shù)提取，其目的是從語音波形中提取出隨時間變化的語音特征序列。然后建立聲學(xué)模型，在識別的時候?qū)⑤斎氲恼Z音特征同聲學(xué)模型進行比較，得到最佳的識別結(jié)果。

2.2 硬件構(gòu)成

本文采用DSP芯片為核心（圖2所示），系統(tǒng)包括直接雙訪問快速SRAM、一路ADC/一路DAC及相應(yīng)的模擬信號放大器和抗混疊濾波器。外部只需擴展FLASH存儲器、電源模塊等少量電路即可構(gòu)成完整系統(tǒng)應(yīng)用。

2.3 系統(tǒng)主要功能模塊構(gòu)成

語音處理模塊采用TI TMS320VC5402， TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM，一個HPI（HostPortInterface）接口，二個多通道緩沖單口MCBSP（Multi-Channel Buffered SerialPort），單周期指令執(zhí)行時間10 ns，帶有符合IEEE1149.1標準的JTAG邊界掃描仿真邏輯。語音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC，它是一款集成ADC和DAC于一體的模擬接口電路，并且與DSP接口簡單，性能高、功耗低，已成為當(dāng)前語音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu)，音頻采樣頻率為2～22.05 kHz，內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片，還有一個能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個定時器（調(diào)整采樣率和幀同步延時）和控制器（調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式）。TLC320AD50C與TMS320VC5402的硬件連接，如圖3所示。

3 結(jié)論

本文以TMS320VC5402芯片為核心的系統(tǒng)硬件設(shè)計迸行了研究，通過TLC320AD50C對語音信號進行A/D轉(zhuǎn)換，通過TMS320VC5402對語音信號“0”、“1”、“2”進行訓(xùn)練和識別，并由對于燈LED0、LED1、LED2亮來顯示結(jié)果是否正確；該系統(tǒng)核心識別算法采用動態(tài)時間規(guī)整（DTW）算法，主要流程包括預(yù)處理、端點檢測、提取特征值、模式匹配和模板訓(xùn)練，取得了很好的識別效果。

參考文獻

[1] 朱銘鋯，趙勇，甘泉. DSP應(yīng)用系統(tǒng)設(shè)計 [M].北京：電子工業(yè)出版社，2002.

[2] 郭華. 自適應(yīng)濾波算法及應(yīng)用研究[D].蘭州：西北師范大學(xué)，2007.

[3] 張雄偉..DSP芯片的原理與開發(fā)應(yīng)用[M].北京：電子工業(yè)出版社，2009.

[4] 張德豐. 數(shù)字圖象處理（MATLAB版）[M].北京：人民郵電出版社，2009.

作者簡介

王宇，邵陽學(xué)院魏源國際學(xué)院電子科學(xué)與技術(shù)專業(yè)學(xué)生。

通訊作者

彭森，邵陽學(xué)院信息工程系教師。

卷宗2016年8期

卷宗的其它文章: 建筑語言構(gòu)建; 關(guān)于《凡途》攝影展; 淺析互聯(lián)網(wǎng)時代韓國電影產(chǎn)業(yè)營銷策略研究; 基于文化認同視角分析新媒體培育大學(xué)生的社會主義核心價值觀認同感; 聚丙烯發(fā)泡材料研究進展; 試論建筑工程深基坑支護技術(shù)及監(jiān)測