陳衛兵,何必都,黃永坤,鄒豪杰,張洪波
(湖南工業大學 計算機與通信學院,湖南 株洲 412007)
語音識別是將原始語音經過預處理后進行特征提取,再與事先經測試和訓練后所得并存儲到計算機的標準參考模型進行比較,最后得出判定和識別結果。20年來,語音識別技術取得了較大發展,它經歷了從孤立詞、小詞匯量、特定人到大詞匯量、非特定人的發展歷程[1]。但語音識別的計算量較大,難以實時實現,此問題制約著它在各個領域內的應用。目前,隨著數字信號處理(digital signal processing,DSP)專用集成電路技術的迅速發展[2-3],語音識別,尤其是計算量較小的非特定人的孤立詞識別的實時實現成為可能。
電梯行業中,傳統的電梯控制器要求人們通過按電梯的樓層按鈕來確定需要到達的區域。當電梯中人數較多、較擁擠時,按鍵很不方便??紤]到語音的非接觸傳輸特點,將語音識別和控制技術用于電梯中,將使傳統的電梯更加人性化、便捷化。因此,本文擬以TMS320C6713 DSP芯片作為系統運算控制中心,TLV320AIC23B芯片作為語音輸入、輸出的模擬前端,EP2C5Q208C8 FPGA芯片作為系統IO擴展,將這3個部分有機結合,開發基于非特定人、孤立詞、小詞匯量的嵌入式語音識別電梯控制系統,以解決多人乘坐電梯時按鍵不方便的問題。

圖1 系統總體結構框圖Fig.1 Block diagram for the overall system
從圖1可看出,所設計的語言識別控制系統主要由TMS320C6713 DSP語音識別處理芯片、TLV320AIC23B語音輸入/輸出的模擬前端芯片、電梯控制接口擴展FPGA芯片和其他輔助芯片(外部儲存器SDRAM選用MT48LC4M16A2,大小為64 MB,對應地址為:0x80000000H~0x82FFFFFFH。
FALSH采用AM29LV800B,大小為2 MB,對應地址為0x90000000H~0x90200000 H組成。TMS320C6713為高性能32位浮點DSP,適用于專業音頻信號處理,主頻達300 MHz,處理速度達2400 MIPS/1800 MFLOPS,能滿足快速運算和處理時間的語音識別要求。
TI公司的TLV320AIC23B是一款集成ADC(application data center),DAC(digital analog canverter)于一體的模擬接口電路,采用先進的Sigma-delta過采樣技術,可在8 kB~96 kB采樣率范圍內提供16,20,24,32 位采樣,ADC和DAC的信噪比可分別達90 dB和100 dB。其與外圍音頻輸入設備的接口電路如圖2所示。

圖2 音頻輸入電路Fig.2 Audio input circuit
TMS320C6713與TLV320AIC23B連接方式見圖3。

圖3 TMS320C6713與TLV320AIC23B硬件連接Fig.3 The hardware connection between TMS320C6713 and TLV320AIC23B
TLV320AIC23B的控制口用于設置其工作參數,采用I2C總線口1實現;數據口用于傳輸TLC320AD50B的A/D,D/A數據,TLV320AIC23B的數據口與TMS320C6713的McBsp0接口連接,用于芯片間的數據交換。
語音識別系統的總體方案見圖4。

圖 4 語音識別方案Fig.4 The program of speech recognition
語音識別系統首先將收集到的語音信號進行預處理,包括預加重、加窗、端點檢測等;然后進行特征提取,即從語音波形中提取出隨時間變化的語音特征序列;最后,將其訓練為聲學模型,并且在模式匹配中運用識別算法進行匹配,得到最佳識別結果。
端點檢測之前先對采集到的語音信號進行預加重,以去除語音信號中的低頻噪聲,然后選用hamming窗做加窗處理。主要依據為hamming窗主瓣比矩形窗的主瓣寬度大1倍,同時其帶外衰減也比矩形窗大1倍多,因而不會損失信號中的高頻成分。加窗后將語音信號分割為幀。
端點檢測就是從含噪聲的信號中檢測出說話人語音信號的起始點和結束點。只有正確檢測出語音信息段才能正確地進行語音處理。端點檢測的時域處理方法是:首先在當前環境情況下,采集一段無聲語音,求出平均過零率。由于采集聲音信號的最初的短時段為無語音段,僅有均勻分布的背景噪聲信號。這樣就可以用已知為“靜態”的最初幾幀(一般取10幀)信號計算其過零率閾值,以此作為無語音段,當過零率變化時作為語音的起始。語音結束點的獲得方法與此相同,從后向前搜索,當超過過零率的變化時作為語音的結束。
特征參數提取[4]是指從語音信號中抽取有效的語音信號特征,提取算法如下:
1)對信號進行短時傅里葉變換得到頻譜。
2)求頻譜幅度的平方得到能量譜,再用一組三角形濾波器在頻域內對能量譜進行帶通濾波;設濾波器數為M,濾波后得到的輸出為X(k),k=1,2,…,M。
3)對濾波器組的輸出取對數,然后對它做2M點逆離散傅里葉變換,得到Mel頻率倒譜系數(mel frequency cepstrum coefficient,MFCC)。因為對稱性的關系,變換式可簡化表示為:

式中L 為MFCC系數的個數,本系統取24個。
采用動態時間彎折(dynamic time warping,DTW)算法[5]進行模板匹配:假設參考模板的MFCC系數向量序列為X=(x1, x2,…, xi),輸入語音的MFCC系數向量序列為Y=(y1, y2,…, yj),i≠j。DTW 算法就是要尋找一個最佳的時間規正函數,使待測語音的時間軸j非線性地映射到參考模板的時間軸i上,因而總的累計差值最小。算法過程如圖5所示。

圖5 DTW算法過程Fig.5DTW algorithm process
圖5中曲線連接起來的點就是模板與待測語音信號間的距離d(xi(n),yj(n)),亦稱為局部匹配距離。DTW 算法就是通過局部優化的方法實現加權距離總和最小,也就是相似度最大,即

軟件設計以TI DSP/BIOS實時多任務操作系統為軟件設計基礎,采用圖像界面配置DSP/BIOS,在開發環境中自動生成.cmd文件。使用TI的TMS320C6000 Chip Support LibraryAPI Reference Guide進行EMIF,McBsp,PLL等初始化操作。通過I2C總線端口1配置TLV320AIC23B芯片,McBsp0口與TLV320AIC23B相連實現語音信號采集。端點檢測、MFCC和DTW模板匹配用C語言編寫。系統實現的主流程見圖6。

圖6 程序主框圖Fig.6 The block diagram of main program
TLV320AIC23 內部有11個16位寄存器,這16位控制字中,B[15~9]為寄存器的地址,B[8~0]為要寫入寄存器的數據。寫入11個寄存器的數值如下:左聲道輸入控制=0x17;右聲道輸入控制=0x17;左耳機通道控制=0x7F;右耳機通道控制=0x7F;模擬音頻通道控制=0x1C;數字音頻通道控制=0x1;啟動控制=0;數字音頻格式=0x4F;樣本速率控制=0x3F;數字界面激活=0x01;初始化寄存器=0。設置完成后,啟動A/D 轉換,將轉換后的數據存儲在DSP的內部存儲器中,每次采樣128點。數據采集流程見圖7。

圖7 音頻數據采集Fig.7 Audio data acquisition
每次測試的采樣數為128點,采樣頻率設為44.1 kHz,樣本大小為16位。在類似電梯的環境中進行測試,所得結果見表1。
從表1中可以看出,所設計的控制系統總的平均識別率大于80%。且女性的測試結果普遍比男性好,這應該歸屬于男性聲音中濁音分量比女性重,導致在系統識別時難度加大。

表1 語音識別電梯控制測試結果Table 1Test results of elevator speech recognition control
本研究是在以TMS320c6713為控制核心,TLV320AIC23B芯片為語音輸入、輸出的模擬前端,EP2C5Q208C8 FPGA芯片為系統IO擴展的情況下,設計和實現了非特定人、孤立詞、小詞匯量的嵌入式語音識別電梯控制系統。測試結果表明:所設計的系統的識別和控制效率達80%以上,該系統具有較好的應用前景。
[1]趙 力.語音信號處理[M].北京:機械工業出版社,2009:114-117.Zhao Li.Speech Signal Processing[M].Beijing:Mechanical Industry Press,2009:114-117.
[2]周 霖.DSP通信工程技術應用[M].北京:國防工業出版社,2004:145-189.Zhou Lin.DSP Communications Engineering Technology[M].Beijing:National Defence Industry Press,2004:145-189.
[3]鄒 彥.DSP原理及應用[M].北京:電子工業出版社,2005:114-117.ZouYan.DSP Principles and Applications[M].Beijing:Electronic Industry Press,2005:114-117.
[4]侯雪梅,田 磊.基于Mel倒頻特征和RBF網絡的孤立詞語音識別方法[J].西安郵電學院學報,2008,13(3):114-117.Hou Xuemei, Tian Lei.Speech Recognition Method of Isolated Words Based on Mel Cpestrum Feature and RBF Neural Network[J].Journal of Xi’an University of Post and Telecommunications,2008,13(3):114-117.
[5]萬 春.基于DTW的語音識別應用系統研究與實現[J].集美大學學報,2002,7(2):104-108.Wan Chun.Research and Application of DTW-Based Speech Recognition[J].Journal of Jimei University,2002,7 (2):104-108.