陸遠遠 馬斌 夏建草 范蕾
摘 要:隨著語音識別技術的迅速發展,它在通信與電子,信息處理等領域呈現出巨大的潛力。我們已經能夠把語音識別系統集成到芯片中,可以滿足語音撥號,語音查詢,語音應答等功能。
本文從設計基于語音識別技術的智能開關出發,設計語音控制的臺燈。闡述了智能開關的硬件及其結構,軟件及其語音算法和電路設計。硬件采用語音識別芯片LD3320和STC11L08XE主控芯片,實現對語音的控制和識別。軟件采用非特定語音識別技術(ASR)。實現了語音控制臺燈的開關以及亮滅的同時,使用者還可以通過不同的指令實現同一控制,達到一位多控的目的。
關鍵詞:語音識別芯片;ASR技術;一位多控
中圖分類號: TN912 文獻標識碼: A 文章編號: 1673-1069(2016)24-175-2
1 語音識別技術簡述
本項目所用的是非特定語音識別(SI-ASR,Speaker Independent Automatic Speech Recognitich)技術。高級工程師分析語音模型中各個基元語音時,只有讓它的統計概率最優化,才能使語音模型轉化的硬件芯片具有普適性。因此工程師建立了數學模型,通過對數千人數萬小時的有效聲音數據進行采集分析,反復訓練提取,比較各個語音基元的特征差異和細節特征,最后得到算法和語音模型,并將其應用到嵌入式系統中。故而這是一項基于“關鍵詞語列表”的非特定語音識別技術。ASR技術每次識別的時候,把語音流做頻譜分析,提取其中的語音特征后,通過語音識別器將其與“關鍵詞列表”中的預設值進行比較,得出最接近其中的一個預設值作為識別結果。本項目所使用的LD3320芯片便是基于此項技術的嵌入式芯片。
2 語音電路硬件設計
2.1 總體設計
整個系統的硬件電路主要包括核心主控制部分、語音識別部分和照明電路部分。主控制部分設計是以STC11L08XE為核心的控制電路,語音識別部分設計是以LD3320語音芯片為核心的語音電路,照明電路部分則通過搭建LED點陣以及其他電路構成。使用者的語音通過麥克風進入語音識別部分,經過LD3320處理后,將數據并行傳輸到控制電路,通過控制器處理過后,發送指令控制照明電路。基本設計如圖1所示:
■
圖1 語音識別的臺燈電路圖
2.2 主控模塊
由于要處理來自語音芯片的數據,因此要求控制芯片的處理速度要快,抗干擾能力強,功耗要低。同時考慮到市場價格等問題最終采用STC10LO8XE單片機。STC11L08XE的定時器0/定時器1/串行口與傳統8051兼容,增加了獨立波特率發生器,省去了定時器2。與傳統8051的指令相比,執行速度全面提速,比最慢指令快三倍,比最快的指令快二十四倍。它的工作電壓為3.3—5.5V,擁有40個I/O接口,512字節的SRAM和8K的FLASH,內部集成高可靠復位電路。因此足以滿足主控制系統的需要。
2.3 語音識別模塊
LD3320芯片不需外接 Flash和 RAM等存儲設備,它的內部集成了快速穩定的優化算法。而且LD3320芯片也不需要使用者事先訓練和錄音。語音識別芯片內部集成了AD/DA,所以它要完成的工作就是:為得出得分最高的關鍵詞語作為識別結果輸出。通過把麥克風輸入的語音進行頻譜分析后提取語音特征,再和關鍵詞語列表中的關鍵詞語進行對比匹配,得出最優解。因此LD3320芯片的語音識別率比較穩定,準確率也比較高。
本文的LD3320語音芯片采取并行方式(即主控芯片P1.0與語音芯片第46引腳相連,并設置為低電平)直接與STC11L08XE單片機主控芯片相接,并均采用10k電阻上拉。控制信號第42引腳(WRB)、第43引腳(CSB)、第45引腳(RDB)、第47引腳(RSTB)以及中斷返回信號第48引腳(INTB)與STC主控芯片直接相連,采用10k電阻上拉,輔助系統穩定工作。第44引腳(A0)用于判斷是數據段還是地址段。語音芯片和主控芯片采用同一個外部22.1184MHz晶振;第12引腳(MBS)作為麥克風偏置,接一個MIC增益輔助RC電路,以確保能輸出一個浮動電壓給麥克風。電路如圖2所示:
■
圖2 語音識別模塊電路圖
3 語音電路軟件設計
本文語音識別軟件設計采用中斷的工作方式,其流程分為芯片初始化,寫入關鍵詞列表,開始識別,響應中斷,輸出控制等。
①芯片初始化:主要完成主控芯片串口初始化,語音芯片軟復位、模式設定和 FIFO設定。芯片復位為激活內部數據處理模塊,便對語音芯片的第47引腳(RSTB)發送低電平,對片選第43引腳(CS)做從拉低到拉高的操作,實現復位。②寫入關鍵詞列表:分別設置“開燈、關燈”基礎關鍵詞。再設置“變亮、變暗”等關鍵詞使人為語音調控實現用多種指令完成同一目標的控制。③開始識別:設置若干個寄存器,即可開始語音識別,其識別流程如圖3所示。0x37寄存器是控制命令入口,用來啟動芯片內部的語言識別運算模塊。0xb2寄存器是內部忙閑的狀態寄存器。一些內部狀態由0xbf寄存器報告出來。
4 總結
通過這段時間的研究與開發,總體完成以下幾項工作。首先,我們研究了語音識別技術的原理和算法,參考了語音識別芯片LD3320的數據手冊,對它的功能和內部結構有一定的認識和了解,為設計語音電路提供理論支持。
另外,我們還研究了STC11L08XE主控芯片結構和參數設置。LD3320語音識別芯片在語音進入語音識別部分后,LD3320芯片將把處理過的數據傳輸到主控制器,主控制器處理后,發送命令數據到外圍串行設備,實現控制操作的功能。
在語音識別模塊的設計方法和原理基礎上,以此為核心,我們設計出了外圍電路的結構和輔助通信電路的結構,同時也給出了整體設計圖。根據該設計方案,基本可以達到基于語音識別技術的臺燈的設計要求。
參 考 文 獻
[1] 楊行俊,遲惠生.語音信號處理[M].北京:電子工業出版社,1995.
[2] 王炳錫.實用語音識別基礎[M].北京:國防工業出版社,2005.
[3] 俞鐵成.語音識別發展現狀[J].通訊世界,2005.
[4] 趙建光.嵌入式連續語音識別系統研究[D].河北工程大學,2007.