李青云
(晉中信息學院信息工程學院 山西省晉中市 030800)
近年以來,國內的社會經濟實現了快速的發展和推進,其重要表現之一就是計算機技術的飛速發展,目前計算機已經成為了現代社會大眾日常工作和生活中必不可少的一部分,然而人機交互水平與計算機技術發展水平不相符合,影響了現代社會大眾對于計算機系統的應用。在這種情況下,就需要實現高水平的語音識別算法在嵌入式系統中的應用,使得計嵌入式系統的語音識別性能得到提升,這樣才能實現復雜的語音識別,嵌入式系統也才能實現智能化發展。而且語音識別算法及其在嵌入式系統中的應用也更加符合現代社會大眾的使用習慣和切實需求,因此語音識別算法的運用是具有充分的可行性和必要性的,對于各個社會領域的發展也是極為重要的。
在社會大眾的顯示工作和生活當中,語音識別系統應用范圍比較廣,并且這種交互方式是人類自身最自然的一種交互方式,使用起來符合人類自身的習慣,同時嵌入式設備自身的小型化對于語音識別算法的應用也大有裨益。目前所應用的嵌入式設備通常情況下是針對特定的應用進行設計的,只需要對幾十個詞的語音命令進行識別,屬于小型的語音識別系統,一旦遇到大詞匯量和連續的語音識別,其應用的局限性就會變得尤其明顯,難以滿足當代社會大眾對于嵌入式設備的要求和需求。而在實際的語音識別算法及其在嵌入式系統中的應用過程中,還具有很多其他的因素需要進行綜合性的考量,這樣才能達到理想的語音識別效果,并且可以在顯示社會發展過程中進行對應的應用[3],其中成本因素就是需要考量的因素之一,因為未來的語言識別系統的應用將是十分廣泛的,其成本投入過大的情況下,不能形成良好的性價比。
其次,嵌入式設備所具有的一個最重要的優勢就是自身的體積比較小,這也給語音識別算法及其在嵌入式系統中的應用帶來比較大的限制。為了使得比較復雜的算法在嵌入式設備中進行應用,其中硬件平臺是非常重要的,其中SoC 硬件平臺具有很好的集成性,在這一平臺上的語音識別算法應用的嵌入式系統的可靠性也得到了比較大的提升,從另一個角度上來說,語音識別算法及其在嵌入式系統中的應用,使得嵌入式系統的適應性得到了很好的提升。
語音識別系統是系統級的集成芯片,其不僅僅是將功能復雜的數字邏輯電路放到同一個芯片當中,芯片中還包含很多其他的電子元件,包含模擬器件和常見的儲存器,這些都是需要進行考量的因素。筆者主要針對基于HMM 的語音識別技術在嵌入式系統中的應用進行系統的分析和闡述,具有良好的發展前景,并且更加符合現代社會大眾的嵌入式設備的使用習慣和特點。
筆者進行研究的嵌入式語音識別系統是在與Infineon 公司合作開發的芯片UniSpeech 上實現的,這一硬件平臺的性價比也是比較高的,使得語音識別算法及其在嵌入式系統中的應用成本方面得到了很好的基礎性的條件。
通過研究不難發現,該芯片的應用,為語音識別算法提供了良好的儲存量和運算能力[4],具體性能方面如下所示:
運算速度:100MIPS.MCU;
指令周期:每兩個時鐘周期;
時鐘頻率:50MHz。
(1)基于DTW(Dynamic Time Warping[5])和模擬匹配技術的語音識別系統
我們日常工作和生活過程中所使用的移動電話設備,幾乎都可以提供簡單的語音識別功能。
其中基于DTW(Dynamic Time Warping)和模擬匹配技術的組合應用能夠取得很好的效果,在實際的運用過程中,這一系統可以直接進行語音特征的提取,并且將其視為具體的模板進行運用,通過這些精準的模板,在實際的語音識別過程中可以實現很好的識別效果,尤其是孤立詞的識別,在實踐應用過程中也能夠發現這一點。但是需要知曉的是,DTW 模板自身的計算能力是十分有限的,其重要表現就是實際應用階段限于小詞表,由于這一特點,這一嵌入式語音識別系統的應用就具有了一定的局限性,一般情況下都在一些特定的、簡單的語音識別工作中進行運用,包含地名識別、人名集識別等等。
(2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的語音識別系統
基于HMM 的嵌入式語音識別系統可以在非定人用戶的日常工作和生活中進行運用,并且不需要進行實現的訓練[6],這項技術的缺陷在于需要建立其一個比較大、比較豐富的語音庫,從而建立有效的統計分析模型,提升語音識別的有效性和可靠性,從中不難看出,基于隱含馬爾科夫模型HMM(Hidden Markov Model)的語音識別系統具有很好的特性,但是其在很多因素和條件方面具有一定的限制,需要在系統組建過程中多加注意。
基于HMM 的嵌入式語音識別系統的前端處理主要包含語音的采樣、A/D 變化、特片提取和端點檢測等等,其中模擬的語音信號的數字化功能是由A/D 轉換器來實現的,ADC 集成在片內,其采樣頻率固定位8kHz,語音特征的提取是從語音幀的角度來實現的,具體的HMM 與語音參數的關系如圖1所示。

圖1:HMM 與語音參數的關系圖
因此需要將特定的語音信號分為重疊的若干幀,隨后對每一幀提取一次語音特片,幀長方面控制在20ms 即可,筆者研究分析的此系統,為了方便進行FFT,采用的幀長需要控制在256 點,也就是32ms,這是出于系統的儲存量限制和識別性能要求,依據實踐也能夠發現,前端處理按照以上進行選擇和應用,可以保障特征處理的穩健性[7],這是其他的嵌入式語音識別系統所難以實現的,并且對其進行優化和完善之后,可以達到HMM 模型與多觀察序列語音參數的關系實現,其中一個音素模型的HMM 結構具體如圖2所示。

圖2:一個音素模型的HMM 結構
在實踐應用過程中可以發現,這一處理方式對于特征處理穩健性的提升是相當明顯的。
在本文進行研究的HMM 算法為基礎的嵌入式語音識別系統當中,首先對于一系列有限狀態S1……SN 進行了定義,該系統的狀態不為外界所見,系統在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。在本語音識別系統當中,采用的是整詞模型,每個詞條7 個狀態同,包含首尾兩個靜音狀態。但是CHMM 模型具有比較高的復雜性,碼本大小位128,DHMM 模型加大了矢量量化這一步驟,但是使得模型的復雜程度降低,這使得占用計算量最大的匹配計算減少,從中也能夠看出,這其實是犧牲了一定的識別性能的[8]。
基于HMM 的嵌入式語音識別系統具有很好的識別性能,對于11 詞的漢語數碼和一個59 詞的命令詞集,其都能做到很好的識別,其中靜音模型的加入,降低了對端點判斷的依賴程度,這對于HMM 算法為基礎的嵌入式語音識別系統的可靠性的提升是比較大的,從整體的角度上來說,目前國內的HMM 算法為基礎的嵌入式語音識別系統模型還是比較少的,而目前主流DSP 都可以提供100MIPS 以上的運算速度[9],完全可以滿足CHMM 對計算能力的要求,這也從側面驗證,HMM 算法為基礎的嵌入式語音識別系統的組建和推廣應用都具有相當高的可行性和必要性,這一系統在五十詞以內的詞令識別上,其效果表現非常不錯,HMM 算法為基礎的嵌入式語音識別系統可以在家電、玩具、智能儀器上進行廣泛的應用,具有良好的發展前景。
綜上所述,就是目前為止針對語音識別算法及其在嵌入式系統中的應用的相關研究和分析了,從文中闡述內容中不難看出,不同的語音識別算法為基礎的嵌入式系統,其性能、可靠性等方面都具有比較大的不同。其中筆者進行研究和分析的HMM 算法為基礎的嵌入式語音識別系統具有很好的實踐效果,并且可以在現代社會大眾的日常工作、生活以及社會發展中進行運用,系統資源的消耗相對合理,并且具有很好的系統性價比,值得后續進行推廣運用,對于國民經濟發展非常重要。