趙麗娜
(西安培華學院,陜西 西安 710125)
英語作為全球通用語言,一直也是我國各高校的教學重點。雖經過多年的英語學習,高校學生仍然存在英語交際能力較弱的問題。因此,快速發展完善的計算機網絡信息技術,為英語口語輔助學習提供技術支撐,通過多媒體及網絡技術設計并完善英語口語發音學習系統已成為研究的重點之一。隨著嵌入式技術及自動測試技術的發展,為英語發音識別系統的優化設計提供了有效地實現路徑,進而有利于提高英語聽力教學的自動化及智能化水平。本次研究中主要基于嵌入式信息技術,對實時英語發音識別系統進行優化設計,通過嵌入式系統硬件平臺完成了發音識別算法程序及發音誤差自動檢測方法的設計[1]。
由于嵌入式實時英語發音識別系統的使用者較多,需提升系統運行時的抗噪聲能力,確保系統具備良好的穩定性,滿足對不同用戶的英語發音識別需求。目前市場現有的英語發音識別系統普遍存在語言識別準確性不足的問題,發音中不同的口音及方言會對英語發音識別過程產生較大的影響,一定程度上降低了語音識別系統的精準度,嵌入式技術通過融合當前快速發展的信息化技術得以在眾多領域(包括工業、農業、教育信息化等)廣泛應用。通過在芯片中寫入設備控制程序實現芯片在相關設備中的嵌入,然后使用該嵌入式芯片對設備完成相關控制操作。在語音識別系統中應用嵌入式技術具備較大的優勢,嵌入式芯片具有耗能低、可靠性高、體積小等優勢,可顯著提升系統的設計性能,在節約發音識別系統設計及使用成本的同時,系統對于特定人發音的識別精度可達到97 %以上,設計實時英語發音識別系統時通過嵌入式芯片的使用實現了系統體積及性能的優化,人際交互模式的簡化。基于嵌入式技術的實時英語發音識別系統可根據用戶的講話內容,對接收到的發音信號進行實時傳輸處理,同時將相應的發音識別算法嵌入識別系統中,實現對英語發音的快速實時識別功能,進而使英語發音的識別速度及準確率得到顯著提升。通過該識別系統能夠有針對性地滿足不同用戶的使用需求[2]。
目前市場上已經有較多的英語學習軟件應用到實際教學中,但現有軟件大多只是簡單的集成各類資源,對于英語發音識別方面普遍存在識別效率及準確率較低,且反饋不及時等方面的問題。本系統主要由(嵌入式)中央處理器、只讀及可讀寫存儲器、外圍控制電路及外圍設備等構成,為盡量縮小該嵌入式實時英語發音識別系統的體積,系統在對發音信號進行轉換時采用了相應的語音解碼芯片,再通過使用S3C240對語音信號進行計算和處理完成其到控制指令的轉換,并采用二極管對輸出內容進行檢測,從而提升系統發音識別正確率。
該系統的主要功能模塊包括兩方面。(1)發音訓練功能模塊。該英語發音識別系統接收到用戶的英語發音后,通過使用嵌入式算法完成對用戶發音機械能的多次訓練,并在此基礎上對發音進行預處理,完成對該英語發音特征參數的有效提取,從而使系統英語發音的識別精度得到有效提高。(2)發音識別功能模塊。針對輸入的發音,系統將提取出的發音特征矢量參數同參考模型庫進行相似性度比較,從中挑選出相似性高的特征矢量作為系統識別結果的輸出[3]。
針對該嵌入式實時英語發音識別系統,通過基于隱馬爾科夫模型(HMM)的使用完成對嵌入式發音識別算法的構建,對英語發音信號統計特性的變化情況使用馬爾科夫鏈進行模擬,具體使用三元的參數函數進行描述,函數關系表達式如下:

A表示隱含狀態轉移概率矩陣,B表示觀測狀態轉移概率矩陣,對隱馬爾科夫模型中的參數進行簡化,模型中的Markov鏈由N表示,由S表示其狀態集合,由π表示初始狀態的概率分布矢量,關系式如下:

初始狀態分布滿足條件如下:

由π,A對隱馬爾科夫模型中的Markov鏈進行描述,并產生對應的狀態序列。通過將HMM算法芯片嵌入該實時英語發音識別系統中實現對語音信號的準確高效的處理(包括預加重、分幀、FFT變換等),在此基礎上完成英語發音信號的實時提取操作,從而完成英語發音的實時識別 。
該嵌入式系統的硬件設計主要針對主控核心及發音識別兩個關鍵功能,對于實時英語發音識別系統的主控核心功能的實現主要采用嵌入式微處理器芯片,主控制器則選用STM32FC8T6芯片(ST公司),包含高速存儲器的STM32芯片中的增強I/O端口可有效滿足系統的發音識別需求[4]。對于發音識別功能則通過使用LD3320芯片(ICRoute公司)實現,該芯片包含豐富的發音識別算法(經過集成優化處理),可使發音實時識別的準確率得到有效提高。
在設計該實時英語發音識別系統的軟件功能時,主要通過C語言的使用完成系統功能代碼的編寫,case1~case6分別表示沒有檢測出聲音、需要重新訓練一遍、環境太吵、數據庫滿、檢測出聲音不同、序號錯誤等6種情況,RSP_NAMEDIFF和RSP_CMDDIFF分別表示兩次輸入名稱不同、兩次輸入命令不同。部分主要代碼如下 :
發音輸入:


3.3.1 特征分解和關聯維特征配準
系統發音誤差自動檢測過程是通過時頻特征分解方法的使用,完成對英語發音信號的降噪處理。本文在此基礎上通過綜合運用時頻分析和提取關聯信息熵特征的方式,進一步優化設計發音誤差自動檢測方法,提高發音識別的誤差檢測能力。輸入狀態參數N(j)用于表示輸入信號(第j層濾波器組)的長度表示小波系數(指系統聲調的發音長度內),w(j)表示小波子帶,為w(j)的長度[5],對輸出的經過降噪處理的英語發音信號進行特征分解和配準,分解濾波器組由AFB表示,語音識別系統的軟閾值函數由c(j)表示、硬閾值函數由w(j)表示,信號的小波變換表達式如下 :

其中,1≤j≤J。
在特征分解和關聯維特征配準過程中的發音信號重組通過結合使用小波多層重構方法完成,系統的重構濾波器組由SFB表示,獲取的信號濾波的逆變換表達式如下:

其中,1≤j≤J。
接下來對發音信號進行濾波檢測(屬于一個迭代過程),具體采用自相關匹配濾波方法實現,對聲調特征序列進行離散傅里葉變換(DWT)處理,k表示發音信號的長度,具體表達式定義如下:

然后提取發音發音信號的關聯特征量,再對發音信號通過級聯濾波方法的使用完成盲源分離處理過程,完成不同分辨率(由j表示)語音信號的重構,具體表達式如下:

再將信號經傅里葉變換后完成從時域到頻域的過渡,發音信號的長度由N表示,幀的頻率由J表示,在自適應增強含噪的發音信號的基礎上,獲取各子信號輸出的小波系數表達式如下:

提取發音語音信號的關聯特征量,通過使用新的閾值函數判別發音準確性,表達式如下:

3.3.2 誤差檢測輸出
重組發音信號結合小波多層重構方法完成后,對信號的關聯信息熵特征進行提取,采用時頻分析方法將發音信號從時域轉換到頻域,語音信號的瞬時頻率的估計表達式如下:

時頻分析過程綜合運用WVD時頻分布和Hough變換完成,對發音信號的特征進行提取和分類識別,采用合同矩陣產生發音特征目標函數,表達式如下 :

計算信號的自適應功率譜密度特征,給定發音狀態特征向量集合表示如下:

發音的信號譜平均頻率通過使用動態反饋方法獲取,表達式如下:

針對英語發音信號通過時頻分析Viterbi算法的使用完成檢測過程,對發音信號進行時頻分析及其特征量提取,得到發音誤差自動檢測硬、軟閾值函數,表達式分別如下 :

本文通過實驗對系統的發音識別率進行測試,分別在安靜以及嘈雜環境下使用5條英語發音指令對系統進行對比測試,每條發音指令分別測試10次,在不同環境下針對特定人進行試驗,記錄系統成功識別的次數[6]。采樣頻率設為12 500 Hz,發音識別過程中的信噪比范圍在-5 dB~20 dB(可通過遞增產生不同的信噪比),基于MVDR波束對系統的識別率進行采樣分析。本文的嵌入式實時英語發音識別系統的正確識別率(89 %)明顯高于傳統聲音識別系統(60 %),使用系統中語音識別算法,能夠實現對英語發音實時高效的識別,具有較高的英語發音識別速度及識別準確率。對所設計的系統發音誤差自動檢測性能進行測試,采樣Matlab進行仿真實驗,仿真時長為1 000,特征采樣的歸一化初始及終止頻率分別為0.3、0.05,檢測的信號長度為1 200,迭代次數為100,噪聲干擾信噪比分別為-5 dB和-8 dB,之后得到采集系統的發音信號。將該發音信號作為測試樣本,采用時頻特征分解方法完成降噪處理、特征分解和關聯維特征配準,對發音信號的分辨能力、檢測的準確率、系統發音誤差自動檢測功能的有效性進行驗證后發現,該系統以英語發音為依據做出相關控制命令,能夠對英語發音進行快速識別,顯著提升了檢測的準確度,具有較高的應用價值 。
本文通過多媒體控制及發音控制技術的綜合運用,完成對發音識別系統的設計,通過運用提取關聯信息熵特征和時頻分析實現系統發音誤差自動檢測,設計并實現了嵌入式實時英語發音識別系統,針對復雜的英語發音信號可結合專家系統分析方法完成特征的識別和分析,在此基礎上完成英語發音的誤差糾正,對英語發音信號采用時頻特征分解方法進行降噪處理,再對處理后的信號進行特征分解和配準,提取發音信號的關聯信息熵特征,并據此進行自動匹配完成誤差的自動識別,從而使英語發音教學質量及效率得到顯著提升[7]。