陳 嚴,李 浩
(長江職業技術學院 湖北 武漢 430074)
中文是我國的母語,也是學校的必修課,相對于英文來說,中文口語的訓練難度較高[1],因此近幾年相關研究人員普遍利用虛擬現實設備來打造真實的中文訓練環境,幫助學習者有效學習[2]。為滿足中文學習者的實際學習需求,需要不斷進行中文語音識別效果評估,但常規的語音識別效果評估方法尚未構建一個合理的效果評估模型[3],綜合評估指標偏低,評估精度也無法保證,因此,亟需設計一種新的中文語音識別效果評估方法。在語音識別效果評估中,最常見的評估指標就是詞匯的錯誤率,也可以用WER代表[4],為了保證識別出來的詞與標準的詞一致,在識別評估時要進行替換處理,或插入某些詞匯,此時即可計算識別效果評估WER指標,判斷此時的語音識別效果。機器學習算法可以將語音識別評估的各項評估因子整合,統一進行智能化評估,從而提高評估指標,保證評估效果的精準性,因此本文將機器學習算法引入該領域,設計了一種基于機器學習算法的中文語音識別效果評估方法。
高精度的語音信號可以更好地展現語音識別信息[5],提高評估魯棒性。為提高語音識別效果評估的評估指標準確度,首先需要對采集到的語音識別信號進行特征化處理。由于在語音信號從人們的口中發出時,存在一定的衰減特征,因此本文選取高階濾波器進行特征加重,此時語音信號的特性如下圖1所示。
由圖1可知,隨著頻率的增加,高頻濾波的rad會逐漸下降,此時的高頻濾波器具有標準的相頻特性[6],此時的初始化處理函數H(z),如式(1)所示。
式中,μ代表信號加重系數,z-1代表信號處理權重,信號加重系數的取值范圍較小,一般在0.9~1之間,研究發現[7],采集到的語音識別信號具有平穩特性,因此存在部分重疊分段,此時可以進行分幀操作,示意圖如圖2所示。
由圖2可知,分幀處理后的語音識別信號較多,可能存在連接誤差,因此需要進行加窗處理[8],本文選取漢明窗函數進行處理,處理式w(n)如下所示。
式中,n代表加窗個數,N代表窗長,處理后需要進一步提取中文語音識別信號中的特征,本文選取了LCP、CEP參數進行處理,首先需要使用FFT計算語音識別信號中的能量譜密度[9],其次再使用Mel濾波器進行濾波,最后計算對數能量,完成特征提取。使用識別建模方法設計建模單元,選取21個基礎聲母、6個韻母,以及18個帶調韻母構建語音識別算法,假定識別句子中包含n個詞語,此時的語音識別計算式P(S)如下所示。
式中,P代表正確語句概率,s1,s2...si-1代表識別的語音序列,結合句子內部的語句關系可以進一步進行概率計算,計算式pn如下所示。
式中,P(r)代表識別序列的識別概率,此時可以結合上述計算式將最大程度上降低語音識別效果評估的難度,提高語音識別效果評估的有效性。
常規的中文語音識別效果評估方法無法使用有效的智能化模型進行解碼,因此其識別評估指標普遍偏低,不滿足中文語音識別效果評估需求,因此本文使用機器學習算法,通過復雜度及神經網絡構建有效的語音識別效果評估模型。
每個語音識別效果評估因素都包含多個特征,可以使用多特征圖譜進行連接,此時各個特征也屬于偏執矩陣,含有較多粗糙的特征信息,為實現權值共享,保證識別評估的精度,本文設計的語音識別效果評估卷積層的局部連接方式如圖3所示。
由圖3可知,每一個提取出的卷積層都含有多個特征面,符合神經元權值共享原則,語音識別卷積層中每個特征面都具有池化操作特點,因此本文設計的方法進一步進行池化處理,降低識別效果評估產生的偏差[10],此時的池化計算式mh,如下所示。
式中,ijα代表向量區域內各個點的池化值,可以結合池化值的具體計算結果降低臨域誤差,判斷方差變化情況,如下所示。
式中,Nm代表臨域大小,經過池化處理的效果評估數據可以最大程度上保留數據的原有信息,降低計算總量,提高計算效率,還能避免數據過擬合,降低數據偏移概率。
經過上述處理的中文語音識別效果評估數據特征信息進入了全連接層,即每個特征都與相應的神經元進行連接,整個連接層都能收到來自神經元的信息,此時可以判斷卷積神經網絡的神經元分布狀況,進行統一整合,從而得到基礎概率向量,完成樣本空間映射。
受語音識別信息的特殊性影響,其在進行評估時還要額外進行對其操作,本文結合時序分類準則劃分了評估序列中的blank因子,引入序列自動優化節點,此時存在一個基礎的映射標簽序列,基于該序列構建的語音識別效果評估模型E如下所示。
式中,y代表標簽序列,f(d)代表識別函數,p代表評估概率,此時使用該模型評估的數據存在一個基礎的評估概率,計算式FP如下所示。
式中,D代表路徑概率乘積,β代表節點blank值,t代表節點評估間隔,將計算出的基礎評估概率代入上述設計的評估模型中可以有效進行語音識別效果評估,進一步提高了評估的精度。
為保證中文語音識別效果評估的智能化,提高中文語音識別效果評估效率,本文設計了有效的語音識別效果評估平臺,該平臺主要應用了語音識別的基礎原理,再結合貝葉斯公式完成解碼,此時的解碼式,如下所示。
式中,P(W|Y)代表評估條件,W代表預測文本,Y代表給定情況,使用該解碼格式后可以得出效果評估平臺的基礎評估參數,基于此設計的效果評估平臺評估流程如圖4所示。
由圖4可知,采集到的語音識別效果評估信號首先進入信號處理中心進行特征提取(主要進行降噪處理),然后保留重點特征信息,轉化為特征向量傳輸至語音解碼中心,由相關的搜索算法進行轉換,再結合聲學模型和語言模型的得分得到最優路徑,從而得到最終識別結果,以實現中文語音識別效果的高精度評估。
為驗證本文設計方法的評估效果,本文搭建了相關的實驗平臺,將其與常規方法(李明[8]方法)對比,進行實驗如下。
為保證實驗效果,本文首先構建中文口語語料庫,選取一個AI角色,讓其在實驗平臺中互動,從而得到中文語音識別效果評估結果。本實驗構建的語料庫屬于基礎結構化文本,內部的語料全部經過基礎數據庫加工,保證各個語料都符合語音識別、句法分析、翻譯等指標需求,本文構建的語料庫屬于Spoken corpora語料庫,內部的語料包括中文書本摘錄、中文廣播、中文詞匯、即興中文對話、敘事等,除此之外,語料庫內部的數據需滿足TIMIT數據需求,經過初始驗證,該語料庫采集構建示意圖如圖5所示。
由圖5可知,按上述流程采集語料庫數據后,得到的數據可能存在一定的評估誤差,因此需要進行文本篩選、數據審核和誤差排除,提高評估的有效性,最后構建的語料庫內包含七大基礎方言,采樣頻率約為16 Hz,將語料庫內的語料按特征分成10個不同的類型,各個語料的特征權重及組成元素數量如表1所示。

表1 語料庫組成權重及元素數量
由表1可知,上述語料庫內的組成材料及數量滿足中文語音識別效果評估的實驗需求,此時可以結合上述參數設計WER評估指標計算式,如下所示。
式中,I代表插入詞,S代表替換詞,D代表刪除詞,TWiCT代表真實詞序列,該識別效果評估指標越高證明其評估效果越好。
結合上述選取的語料庫,可以進行語音識別效果評估實驗,使用公式(10)計算兩種方法的WER評估指標,實驗結果如下表2所示。

表2 實驗結果
由表2可知,本文設計方法的WER評估指標較高,而常規方法的WER評估指標較低,證明本文設計方法的評估精度較高,具有一定應用價值。
本文基于機器學習算法設計了一種新的中文語音識別效果評估方法,實驗結果表明,設計方法的WER評估指標較高,證明該評估方法的評估精度較高,具有一定應用價值,可以作為后續中文口語虛擬練習平臺優化的參考。