任麗娜
(山西職業技術學院,山西太原,030006)
語音識別系統可接受人類并理解人的樂音,并根部語音指令執行命令,該技術基于聲學、語言學、計算機、信息處理、人工智能等多項技術,廣泛適用信息處理、通信、自動控制等諸多領域[1]。語音數字信號處理的關鍵是端點檢測,端點從強噪語音信號識別出有效語音,噪音信號越復雜度識別難度也會增加。現有端點檢測算法基于采集短時能量、連續時間、基頻信息、過零率的語音特征參數分析,但在強噪音環境檢測性能較差[2]。近年來,越來越多的學者采用改進型的信噪比計算的方法,極大提高了強噪音環境中的端點檢測效果。
語音識別技術涉及聲學、測量技術和信息處理等多個學科,檢測端子從眾多聲音中識別目標人的語音特征信息,進行識別出是某人的語音[3]。基于人工智能領域的聲音自動識別系統,比其他生物特征技術更具優勢,基于聲音的識別技術重復性好、操作簡單,也不會涉及被識別者隱私,用戶接受程度高,不同場合適用性好,生活中大部分物體都充當聲音傳遞的媒介,且不受聲波衍射作用和光照強度的影響。
但是,各地方言是識別系統準確性的一大障礙,識別系統基本采取標準普通話信號為基礎,但方言各地差距較大,尤其是國內8種方言的發音差距特別大,語音識別系統準確度會大幅下降。隨著移動無線互聯網的推廣,信道種類越來越多,尤其是移動電話、手機、無線發射器、移動網絡系統,語音識別系統必須適應不同信道,不同信道差異較大,跨信道識別問題是語音信號識別的一個障礙[4]。背景噪音是影響語音識別系統的一大難題,背景噪音的頻譜很容易和原始語音頻譜重合,會將原始語音掩蓋在噪音頻譜范圍內,導致識別系統不能準確分離出來原聲音。音識識別就是模式識別,基本結構原理如圖1所示,主要包括信號預處理、特征提取、特征匹配等基本功能模塊,后處理模塊作為輸出部分直接面向用戶。

圖1 語音識別基本框圖
發音器官主體為肺、喉、鼻和口,發生器官整體為形狀復雜的管道,喉部、口和鼻子為聲道,聲道形狀變化產生了發聲的不同;聲門產生語音的能量起到閥門和振動的雙重作用,氣流由肺部壓力變化產生沖擊,聲帶將沖擊轉化為不同頻率振動,由聲道響應轉換成語音。不同的發音聲道形狀也相應變化,最終將不同的聲音信息傳遞給周圍環境。聲帶是人類發音系統的關鍵器官,聲帶是語音的激勵源,聲帶振動形成基本聲源,聲帶的開啟和閉合形成氣流脈沖,開啟和閉合一次時間為一個基音周期,基音周期的倒數為基音頻率,簡稱基頻。聲帶發出基音決定聲音頻率,頻率高則音調高,頻率低則音調低,人類基音范圍在70-350Hz,但人類的性別、年齡影響基音頻率,整體趨勢為年齡高頻率偏低。語音發出后,聲波以空氣為載體進行傳播,聲波是振動方向和傳播方向相同的一種縱波。聲波是通過頻率和振幅進行描述。聲波頻率決定了音高,聲波振幅決定了響度,頻率越高聲音越高,振幅大則響度大,但是頻率和振幅無直接聯系。
分折處理前需要將語音信號從輸入信號中分離,將語音轉化成數字化信號經過放大器、增益控制、反混疊濾波,采樣,A/D轉換多個過程,預處理信號經過預加重、加窗、分幀處理。圖2為語音信號處理簡圖。

圖2 語音信號預處理簡圖
模型是對信號本質的數學描述,語音信號是非平穩隨機信號,無法用確定性函數方程描述,因此必須分析多種語音識別數學模型,求解結果逼近實際值,因此要建立分類模型。目前可用模型有兩種:高斯混合模型和隱馬爾可夫模型。高斯混合模型的階數必須足夠大,才能全面體現特征空間的分布,采用的協方差矩陣類型為對角陣,高維特征空間計算量小,優勢明顯。模型初值初始條件不同,局部極值差距較大,模型初值必須修正均值。訓練數據少或背景噪聲過大時,方差幅度變小導致函數出現奇異性,只能通過方差限定提高計算精度。
隱馬爾可夫模型有全連結和從左到右兩種結構,從左到右的模型根據其結構特點有可以進一步細分。全連結模型允許由一個狀態向其它任一狀態轉移,原理如圖3所示。由左到右模型某一狀態僅可向左/右側狀態轉移。高斯混合模型和隱馬爾可夫模型可適用不同場合的語音識別,但隱馬爾可夫模型應用范圍更大。

圖3 全連接隱馬爾模型示意圖
利用兩種模型建立不同說話人識別模型階段,并在實驗條件下測試不同因素對辨認率和確認率的影響,語音長短對特征參數提取影響很大,因此對多人進行錄音后進行語音識別,檢測結果如圖4所示,辨認率和確認率都隨著識別語音和訓練語音時長增長而增加,但信息量達到一定量時,識別率緩慢增加。

圖4 不同采集時間對識別率的影響
高斯混合模型采用單高斯密度函數線性的加權值調整實驗表明,適當增加權值可增加結果的真實分布程度;改進卡爾曼濾波算法可以減少噪聲的影響,提高抗干擾能力,提取說話人的特征準確度更高。
針對傳統語音識別系統在噪音環境適應性差的問題,分析了人類語音特征和信號處理策略,研究高斯混合數學模型和隱馬爾可夫數學模型在噪音環境中語音識別效果,適當增加采集時長,可有效提高語音的識別率,改進算法也可提高數學模型在噪音環境的準確度,對語音識別系統在信息化中應用具有很好的指導意義。