摘 要: 本文主要研究的是基于藏語拉薩話的語音信號端點檢測。端點檢測目的就是為了在噪雜的環境下判別出語音信號的開始以及結束。在識別的過程中,需要識別的語音跟語料庫里的語音需要在時間上加以校對,而校對的精準度則依賴于端點檢測的準確度。本文主要介紹了“雙門限法”的端點檢測算法。用Matlab進行編程和實驗,結果表明,在低噪聲環境下,具有相當好的性能。
關鍵詞:端點檢測 ? ?特征參數 ? ?短時能量 ? ?雙門限法
中圖分類號:TN912 文獻標識碼:A ? ? ?文章編號:1003-9082(2016)01-0006-01
一、引言
目前,對自動語音識別在一般非噪雜環境下的研究已經達到了一定程度。為進一步提升其識別效果,我們讓其應用于噪雜的環境中,研究其識別效果。其中,文獻[1]提出了批處理模式算法可以精確的檢測到端點,使得計算復雜度少了很多。文獻[2]中主要是設計了一個濾波器,為了提高精度和魯棒性的檢測,將濾波器加入到自動語音識別中,從而達到所需要的效果。文獻[3]對于孤立詞識別系統的描述,利用LPC分析未知單詞,K-最近鄰(KNN)決策規則,動態時間規整每個未知單詞的參考模板,以此來得出結果。
從端點檢測的提出到現在,已經研究出一些方法實現。端點檢測通常是對其特征參數的研究,包括一些語音信號最基本的信息,如特征信息、語義信息等等。采用本文研究方法效果最好,但此方法并不能直接有效的確定出語音信號的始端和尾端,只是可以模糊的判斷出語音的大概位置。找到了大概位置之后就可以將一段語音的清音和噪音分離開,這樣才能較為精確地確定語音的起點和終點的位置。
二、基于短時能量的端點檢測
短時能量通常適用于SNR(Signal-to-Noise Ratio,簡稱SNR)較高的噪聲環境下的語音信號,高SNR噪聲環境下的檢測正確率較高。通常,噪聲環境下利用短時能量算法進行檢測所需要的計算量也比較小。短時能量的定義如下:
其中, ? ? ? ? ? ? ? ? ? ? ? ? 。
圖1 語音信號的短時平均能量實現圖
如圖1所示,窗口加權短時能量就是將語音信號進行平方運算,然后通過線性濾波器低通濾波進而輸出。低通濾波主要為了減少外來的噪聲的影響以及大部分共振峰的影響。語音信號的平方在一個沖激響應為的線性濾波器的作用下輸出的就是短時能量。所以,窗函數的選擇對短時能量的性質起著決定的作用,有兩個方面的原因,一方面是使用哪種類型的窗函數,另一方面是窗長度設置多長最合適。若窗的長度設置相對較短,隨著時間的變化導致短時能量發生劇大變化,所以就無法得到平滑的能量函數。通常情況下,窗長設置為幾個基音周期的數量級。
三、短時平均過零率
短時平均過零率中過零就是指語音波形與坐標軸的交點,在離散信號序列上的表現就是相鄰的兩個采樣值是異號,也就是單位時間內與坐標軸相交的點數。簡單來說,在語音信號的分析當中,通常把短時平均過零率看作是一類特征參數。其定義如下:
其中,sgn[x]是取符號函數,它的定義為:
從定義中我們看出,短時平均過零率實際就是離散型信號采樣點的符號的變化的次數,為了使過零的計算更加的準確,我們使用了濾波器對原始信號進行帶通濾波。對于短時平均過零率的算法流程分以下三個步驟,第一,要對語音信號序列 ? ? ? ? ?劃分成成對的,我們所要做的就是通過查看符號的正負變化,來記錄其過零的情況,如果涉及到符號的正負變化,則記錄一次過零現象。第二,對于離散信號得到的序列要進行一階差分運算來實現奇異點檢測。第三,對其進行低通濾波。
由于一般情況下濁音通常具有較低的過零率,而清音則具有較高的過零率,所以在某種程度上,短時平均過零率能夠反映出頻率的高低,所以通常用來清濁音的初步判斷。簡單來說,就是短時能量更適合濁音的檢測,短時平均過零率更適合清音的檢測,所以對于一般的發音,僅僅用其中一種方法來檢測是遠遠不能達到我們所需要的效果。因此,將兩者結合起來對端點進行檢測將會達到很好的結果。
四、雙門限法端點檢測
雙門限端點檢測算法通俗來說,就是在一段語音信號上通過上、下設置兩個限制來進行端點的檢測。通過以上研究,我們得到短時能量對于信號的浮動比較敏感,所得到的數值又計較小,可以將其設置成低門限。而計算短時平均過零率得到的數值比較大,只有信號足夠強的時候才可以超越,所以將其設置為高門限較為合適。這就是本文主要講的設置了兩個參數的“雙門限法”端點檢測算法。
五、結束語
本文使用Matlab軟件對雙門限端點檢測法進行編程和仿真,實驗語音采用的是男聲藏語拉薩話,在安靜的環境和帶有噪聲的環境下分別作出了分析。實驗證明,短時能量及短時平均過零率更適合在有噪聲的環境下進行端點檢測,同時說話人的情感對檢測結果也有一定的影響。
參考文獻
[1] LI Q.Robust Endpoint Detection And Energy Normalization For Real-TimeSpeech And Speaker Recognition[J].IEEE Trans.on Speech and Audio,2002,10(3):146-157.
[2]CH Lee,QP Li.Method and apparatus for performing real-time endpoint detection in automatic speech recognition[J].US,2004.
[3]LR Rabiner,SE Levinson,AE Rosenberg.Speaker-independent recognition of isolated words using clustering techniques[J].Acoustics Speech & Signal Processing IEEE Transactions on,1979,27(4):336-349.
作者簡介:張提(1991-),女,河南周口人,在讀研究生,研究方向為計算機網絡與應用。