復雜噪聲中基于MFCC距離的語音端點檢測算法

2020-03-19 13:10:44韓云霄符玉襄

計算機工程 2020年3期

韓云霄,邵清,符玉襄,郭慶

(1.上海理工大學光電信息與計算機工程學院,上海 200093; 2.中國電子科技集團公司第三十六研究所,浙江嘉興 314000)

0 概述

端點檢測也稱話音活動檢測,主要目標是檢測輸入信號中語音的起止點,完成語音與非語音的分離。在語音識別中,背景的復雜噪聲會嚴重影響語音信號的可懂度和識別性能,而提升復雜噪聲中端點檢測的準確率可以減少語音識別工作的計算量,并且提高識別結果的準確率。同時,對于某些需要不間斷、長時間人工值守的通信偵察、無線電監聽等特殊應用場景,端點檢測可以顯著減少人工復聽或監聽的工作量。

目前語音端點檢測可分為兩類:一類是以機器學習[1-3]、深度學習[4-6]、建模[7-9]等為基礎的模式識別方法,另一類是基于語音特征[10-11]直接進行分類的規則性語音端點檢測方法。在復雜噪聲環境下,第1類方法相比于第2類方法具有更高的準確率,但是它需要對海量數據樣本進行訓練,且抽取的特征需要具備全面、精準的特性,算法相對繁瑣,計算量較大。因此,該方法不適用于實時應用。基于語音特征的方法計算復雜度相對較低,且具有響應速度快、實時性高的優點,更符合實際應用的需求。

語音噪聲可分為加性噪聲和卷積噪聲。針對加性噪聲,文獻[12]在語音的端點檢測過程中,先對含噪語音使用最小均方(Least Mean Square,LMS)誤差自適應濾波減噪,再利用雙參數雙門限進行平滑處理,提高了在低信噪比環境下檢測結果的準確率與穩健性。文獻[13] 采用分類和回歸樹(Classification and Regression Tree,CART)利用多個特征進行語音端點檢測,并在語音撥號手機的隔離語音識別算法中進行驗證,結果表明,在低信噪比環境中采用多種特征的方法比使用單一特征的方法效果更好。針對卷積噪聲,文獻[14]使用卷積傳遞函數估計語音和房間脈沖響應幅度譜圖,通過學習模型進行2個階段的迭代,其處理的數據在算法中能獲得更優的去噪效果。

實用的語音識別系統需要在復雜噪聲環境中具有較強的魯棒性和較快的計算響應速度,但因為短時能量特征極易將復雜多變環境中的非平穩噪聲誤判為語音,而計算復雜度低、實時性高的過零率特征對噪聲魯棒性較差,所以只利用單一的語音特征很難處理復雜的噪聲情況,目前研究者一般都采用雙門限算法。本文采用多個特征進行算法判定修正,以MFCC距離特征作為主要判斷依據,同時結合其他特征的優勢,建立組合規則,通過自適應噪聲模型匹配方法實現復雜噪聲中語音信號端點的準確檢測。

1 多維語音信號特征參數計算

1.1 語音信號的預處理

由于實際的語音信號是模擬信號,因此在對語音信號進行數字處理之前,首先要將模擬語音信號s(t)以采樣周期T采樣,將其離散化為s(n),采樣周期的選取應根據模擬語音信號的帶寬(奈奎斯特采樣定理)來確定,以避免信號的頻域混疊失真。

對離散后的語音信號進行量化處理的過程會帶來一定的量化噪聲和失真。語音信號的頻率范圍通常是300 Hz～3 400 Hz,一般情況下取采樣率為8 kHz。本文對語音信號的預處理過程包括重采樣、加窗以及分幀。

重采樣的目的是將輸入語音信號的采樣率統一為8 kHz,以方便后續處理。設語音波形時域信號為x(n),加窗函數為w(n),分幀處理后得到的第i幀語音信號為yi(n),則yi(n)滿足:

yi(n)=w(n)×x((i-1)×Linc+n)

1≤n≤L,1≤i≤fn

(1)

其中:w(n)為窗函數,一般為矩形窗或漢明窗;yi(n)是一幀的數值,n=1,2,…,L,i=1,2,…,fn;L為幀長;Linc為幀移長度;fn為分幀后的總幀數。

對yi(n)進行傅里葉變換,計算MFCC距離,使用濾波器和歸一化處理數據使得其能更好地匹配建立的模型,并以短時過零率、短時能量和MFCC距離差分累加和這3個特征作為判定條件,對語音信號和非語音信號進行數值判斷并標識。

1.2 短時過零率

語音信號的短時過零率是指單位時間內信號波形穿過橫軸(零電平)從而改變符號的次數。當窗起點為i=0時,信號的短時過零率用Z0表示,它對相鄰2個取樣點改變符號的次數進行求和,計算如下:

(2)

其中,sgn[x]為符號函數,其含義為:

(3)

在復雜噪聲環境中,單一過零率特征不具備良好的辨別特征,尤其是在強噪聲環境中,過零率數值的持續增加,在一定程度上增加了語音與噪聲的判別難度。

1.3 短時能量

短時能量是短時平均能量的簡稱,語音信號進行分幀等預處理后,每一幀的短時能量值等于該幀內樣點值的平方和。計算第i幀語音信號yi(n)的短時能量公式為:

(4)

短時能量特征參數在以下幾方面具有較好表現:1)可以作為區分清音和濁音的特征參數;2)在信噪比較高的情況下,短時能量可以作為區分有聲和無聲的依據;3)在復雜噪聲環境下,可以作為輔助的特征參數與其他特征參數相結合用于語音識別。

1.4 MFCC距離差分累加和

由于環境復雜多變,因此在語音信號中可能同時存在加性和卷積兩類噪聲。為了把卷積噪聲轉換為加性噪聲,本文采取倒譜分析方式,等同于求取語音倒譜特征參數。通過對時域語音信號做傅里葉變換,取對數,然后再進行反傅里葉變換,最后得到加性時域信號。倒譜分析可以分為復倒譜、實倒譜和功率倒譜,由于在語音信號領域功率譜特征性明顯,因此本文采用功率倒譜進行倒譜分析。

1.4.1 MFCC特征

MFCC與普通實際頻率倒譜分析不同,其著眼于人耳的聽覺特性,Mel頻率與實際頻率的具體關系公式計算為:

Mel(f)=2 595lg(1+f/700)

(5)

其中,f為實際頻率,單位是Hz。

為了將卷積信號轉換成加性信號,需要把預處理后的信號yi(n)進行從時域到頻域的轉換。首先計算其幅度譜Yi(k),計算公式為:

(6)

其中,L是幀長,K是DFT長度。

然后計算其功率譜Pi(k),公式如下:

(7)

由此得到頻域特征值Pi(k)。本文通過Mel濾波器組對頻域的幅值進行精簡,去除冗余的頻域信號,使得每一個頻段用一個值來表示。

由于人耳對聲音的感知與信號幅度大致呈對數關系,通過取對數運算,可以使語音信號呈現線性關聯。

本文取Mel濾波器系數為Xmel,與功率譜相乘可得濾波后的信號頻域值MelValue,然后對其進行log運算使得MellogValue更符合人耳對聲音的辨識關系。

MelValue=Xmel×Pi(k)

(8)

MellogValue=lg(MelValue+eps)

(9)

式(9)中使用eps函數增加取對數后頻域信號精度。

1.4.2 MFCC距離特征累加和

為了保存數據原始特征,加快計算速度,本文未采用常規MFCC方法。常規MFCC方法通過離散余弦變換(Discrete Cosine Transform,DCT)來獲取頻率譜的低頻信息,并且對數據進行降維壓縮,獲得最后的特征參數,本文采取對濾波后取對數的數據MellogValue進行中值濾波和平滑濾波的措施,從而得到Ci,直接對相鄰幀的特征參數進行差分運算,公式如下:

dt=Ci-Ci-1

(10)

通過條件判定計算MFCC累加和并作為語音端點判定條件之一,其偽代碼如下所示:

算法1Sum of MFCC Distance

輸入對數運算結果MellogValue;

輸出差分累加和distanceFinal

1:function Valuefiltering(MellogValue)

2: CiMellogValue

3:return Ci

4:function sumDifferencing(Ci,Mi)

//Mi(n)是模型值

6:dtCi

7:while dt>0 do

9:return distance&sum

10:function Ranging(oldDistance,distance,sum,mZ,mE)

11:while distance>oldDistance||distance

13:else

15:return distanceFinal

2 自適應噪聲模型的建立

自適應噪聲模型在普通噪聲模型的基礎上,對模型參數進行閾值判定并更新,使其能更靈活地應用于各類噪聲模型。假設在某段連續的短時間內,復雜噪聲MFCC距離值Mp(i)的概率密度函數符合如下公式:

(11)

(12)

λ值越小,說明MFCC距離分布越集中,即MFCC距離波動越平穩。

Mp(i)占信號主導地位的時間極短,所以,本文將在短時內的值作為噪聲特征。根據大量實驗數據分析,本文假定噪聲特征在500 ms ～700 ms(設其包含l幀)內保持分布的同一性,并根據其中前80 ms～400 ms信號(設其包含r幀)MFCC距離值對均值μ和均方差σ進行估計。μ和σ計算如下:

(13)

(14)

其中,n-1為前r幀的總采樣點數。

滑動分析窗長度為l幀,由前r幀信號預估噪聲模型參數,并確定閾值θ。

(15)

其中,α(0<α<1)表示靈敏度系數,可根據不同情況適當修改。根據閾值θ,檢驗后l-r幀信號的MFCC距離特征符合噪聲還是語音。每新輸入一幀信號,分析窗滑動至下一幀,并校正分布模型,重新計算μ、λ和θ,自適應噪聲模型如圖1所示。

圖1 自適應噪聲模型示意圖

3 基于MFCC距離匹配的檢測算法

在語音信號端點檢測領域,特征提取極為重要,可以從時域進行特征提取,例如短時能量、熵等,也可以從頻域提取特征,例如Mel譜系數、差分熵等。為了最大程度地優化規則,本文對語音特征的選擇原則是:被選特征應盡可能從多個方面反映語音信號和噪聲信號之間的差異。雖然每個特征都能在其特定環境中作為最優端點檢測手段,但是在其他環境下并不能保證總是有效。本文采用的短時能量特征、短時過零率特征和MFCC距離,相互間冗余性小,增強了端點檢測的魯棒性,且這3個特征計算復雜度為O(n),計算響應速度較快,對于實時應用更好。

基于MFCC距離匹配的算法具體步驟如下:

步驟1對語音信號進行降低采樣率、預加重和分幀操作,幀長0.5 s,幀移50%,完成預處理過程。

步驟2對第m幀信號加窗并進行N點(N≥4 096)離散傅里葉變換,獲得離散變量,便于其他變量計算使用。

步驟3計算各頻譜分量的短時過零率Zm,作為特征之一。

步驟4計算各頻譜分量的能量Pm(k)(0≤k

步驟5通過在Mel刻度上均勻分布的三角帶通濾波器組與Pm(k)相乘,并求其對數,得到本文MFCC特征。

步驟6對MFCC進行中值濾波和平滑濾波,使得數據能具備良好的分離性能。

步驟7計算MFCC差分累加和。

步驟8計算閾值。

步驟9計算MFCC距離Lm并根據距離閾值θ和θ+η修正,得到Ln。

步驟10若Ln>θ,則該點為語音,否則標注成噪聲。

步驟11輸出結果。

由于數據形式非單一性,存在多種復雜環境,因此本文通過多次濾波與歸一化處理后,使得差分MFCC距離值與所建噪聲模型能進行相似度匹配與分離。

4 實驗與結果分析

4.1 實驗數據集

本文數據集來自實際樣本和TIMIT標準語音庫,每組信號長度不等,采樣率不同。標準語音庫語音樣本所含背景白噪聲來源于NOISE92標準噪聲數據庫。為了使得數據具有可比性,本實驗將采樣率調整至相同頻率(8 kHz)并截取等長數據段(3.84 s)進行數據分析。

4.2 噪聲模型校驗

取N=4 096的實際噪聲樣本和同樣長度TIMIT標準人聲語音樣本,頻率降采樣至8 kHz,在基于MFCC距離匹配的算法中計算歸一化平滑MFCC,結果如圖2所示。

圖2 噪聲、標準噪聲和人聲對比曲線

通過大量實驗,對噪聲建立模型函數如下:

4.3 多樣性實驗

圖3為一個端點檢測實例,輸入信號截取自45 s語音中的5 s,內容為一段信息播報,整段錄音全部存在強噪聲,主要為實錄的強電磁流噪聲。在區間10.00 s～12.29 s和12.54 s～15.00 s中,有語音(男聲)且語音能量較弱,基本被強背景噪聲所掩蓋;在區間12.29 s～12.54 s中,無話音,為說話停頓間隔。在實際應用中,為了避免因漏檢語音段而造成無法挽回的損失,本文適當放寬語音判定閾值。

圖3 端點檢測實例

圖4為TIMIT庫中SA類型測試庫中2種女生純聲語音實例。在圖4(a)中,flag為人工標注,flag=0為噪聲,flag=1為語音。SA類型針對同一音素在不同方言中的發音進行測試,語音內容為“She had your dark suit and ingressive wash water all year.”。從實驗數據可以看出,發音方法也是影響語音檢測的因素。本文方法針對輕音也能準確檢測出語音端點。

圖4 TIMIT語音庫2種純清音方言語音檢測結果

Fig.4 Detection results of two pure voiceless dialects in TIMIT speech database

4.4 對比實驗

為比較本文算法與雙門限能量檢測[15]和倒譜距離[16]這2種經典算法的性能差異,在多種環境條件下進行大量實驗,算法準確率以標注出語音信號幀數為評判標準,即準確率為正確標記語音信號幀數占人工標定有效語音總幀數的比例。

如表1所示,傳統的雙門限算法在較低信噪比情況下已經無法正常工作,雖然倒譜距離算法在某些情況下性能優于雙門限算法,但依舊無法滿足實際應用需求。

表1 多種噪聲環境語音信號截取準確率比較

Table 1 Comparison of speech signal interception accuracy in various noise environments

噪聲準確率/%類型SNR/dB雙門限算法倒譜距離算法本文算法White-568.276.587.8083.185.389.4587.790.793.91092.195.198.0Pink-563.277.283.9075.681.688.8583.488.894.51089.392.495.4F16-565.274.383.6078.680.587.4586.489.894.11090.193.797.5平均80.285.491.2

本文算法相比于對比算法在性能上有以下改善:

1)在3類噪聲環境下信噪比越高識別準確率越高。這是因為本文采用自適應閾值來浮動定義噪聲閾值,以防檢測過程中噪聲能量驟變影響判斷結果,這也是語音在較小信噪比下其準確率依然超過80%的原因之一。并且本文判斷算法采用改進的MFCC距離差分累加和算法,具有不壓縮數據維度的優點,兩者結合更有利于辨別能量近似的噪聲和語音。

2)本文算法在白噪聲環境下識別準確率效果最好[17],這是由于白噪聲具有平坦功率譜的性質,可以當作常數進行處理,特征極其明顯。

3)在粉紅噪聲環境下本文算法準確率提升了9.213%,提升程度最高,這歸因于粉紅噪聲是一種集中在中低頻頻率的噪聲,在一定范圍內音頻數據波形具有相同或類似的能量,而本文算法結合了短時能量與短時過零率的優勢能更好地辨別能量相似的噪聲。

在實驗過程中仍然會出現一些輕聲誤判現象,因此可以考慮在閾值更新階段加入清輔音[18-19]檢測來進一步提高識別的準確率。

5 結束語

在實際應用環境中噪聲變化多樣,采用單一特征無法滿足語音端點檢測準確率需求。本文通過觀察大量信號,分析各個特征的特點,結合MFCC、短時能量和短時過零率對傳統算法進行改進,設計一種新的算法實現語音端點檢測。實驗結果表明,該算法在復雜噪聲環境中能夠有效避免如瀑布、下雨、機艙運轉等環境影響,在信噪比較低的情況下,大幅提升準確率,并且在信噪比較高的諸如辦公室電話錄音、訪談等環境下均能精準地識別結果。但在本文實驗中,一些有規律的響聲也可能被判斷為語音。下一步將針對該問題,使用模式識別方法對規律進行提取,判斷其是否包含特定信息信號,若為無用信號則可根據小波變換進行濾波處理。