宋坤等



摘 要: 提出一種基于聲譜圖的特征提取方法,獲取沖擊聲的聲譜圖,預處理后將其轉換為偽彩色圖,提高聲譜圖細節表現力,進而提取局部區域k階矩作為特征;將該特征的識別效果與MFCC等傳統特征進行了對比和分析。實驗結果表明,該方法對相似板材沖擊聲有較好的識別效果,并且具有較好的噪聲魯棒性。
關鍵詞: 沖擊聲; 聲譜圖; 偽彩色映射; 特征提取
中圖分類號: TN964?34 文獻標識碼: A 文章編號: 1004?373X(2015)08?0008?04
Method of impact sound feature extraction based on spectrogram
SONG Kun1, YIN Xue?fei1, CHEN Ke?an2
(1. School of Electronics and Information, Northwestern Polytechnical University, Xian 710129, China;
2. School of Marine Science and Technology, Northwestern Polytechnical University, Xian 710072, China)
Abstract: A new method of feature extraction based on spectrogram is proposed. With the method, the spectrogram of impact sound can be obtained, and converted into pseudo?color image after preprocessing to improve the expressive force spectrogram details and realize extraction of k?th moment in partial region as the feature. The recognition result of the proposed features, MFCCs and other traditional features are compared and analyzed. The experimental results show that the proposed method can accurately distinguish impact sound of similar sheet material and has nice noise robustness.
Keyword: impact sound; spectrogram; pseudo color Mapping; feature extraction
0 引 言
沖擊聲是瞬態聲的一種,是物體受到沖擊作用發出的聲音,與沖擊響應類似,物體的沖擊聲包含著許多聲源信息,如物體的結構、材質屬性等,其在設備故障的無損檢測、公共安全事件監測、軍事斗爭領域具有重要意義,因此針對沖擊聲的自動識別技術收到人們廣泛重視[1]。沖擊聲識別不同于以往的語音識別技術,例如,考慮到背景聲音的復雜性,識別系統需要更高的噪聲魯棒性,另外沖擊聲具有強烈的非穩態性,以往針對語音識別的方法不再合適。聲譜圖是一類表示聲音時頻結構的灰度圖,其橫縱坐標代表時間和頻率,灰度代表聲信號的幅值,自1 940 s出現以來,聲譜圖作為水下聲目標探測的重要手段吸引著來自各領域的人們的興趣,但主要集中在如何從背景聲中區別出可疑目標聲(低水平特征檢測)[2]。隨著圖像處理技術的發展和新的聲目標識別任務的出現,人們嘗試從聲譜圖中提取更多的聲信息。如梁澤等將PCNN應用語音信號的情感識別中,通過實驗發現同一說話人的同一句話在不同的情感下有不同的語譜圖,提取的特征序列存在差異并且具有某種規律性[3];曾向陽等人采用脈沖耦合網絡提取語音和多種噪聲的特征[4]取得了較好的識別率,并發現可以該特征可以對說話人進行識別;Souli Sameh等人使用log?gabor濾波器提取聲譜圖特征,采用10種環境噪聲數據庫,證明了其方法的有效性[5]。
本文利用聲譜圖提出一種沖擊聲特征提取方法。以板材沖擊聲為對象,提取多種聲譜圖特征進行目標識別,并對結果進行比較分析。特征提取流程如圖1所示,首先對取沖擊聲信號的進行降噪和端點檢測,然后獲取灰度聲譜圖,利用偽彩色映射將其轉換為彩色聲譜圖,增加聲譜圖細節表現力,然后對其分塊,最后計算各塊局部圖像的k階中心矩作為聲譜圖特征。并將這種特征與MFCC等傳統特征進行比較,評價特征性能。
1 聲譜圖的生成
1.1 沖擊聲的預處理
在利用聲譜圖提取聲音特征,信號的無聲段和噪聲都會影響特征的性能,無聲段會影響聲信號在聲譜圖中的位置,而噪聲將會湮沒信號的部分信息,因此在產生聲譜圖之前需要進行降噪和無聲段檢測。本文著重從噪聲對識別精度方面來分析特征的性能,因此這里只對端點檢測技術進行敘述。如圖2所示,沖擊聲在起始點附近會有一個極大的峰值,然后迅速衰減為0,本文利用沖擊聲的這個性質進行端點檢測。取每30 ms為一幀(這個長度包含從無聲段到最大值的變化的時間范圍),計算每幀的能量,求這些幀的能量與最開始的一幀的平均能量的比值,當比值大于設定的閾值[c0]時,即認為該幀包含沖擊聲的起始點,當比值小于設定閾值[c1]時認為該幀包含生信號的結束點。
1.2 聲譜圖的生成
聲譜圖是一類按照頻率和時間對聲音進行二維可視化得到的圖像。按照頻率的種類,有如下幾類聲譜圖:短時傅里葉變換時頻圖、gammatone濾波器組聲譜圖、梅爾頻率聲譜圖、小波變換尺度圖。
本文以短時傅里葉變換時頻圖為對象提取特征,其生成過程如下。
設沖擊聲的離散時域采樣信號為[x(n)],采樣頻率為[fs],n為時域采樣點序列,[n=0,1,2,…,N-1],N為信號長度。對信號分幀處理得[xn(m),m=0,1,…,M-1],其中n是幀序號;m是幀同步時間序號;M為幀長(1幀內的采樣點數);于是信號的短時離散傅里葉變換定義
[X(n,k)=m=0M-1xn(m)w(m)e-j2πkm] (1)
式中:[0≤k≤N-1];[wm,m=1,2,…,][M-1]為窗函數。[X(n,k)]為[x(n)]的短時幅度譜估計,取[f=k?fs],[t=n?Ts],有[Slin(f,t)=X(n,k)],將其以灰度圖像表現出來即得到聲譜圖,這種聲譜圖也叫幅度譜圖,當取[Slin(f,t)=X(n,k)2]時,得到能量譜圖,如圖3所示,為玻璃板沖擊聲的聲譜圖。
1.3 聲譜圖的預處理
使用聲譜圖提取特征時,通常要根據使用的方法需求對聲譜圖進行預處理,將聲譜圖映射到[0,1]區間時,聲譜圖中的某些異常大的點將會將其他的點的灰度值往0附近擠壓,這樣會造成偽彩色變換時對比度的下降。因此本文設計了一種對數映射方法,式(2),對聲譜圖進行預處理,降低異常點對對比度的影響。圖3是對聲譜圖進行預處理前后的效果圖,可以看出預處理后的能量譜變得更加清晰。
[S(f,t)=log(Slin(f,t)+e)-1] (2)
2 基于偽彩色映射的聲譜圖特征提取
2.1 偽彩色處理
偽彩色處理是將灰度圖像線性或非線性映射到一定的調色板上,以達到彩色顯示效果的處理方式。由于人眼對彩色的分辨率遠遠高于對灰度的分辨率,所以可用于識別灰度較小的像素。偽彩色處理的關鍵在于調色板的編碼方式,常用的RGB空間的編碼方式有兩種:灰度分割法和空間域?彩色變換法。灰度分割法其將圖像灰度值劃分若干段,每一段對應一種顏色,其形成的色彩是不連續的,這將丟失聲譜圖上很多細節信息。空間域?彩色變換法,通過紅、綠、藍(RGB)三個顏色映射[qc(x),c∈(red,blue,green)]將每個像素灰度值對應到紅、綠、藍(RGB)色彩空間三個分量,從而只要保證映射函數的連續性,彩色編碼就是連續的[6]。如圖4所示本文采用JET映射進行偽彩色處理。
首先,將聲譜圖[S(f,t)]按照式(3)進行歸一化,使其灰度變化范圍為[0,1],得到歸一化后的圖像[I(x,y)]。
[I(x=f,y=t)=S(f,t)-min(S(f,t))max(S(f,t))-min(S(f,t))] (3)
然后將用使用三元色映射[qc(x)]將[I(x,y)]映射
到RGB多色空間,得到[mc(x,y)]。
[mc(x,y)=qc(I(x,y)),?c∈(r,g,b)] (4)
[qc(I(x,y))=I(x,y)-l1l2-l1, l1
這里[l1,l2,u1,u2]的取值不同將得到不同的偽彩色映射,當取[r=38,58,78,98],[g=18,38,58,78],[b=-18,18,38,58]為JET映射,其函數如圖4所示。
2.2 基于偽彩色聲譜圖的特征提取的方法
首先將聲譜圖進行分塊,如圖5所示,沿著圖像的x軸化分為[Dx]份,y軸分為[Dy]份,整幅圖像可以得到[Dx×Dy]個局部塊,每一個小塊表示為[Lij]。將每個局部區域[Lij]看為一個隨機變量,則其中的每個像素可以看做隨機變量的一個樣本,這樣就可以用[Lij]的統計參數來描述聲譜圖的局部區域,這里采用多個k階中心矩來描述[Lij],如式(6)所示。
[xki,j=E[Li,j], k=1E[(Li,j-E[Li,j])k], k=2,3,...] (6)
當是彩色圖像時,分別對三個顏色分量做同樣的處理,計算同樣的局部k階矩,然后將所有的結果依次排列成向量,即得到彩色聲譜圖的特征向量。如圖5所示的分塊,當選擇[k=1,k=2],得到特征向量的維數為[3*Dx*Dy*2=54]。在完成所有樣本的特征變量的計算后,使用主成份分析(PCA)進行降維。
3 實驗結果與分析
3.1 沖擊聲樣本的獲取
本文以板材沖擊聲為對象進行實驗,為了更好地評價彩色聲譜圖特征對沖擊聲的識別效果,這里使用兩種不同的聲樣本進行實驗:虛擬板材沖擊聲與真實板材沖擊聲。使用虛擬沖擊聲有兩個好處:
(1) 可以得到任意參數的板材沖擊聲樣本,這樣可以得到非常相似的聲樣本;
(2) 可以控制單一變量進行設計實驗,可以驗證特征對材料的哪些屬性有效。由于虛擬沖擊聲忽略了一些諧波,最后需要通過真實材料沖擊聲對實驗結果進行驗證。
虛擬沖擊聲:隨機選擇3個阻尼系數,分為3類,A類0.795區性2,B類0.765 2,C類0.823 4,采樣頻率為10 kHz,每類板材樣本30個。
實驗錄取沖擊聲:選擇玻璃板、木板、鋁板三種材料,獲取消聲室、混響室、教室三種條件下的聲樣本,采樣率為65.536 kHz,每類板材樣本30個。
3.2 實驗參數設置
圖像分塊的數目和k階矩與個數的選擇,都會影響實驗的結果,通過實驗選擇最優的參數,取[Dx=9,Dy=9,k=1,k=2],PCA閾值設置為0.99。
本文以支持向量機作為分類器,采用10次十字交叉驗證法和100次蒙特卡羅方法獲得平均識別率,訓練樣本和測試樣本數如表1所示。
3.3 實驗結果對比及分析
為了充分評價特征的性能,以幅度聲譜圖和能量聲譜圖為原始聲譜圖,分別將預處理前后彩色特征和灰度特征的分類性能相比較,再將彩色特征與MFCC等傳統聲學特征進行比較。
由表2和表3可以看出,無論是幅度譜圖和能量譜圖,基于偽彩色映射的聲譜圖特征在各個噪聲環境下識別率均優于灰度圖特征,證明偽彩色變換顯著地提高了灰度聲譜圖的表現力。經過log映射處理后的聲譜圖的在搞信噪比(大于20 dB)情況下優于未經過預處理的聲譜圖,這是因為log映射處理后的聲譜圖相對于未處理的情況,增加了聲譜圖的對比度[7],如圖6所示,(b)中的各個灰度級的頻率比(a)中的要更均衡,因此在高信噪比下,均優于未處理的情況。而當在低信噪比(0 dB)時,由于噪聲的污染,聲譜圖中信息體現在高亮度點上,而log映射降低了高亮度的點在聲譜圖中的表現力,因此log聲譜圖的性能低于未處理的聲譜圖。
4 結 語
本文在分析沖擊聲信號的時頻特性的基礎上,提出一種基于聲譜圖的特征提取方法。該方法采用偽彩色映射將聲譜圖映射為偽彩色圖,提高聲譜圖細節分辨率,然后對聲譜圖分塊計算局部k階矩作為特征。實驗中采用三種虛擬材料和真實材料的沖擊聲作為目標對象,驗證了基于聲譜圖特征的對于沖擊聲的有效性,結果表明該特征對板材沖擊聲具有較好的識別效果,尤其在低信噪比下,該方法具有較好的噪聲穩健性。
參考文獻
[1] 張冰瑞.沖擊聲的特征提取及其在聲源材料識別中的應用[J].噪聲與震動控制,2012(S1):152?156.
[2] LAMPERT T A. On the detection of tracks in spectrogram images [J]. Pattern Recognition, 2013, 46: 1396?1408.
[3] 梁澤.一種基于脈沖耦合神經網絡的語音情感識別新方法[J].計算機應用,2008,28(3):710?713.
[4] 何佳若,曾向陽.聲信號的可視化特征提取方法[J].數字信號處理,2011,35(7):61?74.
[5] SAMEH Souli, LACHIRI Zied. Multiclass wupport vector machines for environmental sounds classification in visual domain based on log?gabor filters [J]. International Journal of Speech Technol, 2013, 16: 203?213.
[6] 李全越,王芳.偽彩色圖像在醫學上的應用[J].微計算機信息,2008(3):299?300.
[7] RAFAEL C. Gonzalez digital image processing second edition [M].北京:電子工業出版社,2009.