李京華,張聰穎,倪 寧
(西北工業大學電子信息學院,陜西西安 710072)
戰場目標聲識別是被動聲預警系統的核心內容之一。為了取得較好的識別結果并滿足聲預警系統的實際要求,建立的識別器必須高效、穩定、具有較好的推廣價值[1]。在以往的研究中,人們多采用KNN分類器、神經網絡分類器進行目標識別,并取得了一定的研究成果。但是,基于傳統統計模式識別方法的KNN分類器依據樣本無窮大下的漸近理論,即樣本數趨于無窮大時其性能才有理論上的保證,而在戰場目標識別中樣本數通常是有限的,對于神經網絡分類器存在有過學習和訓練過程中的局部極小點問題。近年來,國際機器學習領域在不斷發展統計學習理論的基礎上形成了一種可用于模式識別的算法——支持向量機(Support Vector Machine,SVM)[2]。其在解決小樣本、非線性及高維模式識別問題時表現出許多特有優勢,且SVM得出的結果是有限樣本信息下的最佳結論,得到的是全局最優點,從而解決了神經網絡等學習方法的過學習、訓練過程中的局部極小點問題。
作為一種新興的機器學習方法,支持向量機也存在許多急需完善的地方。在支持向量機的構造過程中,支持向量機的參數(核函數參數σ與誤差懲罰因子C)對最終分類精度有較大影響。合理的參數值可使支持向量機具有更高的精度、更好的泛化能力。針對常用的網格搜索[3]支持向量機參數的方法存在復雜度高、運算量大等不足,文中提出了一種改進的網格搜索SVM分類器的最佳參數選擇算法。這種改進的網格搜索算法可以有效地減少運算量,在相對較短的時間內提高了識別率。
本文將小波能量譜作為戰場目標聲信號的特征向量,設計出一種基于改進的網格搜索SVM分類器用于目標識別。
由多分辨分析[4]可知,同一尺度上的小波函數與尺度函數正交,根據小波變換的框架理論,當小波基函數是一組正交基函數時,變換具有能量守恒的性質,即滿足:

式(1)表明將信號 f(t)小波分解后,其逼近近似信號系數與細節信號系數的平方和等于原始信號在時域上的能量。可見,信號的總能量等于各尺度重構信號能量之和。即小波變換將原始信號分解成不同頻帶的重構信號,每個重構信號的能量反應了原始信號在該頻帶內的能量。所以小波變換后的能量與原始信號的能量之間存在等價關系,按能量方式表示的小波分解結果稱為小波能量譜。
對于戰場上的目標來說,其被動聲信號包含的能量分布與目標的大小、結構等特性密切相關,因此根據小波能量譜的定義,用小波能量譜來表示原始信號中的能量分布是可靠的,可以根據信號在不同頻段上的能量分布特點,實現對不同類目標聲信號的有效識別。
本文以實測直升機、戰斗機、無人機、巡航導彈、坦克、汽車6類目標的聲信號為研究對象,采樣率均取為5 k Hz,采用db5小波對上述6類目標聲信號分別進行10層小波分解,分解后取第10層低頻系數的重構信號和各層高頻系數的重構信號,其中s10為第10層低頻系數的重構信號,s0~s9為第1層 ~第10層高頻系數的重構信號。計算s0~s10的能量,歸一化后,以各分解層的能量為元素,按照信號s10~s0的順序將能量值排列形成特征矢量:T=[e10,e9,e8,…,e0]。各類目標各分解尺度上的歸一化能量分布如圖1所示。其中橫坐標1上的能量表示尺度10上低頻重構信號的能量,橫坐標2~11表示尺度10~1的高頻重構信號的能量。

圖1 各分解尺度上的歸一化能量分布直方圖Fig.1 Normalization Energy Histogram
不同目標的差異性和相同目標的相似性,可以采用可分性測度來衡量。
在模式識別中,特征選擇和特征提取的目的在于突出同一類別模式的相似性和不同類別模式之間的差異性,希望同一類模式在空間的分布越密越好,不同類的模式分布越分散越好。因此,類內距離和類間距離[5]可以作為可分性測度。

構造距離可分性測度計算公式為:

式中,dij為ωi和ωj類間平均樣本距離,di為ωi的類內距離,d j為ωj的類內距離。該距離可分性測度反映了兩類模式均值向量之間的距離與它們各類類內距離和的比值。
很顯然,若類間平均樣本距離d ij越大,各類類內距離之和越小,則可分性測度J越大,模式的可分性越好。若兩類模式為同一類模式,則dij=di=dj,J=0.5。
利用公式(4)對小波能量譜法提取的目標特征向量作分析。將6類戰場目標(直升機、戰斗機、無人機、巡航導彈、坦克、汽車)的特征向量歸一化后形成分析樣本,每一類隨機抽取30個樣本,計算其可分性測度,重復進行100次取平均,計算結果列于表1中。
從表1中可以看出,基于小波能量譜法提取的特征進行識別時,巡航導彈和坦克最易區分識別,其次是直升機與坦克,而巡航導彈和汽車最不易識別區分。在后面的識別結果分析對比中將得到更進一步的驗證。

表1 戰場目標特征向量的可分性測度Tab.1 Class separability measurement of battlefield targets feature vector
支持向量機主要解決的是一個二分類問題,該理論最初來源于數據分類問題的處理,SVM就是要尋找一個滿足要求的分割平面,使訓練集中的點距離該平面盡可能地遠,即尋求一個分割平面使其兩側的margin盡可能大。支持向量機從線性可分情況下的最優分類面發展起來,通過將輸入空間映射到一個高維內積空間中,解決一個線性約束的二次規劃問題,得到全局最優解,保證收斂速度,不存在局部極小值問題[6-7]。
給定訓練樣本(x i,y i),i=1,2,…,N,集合{x i}∈Rn,y∈{-1,1}是類別標號,可以被一個超平面ω*x+b=0分開。使得每個樣本都滿足:

此時分類間隔為2/‖ω‖,因此使間隔最大等價于使 ‖ω‖2最小,滿足式(5)且使 ‖ω‖2最小的分類面就是最優分類面。
利用Lagrange優化方法可以把上述最優分類面問題轉化為其對偶問題,即求解如下的二次規劃(QP)問題:

滿足約束條件:

式中,K(xi,xj)為核函數;αi是二次規劃問題所求的Lagrange乘子,每一個訓練樣本對應一個αi,根據Kuhn-Tucker條件知,只有一少部分αi不為零,所對應的樣本就是支持向量;C為懲罰因子,它控制的是訓練錯誤率與模型復雜度間的折中。

式中,b*是一個閾值。f(x)為SVM對于樣本 x的輸出,其值的正負表示其歸屬哪一類,由該式可看到那些αi=0的樣本對分類沒有任何作用,只有那些αi>0的樣本對分類起作用。
針對戰場多目標識別問題,需要的是多類分類器,本文采用1-a-1(One-against-one)算法,即每兩類樣本設計一個SVM分類器,這種算法簡單,訓練時間短。
本文選用徑向基函數(RBF)作為SVM分類器的核函數。對于一個基于RBF核函數的SVM,其性能是由參數(C,σ)決定的,選取不同的C和σ就會得到不同的SVM[8]。C的作用是控制對錯分樣本的懲罰程度,C的取值小表示對錯分樣本的懲罰程度小,分類面較簡單。這時學習機器的經驗誤差相對較大。如果C無窮大,則所有的約束條件都必須滿足,這就意味著所有訓練樣本都要準確地分類。這樣,將導致分類面復雜,算法復雜度高,所需時間較長。因此對C值的選取要結合實際應用,在滿足分類準確率的情況下取盡可能小的值來獲得比較簡單的判決函數。而核參數σ的改變實際上是隱含地改變映射函數從而改變樣本數據子空間分布的復雜程度,即線性分類面的最大VC維[9-10],也就決定了線性分類達到最小誤差。σ取值過小,所有的樣本都將成為支持向量,故而造成對新樣本的測試時間長,并且會產生“過度擬合”現象;當σ很大時,SVM的性能也會非常差,它對新樣本的正確分類能力幾乎為零,將把所有樣本都判為同一類;當σ選取較好,支持向量的個數明顯減少,并且此時分類器對新樣本的正確判別能力有很大提高。
雖然用這種方法最終能找出最優化參數,但是其復雜度高,運算量大。
為了減少運算量,作為網格搜索法的一種改進,本文將最佳參數(C,σ)的選擇分三步完成:
1)采用大的變步長,使最優參數的搜索在一個較大的范圍內進行,實驗中搜索范圍取:

在這個大的粗搜索范圍內得到識別率最高的C1opt、σ1opt值。
2)先固定C=C1opt,使σ在σ1opt附近采用較小的步長,在一個較小的范圍內進行更細致的搜索,取:

選出識別率最高的σ2opt;
3)再固定σ=σ2opt,使C在C1opt的附近采用較小的步長,在一個小的范圍內進行精細的搜索,取:

選出識別率最高的C2opt,至此(C2opt,σ2opt)即為所選的最優參數組合。
實驗利用小波能量譜的特征提取方法對實測的6類戰場目標:直升機、汽車、戰斗機、無人機、坦克、巡航導彈的噪聲信號提取特征向量,分別采用3種分類器:KNN分類器、改進的BP神經網絡分類器和SVM分類器進行分類識別,得出分類結果,并根據實驗結果分析比較3種分類器的分類性能。
本文所用的樣本數據為:直升機220個樣本,汽車325個樣本,戰斗機39個樣本,無人機477個樣本,坦克502個樣本,巡航導彈40個樣本。實驗采用“交叉驗證”(cross validation)的測試方法,這種方法能夠充分利用樣本提供的信息,彌補樣本數量不足的缺陷,并可以防止過擬合的問題。將所有特征向量樣本均勻分成3組(F1,F 2,F3),樣本劃分情況如表2所示。

表2 交叉驗證測試樣本劃分情況Tab.2 Division method of the cross validation samples
并按以下步驟做3次測試:
第一次測試:訓練集:F 1+F2,測試集:F 3;
第二次測試:訓練集:F1+F 3,測試集:F2;
第三次測試:訓練集:F2+F 3,測試集:F1。
每次測試的正確識別率按下面公式計算:

3種分類器的識別結果如表3所示。

表3 不同分類器的目標識別率Tab.3 Classification accuracy of different classifiers
由分析表3的分類結果可知,基于小波能量譜法提取的特征是有效的,3種不同的分類器總的識別率都達到了84%以上。在本實驗中,改進BP神經網絡分類器的識別效果好于KNN分類器,SVM分類器的效果最好。進一步說明了文中提出的改進的網格搜索SVM分類器最佳參數選擇算法可以有效地減少SVM分類器的運算量,改進學習性能并提高識別率。
本文以實測戰場目標輻射噪聲信號為研究對象,采用小波能量譜特征提取方法提取各類目標的特征向量,設計了一種改進的網格搜索SVM分類器,對比實驗結果表明改進后的SVM分類器從實用性和分類效果上都好于KNN分類器和改進的BP網絡分類器,良好的實驗結果說明了改進的網格搜索優選SVM參數算法的有效性。在實際應用中,需要足夠量的模式樣本來提取目標類的特征,若樣本數量太少,將使分類器的性能降低,并最終影響識別率,如本實驗中戰斗機和巡航導彈的樣本量較少,識別率比其他類別目標就低一些。
[1]陳虎虎,鐘方平.基于支持向量機的低空飛行目標聲識別[J].系統工程與電子技術,2005,27(1):46-48.CHEN Huhu,ZHONG Fangping.Acoustic recognition of low-altitude flight targets by SVM[J].Systems Engineering and Electronics,2005,27(1):46-48.
[2]Vapnik V N.The nature of statistical learning theory[M].New York:Springer Verlag,1995.
[3]Chapelle O,Vapnik V.Choosing multiple parameters for support vector machines[J].Machine learning,2002,46(1/2/3):131-159.
[4]Mallat S.A theory for multiresolution signal decomposition:the wavelet representation[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1989,11(7):674-693.
[5]孫繼祥.現代模式識別[M].長沙:國防科技大學出版社,2002.
[6]Buges,C J C.A tutorial on support vector machines for pattern recognition[J].Data mining and knowledge discovery,1998,2(2):121-167.
[7]鄧乃揚,田英杰.數據挖掘中的新方法:支持向量機[M].北京:科學出版社,2004.
[8]林升梁,劉志.基于RBF核函數的支持向量機參數選擇[J].浙江工業大學學報,2007,35(2):163-167.LIN Shengliang,LIU Zhi.Parameter selection in SVM with RBF kernel function[J].Journal of Zhejiang University of Technology,2007,35(2):163-167.
[9]WU Kuoping,WANG Shengde.Choosing the kernel parameters for support vector machines by the inter-cluster distance in the feature space[J].Pattern Recognition,2009,42(5):710-717.
[10]王睿.關于支持向量機參數選擇方法分析[J].重慶師范大學學報(自然科學版),2007,24(2):36-38.WANG Rui.Method analyse about support vector machins parameter[J].Journal of Chongqing Normal U-niversity,2007,24(2):36-38.