楊 博,楊立學,王志峰,周印龍
(中國電子科技集團公司第三研究所,北京100015)
被動聲探測技術在低空探測預警方面具有重要的軍事應用。它被動接收低空/超低空飛行器目標引擎發出的輻射噪聲信號,并利用陣列信號處理和模式識別等方法,得到低空/超低空目標的方位、屬性、運動狀態等信息[1]。其中,目標屬性(或類型)的正確識別至關重要,它有助于排除虛假目標,或可根據識別的目標類型進行威脅等級評估。
低空聲目標識別包括特征提取和分類器設計,其中前者是決定識別效果的關鍵因素。傳統的聲信號特征類型包括:時域特征,如短時能量、過零率、自相關系數等[2];頻域特征,如功率譜、AR 譜等[3];時頻特征,如小波包系數等[4];聽覺感知類特征,如梅爾(Mel)頻率倒譜系數[5-6]。對于特定的目標識別任務,需要對這些特征進行精心的設計和選擇才能達到理想的效果;然而,這一過程通常耗費較大的時間和精力,同時應用環境的改變也會導致所提取的特征不穩健,因而識別效果也隨之下降。
近年來,特征學習技術(即從數據中自動學習特征的技術)為低空聲目標識別提供了新的思路,它在很多音頻識別任務中表現出較之傳統特征提取方法更優的效果[7-9]。非負矩陣分級(Nonnegative Matrix Factorization, NMF)為一種經典的特征學習方法,可將一個所有元素均為非負實數的特征矩陣(如聲信號時頻譜或Mel 頻率幅度譜)分解為一組模板矩陣和編碼矩陣的乘積,其中模板矩陣的列向量對應不同譜模式,而編碼矩陣的列向量則表示該時刻對不同譜模式的加權系數。理論上,不同類別的聲信號特征可學習得到不同的譜模板,如果將這些譜模板合并對目標信號特征進行分解,得到的編碼系數可作為特征進行目標分類。進一步對編碼系數施加稀疏性約束,即少數幾個模板(通常為同一目標類型的不同譜模式)對應的系數不為0,則可增強不同目標間的可分性[10]。
考慮到人耳在聽音辨物中出色的分辨力和穩健性,以及非負矩陣分解方法在聲信號的時頻幅度譜(滿足非負特性)上進行特征提取的可行性,本文將以信號的Mel 頻率譜為特征矩陣,并基于稀疏NMF 方法對不同類別目標的Mel 譜進行特征學習,學習到的特征將與通過對Mel 譜進行離散余弦變換得到的梅爾頻率倒譜系數(Mel-frequency cepstrum coefficients,MFCC)特征進行對比,驗證這種特征學習方法在低空聲目標識別中的有效性,為實際應用奠定基礎。
本文的主要任務是低空聲目標識別,主要目標類別包括無人機、直升機和戰斗機。環境噪聲干擾將作為一組與目標同等地位的一個類別,考察對真實環境下虛警的抑制能力。
人耳在各種嘈雜環境中具有出眾的目標辨識能力,其中耳蝸起了關鍵作用。耳蝸實質上相當于一個濾波器組,耳蝸濾波作用是在對數頻率尺度上進行的,因而其低頻分辨率高,高頻分辨率低。由于一些低空目標(如直升機和無人機)的線譜主要集中在低頻,較高的低頻分辨率有助于目標特性的描述。根據人耳音調感知關系,可得到Mel 頻率尺度及對應的濾波器組。Mel 頻率尺度與普通頻率尺度的關系為[11]

Mel 濾波器組由一系列三角形濾波器構成,其頻率響應定義為

式中:k 為頻率;fL(m )、 fH(m )和 f (m )分別代表第m 個濾波器的上、下截止頻率及中心頻率。
本文所用的目標信號采樣頻率均為4 096 Hz,傳感器采集的聲信號通過模擬電路濾波,帶寬變為10 Hz~1 kHz,依據通常的應用需求(1 s 輸出1 次識別結果),利用長度為1 s 的短時窗對信號進行分段,然后進行傅里葉變換獲得幅度譜,并通過Mel 濾波器組獲得不同頻帶的能量,最終得到Mel 頻率譜。
圖1 對比了三類低空目標和環境干擾的聲紋時頻圖,顏色越深,幅度越大。由圖1 可見,直升機信號在300 Hz 以下具有較強的線譜,無人機信號在200~600 Hz 的頻率范圍內有較強的線譜,戰斗機信號具有頻率較高的寬帶譜,而環境干擾(主要為道路噪聲)的能量則主要集中在低頻。依據所分析的目標特性差異,本文提取了3 個頻帶范圍的Mel 譜,中心頻率范圍分別為10~300 Hz、300~600 Hz 和10~600 Hz,分別對應于直升機、無人機和戰斗機的特征頻率范圍;對于不同目標采用不同的分析頻帶可有助于降低寬頻帶環境干擾的影響;每個頻帶范圍均包含40 個濾波器組,Mel 譜也相當于對原始的時頻譜進行初步降維。再對Mel 譜能量取對數后進行離散余弦變換,可獲得MFCC 特征。不同階的MFCC 系數能夠描述目標信號譜包絡的整體或精細的形狀特征,是一種聲紋識別的常見特征,這里保留較大的20 個系數作為特征與稀疏NMF 方法進行性能對比。
1.2.1 NMF 基本思想
NMF 的基本思想是:已知所有元素均為非負實數的矩陣X(此處為訓練樣本的Mel 頻率幅度譜特征矩陣),尋找一種分解方法,使其等于兩個非負矩陣D 和C 的乘積,即:

式中:X ,Λ∈?M×N;D∈ ?M×R,C ∈?R×N,D 和C 均為非負實數矩陣;M 代表特征維數(此處對應Mel頻帶數40),N 代表樣本數(此處對應以秒為單位的時間長度),R 表示譜模板數;矩陣D 為模板矩陣(template matrix),其包含的列向量為基向量,矩陣X中的列向量即是由矩陣D 里面的基向量線性組合構成;矩陣C 稱之為編碼矩陣(code matrix),包含了由模板向量構建矩陣X 的組合方式。通常情況下,R 小于M 及N,用少量的模板向量表征大量的數據向量。
在矩陣分解中,完全精確的分解過程是難以實現的,因此一般通過定義目標函數來保證矩陣分解中的逼近效果。目標函數C 可使用KL 散度準則[12]:

圖1 三類目標與環境干擾的時頻圖比較Fig.1 Comparison between the spectrograms of four kinds of targets

通過構造輔助函數,可推導得到乘法法則迭代公式為[13]:

式中:.?和./分別代表兩矩陣元素間的相乘和相除,I 是與X 同大小、元素全部為1 的矩陣。式(5)和(6)右側的乘法運算完畢后,將得到的值替代上一步的模板矩陣和編碼矩陣。
對目標函數收斂性的判斷一般可以通過計算目標函數的相對變化比值來完成,如果目標函數相對變化比值小于閾值ε,則可認為目標函數收斂[13]:

根據經驗,取ε= 1 0?3。
1.2.2 稀疏NMF
如果對編碼系數施加稀疏約束,則某類目標的信號特征只由其學習到的模板向量加權和表示,而其他模板的編碼系數近似為0,這樣可增加編碼系數在不同目標類別間的可分性。在施加稀疏約束后,代價函數變為

而迭代公式變為

式(8)中,λ1= ,代表稀疏約束加權系數。將4 類目標分別進行稀疏NMF 分解獲得各自的模板矩陣,并將其按列合并;當未知目標信號到來時,利用合并后的模板矩陣依據式(11)進行分解,一定會在該信號所屬目標類別對應的模板上具有較大的編碼系數,因而編碼系數可作為分類特征。

針對低空目標信號特點,本文采用如圖2 所示的分頻段特征提取和順序二類分類的方法。
首先,對輸入的1 s 長信號進行短時FFT 獲得幅度譜,并依次計算300~600 Hz Mel 頻帶能量(無人機在該頻帶特征顯著)、10~300 Hz Mel 頻帶能量(直升機在該頻帶特征顯著)和10~600 Hz Mel 頻帶能量(戰斗機在該頻帶范圍具有寬譜特性);然后,針對無人機和非無人機、直升機和非直升機、及戰斗機和非戰斗機任務分別利用稀疏NMF 算法獲得描述目標和非目標的模板矩陣,編碼系數可作為分類特征;最后,利用支持向量機(Support Vector Machine,簡記為SVM)模型依次進行無人機和非無人機、直升機和非直升機、以及戰斗機和非戰斗機的分類,得到最終的目標類型。

圖2 低空聲目標識別流程Fig.2 The procedure of low-altitude acoustic target recognition
本節將檢驗稀疏NMF 方法在低空目標識別中的識別效果,并與MFCC 特征進行效果比對。
本文所關注的低空目標類型包括無人機、直升機、戰斗機。此外,環境干擾信號作為與其他三類目標同等地位的一個類別,用于考察虛警抑制能力。近幾年,項目組針對四類目標在不同時間和不同地點進行了多次數據采集,每次的環境噪聲水平及干擾情況均不同,既包括較為安靜的田野,也包括車流量較大的街道旁,從而考察算法對于環境變化的穩健性。
聲音采集設備如圖3 所示。該設備為32 通道三層立體陣,最下面一層為8 元圓陣,直徑為2.4 m;中間層為16 元十字陣,陣元間距為0.2 m;最上層為8 元十字陣,陣元間距為0.2 m;層與層之間間隔0.4 m。設備采樣頻率為4 096 Hz,傳感器采集的聲信號經過模擬電路濾波后頻率范圍變為10 Hz~1 kHz,數據可實現實時存儲。識別算法處理的數據來自設備所設置的專用傳感器通道。

圖3 聲音采集設備Fig.3 The sound acquisition equipment.
在每次目標數據采集實驗中,通過掌握的目標飛行信息,在其飛行路徑上選取開闊平整的地方進行設備布設,進行連續不間斷采集;每個批次的目標聲信號可持續幾十到幾百秒。通過多次試驗,收集到的無人機目標包括固定翼無人機和涵道式無人機,直升機包含3 種機型,戰斗機包含2 種機型。在數據集劃分時,使訓練集和測試集包含不同機型,以考察識別算法對未見過機型的適應性。環境干擾主要采集了道路噪聲,采集設備位于兩條道路的交叉處,一側為車流量較大的主干道,設備距其幾十米;另一側為車流量較少的小路,設備距其僅幾米;環境噪聲分兩個時段測量,一段用于訓練,另一段用于測試。表1 給出了訓練集和測試集不同類別目標的信號長度。

表1 訓練集和測試集不同類別目標的信號長度Table 1 The signal lengths of training and testing datasets for different kinds of targets
針對無人機和非無人機的判別,利用300~600 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,無人機數據學習得到32 個模板,直升機、戰斗機和環境干擾數據分別學習得到16 個模板,將它們合并得到80 個模板(40×80 矩陣),利用合并后的模板矩陣對所有訓練數據的聲特征進行分解,得到的編碼系數作為分類特征進行模型訓練。對于測試數據,同樣利用合并后的模板矩陣對其特征進行分解,得到的編碼系數作為特征輸入到模型中得到目標類別標記。MFCC 特征在歸一化后直接輸入到模型進行訓練或測試。表2 給出了兩類特征的識別結果,其中對于無人機和非無人機的判別MFCC特征的識別率為94.02%,而經稀疏NMF 分解得到的特征對應的識別率為95.77%。

表2 兩類特征識別正確率對比Table 2 Comparison between the recognition accuracies of two kinds of features
針對直升機和非直升機的判別,利用10~300 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,直升機數據學習得到32 個模板,戰斗機和環境干擾數據分別學習得到16 個模板,將它們合并得到64 個模板(40×64 矩陣),稀疏NMF 和MFCC特征訓練/測試過程與無人機和非無人機分類過程類似。表2 中對于直升機和非直升機的判別,MFCC特征的識別率為88.22%,而經稀疏NMF 分解得到的特征對應的識別率為97.36%。
針對戰斗機和非戰斗機的判別,利用10~300 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,戰斗機數據學習得到32 個模板,環境干擾數據學習得到32 個模板,將它們合并得到64 個模板(40×64 矩陣)。表2 中對于戰斗機和非戰斗機的判別,MFCC 特征的識別率為96.94%,而經稀疏NMF分解得到的特征對應的識別率為98.45%。
采用如圖2 所示的順序識別過程,獲得了兩類特征對于四類目標測試樣本的總體識別率,其中MFCC 特征的識別正確率為85.71%,而稀疏NMF特征的識別正確率為93.57%。綜上所述,稀疏NMF 無論是在單類目標識別還是在多類目標分類上,性能均優于MFCC 特征,從而顯示出更高的目標分辨能力。
本文研究了稀疏非負矩陣分解技術在低空聲目標識別中的應用。首先,基于信號Mel 譜特征,利用稀疏NMF 方法學習得到各類目標的譜模板矩陣,并將其合并;然后,基于合并后的模板矩陣對每個樣本的信號特征進行分解,得到的編碼系數作為識別特征;最后,結合四類目標的特點,采用無人機和非無人機、直升機和非直升機以及戰斗機和非戰斗機的順序識別過程,并將稀疏NMF 方法與MFCC 特征的識別結果進行比較。結果顯示,無論是在單類目標識別還是多類目標分類中,稀疏NMF方法均取得了較好的識別結果。
對于實際應用,該算法雖然采用離線方式訓練,所需時間相對較長,但是,一旦特征模板矩陣和識別模型確定后,可針對未知信號特征進行在線分解和識別模型運算,能夠滿足實時處理要求。因此,該算法具備較好的實際應用前景。