郭 磊,林嘯宇,王 勇,陳正武,常 偉*
(1.電子科技大學計算機科學與工程學院 成都 611731;2.電子科技大學信息與軟件工程學院 成都 610054;3.中國空氣動力研究與發展中心 四川 綿陽 621010)
直升機在軍事突防中發揮著重要作用,因此關于直升機的探測和識別也成了一個重要的研究問題[1]。目前該領域已成功發展了紅外、雷達等多種先進防空探測手段,但受地形、地面附近雜波等環境影響,雷達探測在低空仍存在盲區,無法有效探測到低空目標[2];紅外等光學探測設備受大氣環境和自然環境影響較大,無法針對低空目標進行全天候監測[3]。因此,低空飛行目標的檢測和識別成為目前探測技術發展的重點和難點。直升機飛行時輻射的旋翼聲信號作為飛行過程中的重要物理特征,具有傳播距離遠、衰減速度慢等特性,基于旋翼噪聲信號進行直升機檢測與識別的方法可行性高,具有重要研究價值。
目前,針對直升機聲目標開展的研究主要劃分為檢測、識別兩個相對獨立的研究模塊。在音頻檢測方面的研究大多集中于傳統信號處理領域,如基于聲類比理論的FW-H 方法[4]、基于Kirchhoff 和CFD的混合法[5]等,這些方法需要對完整的音頻信號進行時頻特性分析,在實際外場探測時的實時性難以保證;在直升機聲目標識別方面,主要基于諧波特征提取、小波特征提取、人耳聽覺感知特征提取[6]等方法提取直升機聲信號的特征并利用KNN、SVM[7]等傳統分類器進行聲目標識別。隨著深度學習在聲音領域的發展,也有相關研究采用CNN、LSTM 等網絡模型以實現直升機聲目標的深度特征提取和識別[7]。直升機聲目標識別方法研究的數據是基于仿真或特定的實驗環境,難以排除實際外場的噪聲干擾,導致了連續識別正確率低、魯棒性差的問題。并且在實際外場直升機目標監測時,需要將檢測和識別方法結合。
由此,本文提出一種在實際環境中對直升機旋翼聲信號進行一體化檢測與識別的算法。該算法將聲目標檢測與聲目標識別兩個獨立的研究方向進行一體化,檢測結果能夠為聲目標識別剔除噪聲段,以增加聲目標識別的精度和效率,而聲目標識別的結果又可以作為聲探測結果的驗證,進一步提高檢測精度。通過外場實驗采集的兩類直升機信號和開源的noise92 噪聲數據集構建了實驗數據,設計實驗并驗證了該算法的可行性。
實際的外場環境中,通常混疊各種聲源產生的聲音信號,這些不同的聲源都會影響其檢測識別的效果。圖1 和圖2 分別是一段純凈直升機聲音信號的頻譜圖像和實際外場聲信號的頻譜圖像。對比兩圖可知:純凈的直升機具有較為明顯的諧波特性,在其頻譜圖像中很容易找到直升機的基頻和它的倍頻譜線。而復雜的外場環境中,受各個聲源信號的混疊、抵消等影響,外場信號的頻譜圖雜亂無章,難以直接對直升機信號進行檢測和識別。因此需要考慮抑制這些雜音的干擾,進而提升檢測和識別效果。

圖1 純凈直升機的頻譜圖像

圖2 復雜外場噪聲的頻譜圖像
外場采集的音頻信號中混雜著直升機旋翼聲信號及各種環境噪聲,通過聲目標特征提取方法可有效放大直升機旋翼聲信號的某些特征,進而達到雜音抑制和信號增強的效果。本文采用基于譜質心、譜對比度及MFCC(mel frequency cepstrum coefficient)特征提取融合的特征提取方法。
譜質心是在一定頻率范圍內通過能量與頻率乘積的加權平均,它包含了聲音信號的頻率分布和能量分布的重要信息[8]。譜質心的計算公式為:
式中,f為信號頻率;E(n)是連續的時域信號x(t)經短時傅里葉變化后對應頻率的譜能量。
譜對比度是音頻經時頻變換形成的頻譜圖的像素對比度[9]。譜對比度的計算公式為:
式中,r(i,j)=|i-j|即相鄰像素間的灰度;p(i,j)為相鄰像素灰度差為r的像素分布概率。高對比度值通常對應清晰的窄帶信號,而低對比度值則對應寬帶噪聲。
MFCC 是語音識別領域最常用的語音特征[10]。MFCC 特征提取的流程如圖3 所示。輸入的原始數字信號經預加重、分幀、加窗、FFT、Mel 濾波、DFT 等操作后,最終變為能夠表征頻域特征的特征向量,該向量作為分類器的輸入,進行分類識別處理。

圖3 MFCC 特征提取流程
在完成了直升機的聲目標特征提取后,需要將提取的特征系數作為輸入,由分類模型進行檢測和分類處理。考慮到實際外場信號的復雜性,使用淺層分類器直接進行分類識別的正確率較低,故本文使用基于深度學習訓練的神經網絡模型進行深層特征提取和分類識別。搭建的深度神經網絡模型如圖4 所示。網絡模型架構由2 層卷積層、2 層池化層、2 層全連接層和1 個Softmax 分類器拼接組成。前4 層用于深度特征提取,最后2 層全連接層用于聚合特征,最后由Softmax 分類器進行分類識別和輸出結果。
本文研究中,待測信號是一段長時間的音頻信號,且大部分時間段是環境噪聲,少部分時間段是直升機聲信號與環境噪聲的混疊。為了模擬實時采集的外場音頻,將待測信號進行切片,獲得短時的音頻段,并判斷每個短時的音頻段中是否潛在直升機的音頻信號,如果含有直升機音頻信號,那么需要將該音頻段進行后續識別處理。基于上述流程,提出如下檢測識別算法,如圖5 所示。

圖5 直升機聲目標檢測識別整體流程
由圖5 所示,該算法流程在總體上可分為基于 融合特征的直升機聲目標檢測和基于深度學習的潛在聲目標識別兩個流程。目標檢測部分通過切片、帶通濾波、特征提取和目標檢測4 個階段,將原始的待測信號劃分為純噪聲段和直升機目標段。進一步對直升機目標進行分類識別處理,通過維納濾波、特征提取和分類識別3 個階段,再進行具體型號分類,從而實現完整的聲目標檢測識別流程。目標檢測部分能夠作為識別部分的前處理,初步剔除純噪聲段以減少識別部分的噪聲干擾,提高識別效率和正確率;而識別部分對潛在目標段進行細分類,又能識別出檢測時誤判的音頻段,進而提升檢測的正確率,實現聲目標檢測和識別的一體化處理。
基于融合特征的直升機聲目標檢測流程如下。首先,將待測信號進行切片,劃分為短時的音頻段。然后,鑒于直升機旋翼聲信號集中于0~500 Hz頻段[11],將音頻段通過帶通濾波器進行濾波處理,初步濾除目標頻段以外的其他信號,達到抑制雜音的目的。再使用時頻變換方法,獲得該音頻段的梅爾頻譜圖,提取頻譜圖中的色度特征以及譜質心特征[12]。由于檢測部分需要較高的實時性要求,因此本文采用了輕量化的分類器模型——SVM。首先通過純噪聲段和包含直升機的環境噪聲兩類信號對SVM 進行訓練,一次完成檢測部分的二分類處理,用于作為檢測部分的分類器模型。最后,將提取的融合特征通過SVM 分類器進行潛在目標段和噪聲段的二分類,從而實現直升機聲目標檢測。
檢測部分流程總結如下:
1)將原始信號進行切片處理,劃分為1 s 時長的音頻段共n段;
2)對每一個切片的樣本做帶通濾波,得到0~500 Hz 的帶通濾波音頻;
3)將音頻樣本做MFCC 特征提取得到MFCC特征系數;
4)計算音頻樣本中每幀的頻譜質心和譜對比度,并將二者與MFCC 特征系數疊加作為融合特征向量;
5)選取k個樣本的特征向量組成特征向量矩陣Mk作為訓練支撐向量機的輸入矩陣;
6)使用另外n-k個樣本的特征向量組成的特征向量矩陣Mn-k對支撐向量機進行測試;
7)將訓練、測試后的SVM 應用于實際信號檢測,并評估該方法的檢測率。
對于直升機目標段,需要通過相應方法對其進行識別,判斷其直升機型號。
由于檢測信號段中除了目標直升機外,還存在其他噪聲的干擾(環境噪聲及其他聲源發出的雜音等),為了提高識別的正確率,首先采用維納濾波進行信號增強。然后,通過MFCC 特征提取淺層特征,提取的特征系數作為分類器的輸入由網絡模型進行深層特征提取和分類識別,最終得到直升機的具體型號。
本文使用深度學習的方法構建網絡模型并進行網絡訓練和測試。在訓練完成后將網絡模型凍結,用于后續實際分類識別使用。分類識別流程總結如下:
1)通過訓練集對構建的識別網絡進行訓練,獲得訓練后的網絡參數模型;
2)對于直升機目標段,首先通過維納濾波進行信號增強;
3)再將信號增強后的音頻段提取MFCC 特征系數,作為識別的特征向量;
4)將該特征向量輸入訓練好的網絡,由其進行深層特征提取和分類識別,最終得到識別結果。
由于缺少開源的實驗數據,本文利用開源的noise92 噪聲數據集和實際外場實驗采集的R22 和R44 兩類民用直升機的聲信號數據進行人工合成,構建實驗數據集進行實驗和算法效果分析。
3.1.1 數據集介紹
Noise-92 噪聲數據集是由英國荷蘭感知-TNO研究所語音研究單位(SRU)在項目編號2589-SAM 下在現場測量的不同噪聲數據。所有文件的持續時間均為235 s,由采樣率為18.98 kHz,具有16 位的模數轉換器、抗混疊濾波器和不帶預加重級的采集設備來獲取的[13]。選用其中的8 類噪聲作為噪聲數據,分別是白噪聲、粉紅噪聲、室內人聲、電焊設備工作聲、汽車生產車間噪聲、車輛行駛噪聲、沖擊噪聲及無線電波噪聲。由于用于測試的目標信號為5 kHz,所以又對noise92 數據集進行了5 kHz 的重采樣。
而目標直升機數據,通過外場飛行實驗,以5 kHz 的采樣率采集了R22 和R44 兩類直升機在直飛狀態下的數據。選取了其中信噪比較高的,距采集設備2 km 以內的音頻段,切分作為兩類直升機目標數據,圖6 和圖7 分別展示了一段噪聲信號和直升機聲信號的波形示例。

圖7 R22 直升機波形
3.1.2 模擬信號檢測與識別實驗
將兩類直升機信號分割為1 s 長的音頻段,分別按照不同的時間戳隨機插入到8 類噪聲信號中并記錄各個目標段的開始時間和結束時間,共兩類聲目標信號,分別隨機插入各類環境噪聲中100 次,構成1 600(2×8×100)段待測數據,每段數據中含有1 s 長的直升機聲目標。為了模擬更為復雜的噪聲環境,在上述8 種噪聲中的兩種以上進行隨機疊加,構成復合的噪聲環境;再將兩類聲目標信號插入復合噪聲并記錄起止時間,構成200(2×100)段復合信號;單一噪聲和復合噪聲信號共計1 800 段。
然后使用訓練好的SVM 模型,按照2.1 節中的檢測流程分別對1 800 段數據集進行切片、濾波、特征提取和檢測,并將檢測到目標的音頻時間戳與記錄的時間戳進行對比,計算各種聲目標環境下的檢測率(檢測率=檢測正確段數/總段數×100%),結果見表1。

表1 算法對9 類噪聲環境下的潛在目標段檢測正確率統計表 %
由表1 可見,基于SVM 的待測目標的平均檢測率為93.6%,其中該方法對白噪聲、粉紅噪聲、室內人聲、電焊設備工作聲、沖擊噪聲及無線電波噪聲這6 類的檢測效果較好。而對于生產車間噪聲和車輛行駛噪聲這兩類的檢測效果相對較差,但仍在90%以上。對于由多種噪聲環境構成的復合噪聲環境的檢測率為86%,相比單一的噪聲環境有了一定程度的下降,在后續的識別實驗中可以重點考慮識別算法對復合噪聲環境誤判的目標信號是否存在抑制作用。
對于用于分類識別的神經網絡模型的訓練,將R22 和R44 兩類直升機信號各提取100 段1 s 長的音頻段作為訓練集,訓練本文的神經網絡模型。并且以同樣的方法訓練SVM 和RNN 兩種分類器,從而對比本文算法的識別效果。
分類識別算法效果實驗的數據集,按照上述記錄的時間戳將直升機目標段分割出來,構成1 800段,R22 和R44 在9 類環境中各100 段的分類識別測試集。使用3 種分類模型進行分類,得到的識別效果如表2 所示。

表2 3 種算法對9 類噪聲環境中潛在目標段的識別率統計表 %
由表2 可以得出,與其他兩種分類器模型對比,本文使用的神經網絡模型在9 種不同的噪聲環境中都具有更高的識別率。為了驗證該算法在其他數據集中是否具有較好的魯棒性,使用了英國BBC 提供的直升機數據與noise92 數據集進行混合。原始數據是由BBC 提供的brant、bristo、fairey、sikors 和wessex 這5 種懸停的直升機演示視頻[14],從中截取了音頻文件并劃分為一秒長的音頻段,按照上述的噪聲疊加方法疊加形成了9 種環境下的5 類直升機信號。然后,分別訓練了SVM、LSTM和本文使用的CNN 網絡,并分別進行測試,3 種 算法對該數據集的識別率如表3 所示。

表3 3 種分類器對9 類噪聲環境中直升機目標的識別率統計表 %
由表可見,3 類網絡模型對5 類直升機的識別率都有所下降,不過本文算法仍舊保持最高的識別率,在一定程度上驗證了本文算法的魯棒性。由于本次實驗提供的直升機數據中沒有包含詳細的參數說明,因此無法準確地獲取它的時頻特征信息,從而使信號增強和特征提取方法受到了影響,同時由于原始音頻數據是由視頻數據截取而來,造成了一定程度的失真,這兩個因素都對識別效果產生了較大的影響。
為了驗證在實時系統中該算法的可行性,同樣對外場實驗中采集的真實數據進行了算法測試和分析。在某民用機場進行了直升機外場飛行實驗,得到了羅賓遜R44 和R22 兩類直升機的飛行音頻數據[15]。直升機聲目標測量設備包括陣列架、傳聲器和采集器等。實驗現場如圖8 所示。

圖8 直升機聲目標探測實驗現場
當直升機離傳聲器較近時,信噪較高,而隨著直升機與傳聲器距離的變大,由于直升機聲信號在空氣中傳播時的衰減,信噪比逐漸降低。進行外場飛行試驗時,直升機先是從近距離出發,逐漸飛遠,然后飛回。由于兩次飛行試驗的飛行距離和飛行軌跡的區別,選取了兩次實驗中直升機由6 km左右的距離飛向采集點、再飛離采集點直至6 km左右的兩條實驗音頻數據。按照3.1 節中的算法步驟對完整的飛行事件進行了檢測和識別處理。檢測和識別結果見圖9 與圖10。

圖9 R22 型直升機飛行試驗檢測與識別率

圖10 R44 型直升機飛行試驗檢測與識別率
由實驗結果可見,總體上,直升機在測點附近時,由于信噪比較高,平均識別正確率總體相對較高。隨著目標與測點的距離增大,信噪比變低,平均識別正確率隨之下降,直到無法有效識別。對于本文提出的算法而言,在5 km 左右的距離,檢測算法對兩次飛行試驗的檢測率都基本能檢測出潛在目標,而識別算法對于4 km 以內的數據也具有較好的識別效果。
本文提出了一種實際環境中的直升機聲目標的檢測與識別一體化算法。該算法首先通過SVM 對外場聲信號提取的融合特征進行潛在聲目標的檢測,再利用基于深度學習的分類模型對直升機聲目標段進行深層特征提取和分類識別。通過模擬生成的復雜環境數據集與真實外場飛行實驗對算法效果進行了實驗分析,實驗證明了算法檢測率達93.6%,識別率達93.9%。與現有方法相比,該方法明顯提升了對直升機完整飛行事件連續識別的魯棒性,同時提高了整體識別的正確率。