張少康,王 超,田德艷,張小川
(1.海軍潛艇學院,山東 青島 266000;2.海洋科學與技術國家實驗室,山東 青島 266000)
特征向量提取方法一直以來都是水下目標輻射噪聲識別問題的研究重點。文獻[1 - 4]就艦船螺旋槳空化噪聲調制線譜特征提取方法及建模進行了相關研究,文獻[5 - 8]就艦船輻射噪聲的低頻線譜特征的提取進行了研究,文獻[9 - 11]開展了艦船輻射噪聲功率譜相關分析研究,文獻[12 - 14]則就艦船輻射噪聲的時域及非線性特征提取方法進行了研究。但是,傳統水聲目標特征提取方法大都需要通過人工分析手段提取時頻譜特征或其他類型的特征,目標識別過程具有較強的人機交互特性,需要研究人員具備較強的數據分析能力、先驗知識及專業素養。
近幾年,隨著浮標潛標、水下滑翔機、AUV、UUV 等水下無人潛航器的發展,基于水下無人平臺的聲學探測體系正在不斷建立完善,未來水下無人平臺水聲目標探測系統要求平臺自身具備目標探測、跟蹤及自動識別能力,傳統水下目標識別方法已無法滿足此需求,因此,智能識別方法將成為今后水下目標識別領域的研究重點之一。目前,已有學者開展了相關方面的研究工作。文獻[15] 針對水聲目標小樣本識別問題,提出了基于混合正則化深度置信網絡的水聲目標深度特征學習及識別方法;文獻[16]通過建立SDAE 堆棧式自編碼模型,對水下目標輻射噪聲譜數據進行逐層降維特征提?。晃墨I[17]使用卷積神經網絡(CNN)與深度置信網絡(DBN),對3 類水下目標進行了識別;文獻[18] 采用聽覺感知和卷積神經網絡模擬人類聽覺系統的聽音判型過程對艦船輻射噪聲進行分類識別,通過一個5 層卷積神經網絡對艦船目標信號的二維聽覺圖譜進行了特征提取。
在眾多深度學習網絡模型中,循環神經網絡(RNN)[19]是專門用于處理時序序列的神經網絡,其變體模型長短時記憶網絡(Long Short-Term Memory,LSTM)[20-21]由于有效彌補了RNN 梯度消失和梯度爆炸、長期記憶不足等問題,使得循環神經網絡能夠真正有效應用于長時時序問題。目前,LSTM 模型已成功應用于語音識別[22]、故障時間預測[23]等領域。然而,在水聲探測領域其應用相當有限,特別是對于水下目標識別問題,目前還未發現相關研究。
本文針對水下目標輻射噪聲智能化識別這一問題,提出一種基于LSTM 長短時記憶網絡的識別方法,給出了詳細網絡結構設計方案,并針對實際應用中存在的有偏估計、數據分布不平衡等問題提供了一定的解決方案。在此基礎上,分別以水下目標輻射噪聲時域時間序列數據、頻譜數據、MFCC 特征數據為網絡輸入向量,進行深層次特征提取和分類識別研究,并采用實際水聲信號對該方法進行驗證,證明了將LSTM長短時記憶網絡應用于水下目標識別的有效性。
長短時記憶網絡(Long Short Term Memory Networks,LSTM)是循環神經網絡(RNN)的改進形式,其基本單元被稱為記憶塊,由一個中心節點和3 個門控單元組成。中心節點通常被稱為記憶細胞,用以存儲當前網絡狀態,3 個門控單元分別通常被稱作輸入門、輸出門和遺忘門,用以控制記憶塊內信息流動。在前向傳播過程中,輸入門用以控制輸入到記憶細胞的信息流,輸出門用以控制記憶細胞到網絡其他結構單元的信息流;在反向傳播過程中,輸入門用以控制迭代誤差流出記憶細胞,輸出門用以控制迭代誤差流入記憶細胞。而遺忘門則用以控制記憶細胞內部的循環狀態,決定信息的取舍或遺忘。通過這種門控機制,LSTM 網絡得以控制單元內信息流動,使其具備保存長時間信息的能力,即“記憶”能力,在訓練過程中能夠防止內部梯度受外部干擾,避免了梯度彌散和梯度爆炸問題。

圖 1 LSTM 基本結構單元[24]Fig.1 Basic structure unit of LSTM
設單個LSTM 記憶塊的輸入向量為 xt,輸出向量為 yt,前向傳播公式可表述為[25]:
1)長期記憶單元Ct更新過程

其中: ft代表遺忘門; it代表輸入門。在每一個時刻,遺忘門會控制上一時刻記憶的遺忘程度,而輸入門則控制新記憶寫入長期記憶的程度。 ft, it,都是與上一時刻的短期記憶 ht-1和 當前時刻輸入 xt相關的函數,其中, σ是sigmoid 函數,取值范圍[0, 1],tanh 函數取值范圍[-1, 1]。
2)短期記憶單元 ht更新過程

其中, ot表示輸出門,控制著短期記憶如何受長期記憶影響。
單個LSTM 細胞的輸出 Ct, ht循環作為層內細胞的輸入輸出,即第t-1 時刻細胞單元輸出 Ct-1, ht-1為下一時刻LSTM 細胞的輸入值,此為層內循環。層內各時刻LSTM 細胞共用相同權重參數 Wlstm及偏置系數blstm,因此,單層LSTM 網絡可看做單個LSTM 細胞輸入輸出值的循環計算。此外,細胞單元輸出 ht還作為下一層LSTM 網絡對應細胞單元的輸入 xt參與到該層循環計算中,此為層間循環。LSTM 網絡采用BPTT 算法[26]進行訓練,其主要步驟為:1)按式(1)~式(6)前向計算LSTM 網絡輸出值;2)反向計算每個LSTM 細胞單元誤差項;3)根據誤差項,計算相應權重參數梯度;4)通過相關優化算法更新權重;5)重新按步驟1 進行前向計算,依此循環。
在深度學習模型優化方面,目前已有眾多成熟算法,如基本的隨機梯度下降(SGD)、動量、Nesterov 動量算法及自適應學習率算法,如AdaGrad,RMSProp,Adam 等算法,本文使用優化算法為Adam 算法。在模型正則化策略方面,選取目前最為流行的dropout 算法[27],以提高模型的泛化能力。相關研究表明,dropout 算法能夠有效抑制模型的過擬合現象,提高模型的魯棒性。
結合LSTM 網絡模型相關理論及水下目標輻射噪聲數據特點,本節給出基于LSTM 的水下目標輻射噪聲識別方法,相關識別框圖如圖2 所示。按網絡結構,可將該模型分為輸入層、LSTM 特征學習層、特征分類層3 部分;按功能,可將該模型分為數據預處理、模型訓練與識別分類3 個模塊。
輸入層主要進行數據預處理工作,包括對目標噪聲信號進行分析、獲取時域、頻譜或其他類型數據信息,模型輸入數據標準化操作,以及輸入層到LSTM層數據非線性變換等工作。設歸一化后輸入數據向量為 Xin={x1,x2,······,xm},LSTM 層每層塊循環次數為T,則將輸入 Xin按T 進行分割,后按時序順序經非線性變換,輸出作為LSTM 層輸入向量 Xlstm。整個過程按公式可描述為:

圖 2 LSTM 識別框圖Fig.2 Recognition diagram of LSTM

其中,Win, bin為 輸入層權重參數和偏置系數, n= m/T,為正整數。
LSTM 層主要對輸入數據進行非線性特征提取,深度學習模型具有從大量數據中自主學習特征的能力,LSTM 層輸出即為網絡模型自主學習到的特征數據。 Xlstm作為該層輸入向量,按照式(1)~式(6)逐層進行前向計算,由最后一層各LSTM 塊輸出 ht共同組成LSTM 層輸出向量 Xout,即

分類層或輸出層主要以softmax 分類器構成,以LSTM 層輸出向量作為分類器輸入,通過計算信號所屬各類別概率給出識別結果。
對于未來基于水下無人平臺的聲學探測設備,主要對水下目標進行警戒探測,因此判定本文所提出模型有效性的標準就是能否正確區分水面、水下兩類目標,基于此判定標準,進行如下驗證:
模型訓練數據庫包含各種已知類別的艦船輻射噪聲數據近1 600 條,按1s 時長進行處理,分別獲取噪聲信號的時域時間序列數據、頻譜數據及MFCC 梅爾倒譜特征數據作為LSTM 識別模型的樣本庫數據,其中樣本總數為65 284,其中水面目標樣本數42 375,水下目標樣本數22 909,3 種輸入數據條件下LSTM網絡參數如表1 所示。
同時,為保證驗證結果有效性,按照4/5 比例從樣本庫中隨機抽取數據組成多組訓練樣本,剩余1/5 作為測試樣本,各組測試結果如表2 所示。
第1 組條件下LSTM 智能識別模型對時域數據、頻譜數據及MFCC 數據訓練效果如圖3 所示。
以上幾組測試數據表明,在以時域時間序列數據、頻域頻譜數據和MFCC 特征數據作為輸入向量的情況下,采用LSTM 模型對水下目標噪聲進行識別分類是可行的。另外,在上述4 組訓練模型條件下,輸入向量為時域數據時,對水面目標分類正確率大于80%,對水下目標分類正確率大于71%;輸入向量為頻譜數據時,對水面目標分類正確率大于80%,對水下目標分類正確率大于71%;輸入向量為MFCC 數據時,對水面目標分類正確率大于84%,對水下目標分類正確率大于74%。

表 1 LSTM 網絡參數Tab.1 Parameters of the LSTM

表 2 測試結果Tab.2 Test results

圖 3 訓練效果圖Fig.3 Classification of Training data
本文提出一種基于長短時記憶網絡的水下目標智能識別方法。該方法首次將深度學習中的LSTM 長短時記憶網絡應用于水下目標噪聲識別,分別以噪聲信號的時域時間序列數據、頻域頻譜數據、MFCC 數據作為模型的輸入向量,有監督預訓練LSTM 模型,并對未知類別的水下目標噪聲數據進行了識別分類。識別結果表明,在上述3 種輸入數據條件下,該方法能夠有效區分水面、水下兩類目標。從整個識別分類過程來看,區別于傳統水下目標噪聲識別方法,該方法能夠在不依賴人工提取噪聲信號特征向量的基礎上對水下目標進行識別,滿足未來水下無人移動聲學探測平臺智能化識別水下目標的需求。