







摘要:水聲目標識別在國防和海洋環境監測等領域具有重要應用。然而,傳統的時頻域特征提取方法由于信息損失和環境適應性不足,限制了識別性能的提升。為克服這些局限性,文章提出了一種基于一維卷積神經網絡(One-dimensional Convolutional Neural Network,1D CNN)與長短時記憶網絡(Long Short-term Memory Network,LSTM)相結合的端到端水聲目標識別模型(One-dimensional Long Short-term Memory,1DLSTM)。該模型直接以原始時域信號為輸入,利用1D CNN提取局部特征,通過LSTM捕捉長程依賴關系,有效保留了信號的全局信息。在ShipsEar數據集上的實驗結果表明,該模型的識別準確率高達93.91%,為水聲目標端到端識別領域提供了一種新思路。
關鍵詞:深度學習;水聲目標識別;端到端
中圖分類號:TB566;TP183""文獻標志碼:A
0"引言
水聲目標識別作為水下探測技術的核心,在國防、海洋環境監測、水下資源勘探和導航等領域具有重要應用價值。然而,水下環境的復雜性給水聲目標識別帶來了巨大挑戰。多徑效應、海洋環境噪聲、水溫變化引起的聲速剖面變化等因素都會嚴重影響聲波傳播,導致接收信號的失真和干擾。
傳統的水聲目標識別方法通過先提取可區分的特征,然后通過分類器或模板匹配來進行目標識別。這些方法包括基于頻譜分析的方法(如短時傅里葉變換、小波變換)、基于統計特征的方法(如梅爾頻率倒譜系數MFCC)等[1-2]。然而,這些方法往往依賴于人工設計的特征,難以適應復雜多變的水下環境,導致識別性能不穩定。
近年來,深度學習技術在水聲目標識別領域取得了顯著進展。基于卷積神經網絡(Convolutional Neural Network,CNN)的方法,如Cao等[3]提出的多尺度CNN模型,通過學習聲吶信號的頻譜特征提高了識別性能。張旺等[4]提出的結合注意力機制的殘差網絡(Residual Network,ResNet)進一步增強了模型對關鍵特征的感知能力。然而,這些方法大多依賴于時頻域表征,如頻譜圖或梅爾頻譜圖等[5-6],這些表征受限于固定的分辨率參數,可能導致原始波形中細微信息的丟失,從而限制了識別率的進一步提升。
相比之下,直接利用時域信號進行端到端識別能夠保留全面的信息,減少人為偏差,簡化處理流程。因此,該研究提出了一種新型的端到端水聲目標識別模型(1DLSTM),該模型直接使用原始波形作為輸入,結合了一維卷積神經網絡的局部特征提取能力與長短時記憶網絡的長程依賴建模能力,以全面捕捉水聲信號的特征和全局結構。
1"相關原理和所提方法
1.1"一維卷積神經網絡
經典的卷積神經網絡通常使用二維卷積來處理圖像數據,通過二維卷積能夠有效地捕捉圖像的空間特征。然而,當處理時序數據時,一維卷積更為合適。一維卷積操作能夠有效地從時序數據中提取局部特征,這對于識別序列中的短期和長期依賴特征至關重要。此外,與二維卷積的矩陣卷積運算相比,一維卷積具有較低的計算復雜度和較少的模型參數。
一維卷積本質是通過一個或多個一維卷積核沿著時間軸滑動,對輸入信號進行局部特征提取。一維卷積操作可以表示為:
X(l)j=f(∑Mi=1ω(l)ij*X(l-1)i+b(l)j)(1)
其中,Xl-1i表示第l-1層輸入特征圖,*表示一維卷積運算,f(·)為激活函數,ω(l)ij和b(l)j分別表示一維卷積核中的權值和參數偏置。
1.2"長短時記憶網絡
長短時記憶網絡是一種專門為解決傳統循環神經網絡(Recurrent Neural Network,RNN)在處理長序列數據時遇到的梯度消失和梯度爆炸問題而設計的特殊網絡結構。LSTM的核心在于其獨特的記憶單元結構。每個LSTM單元包含3個關鍵的門控機制:輸入門、遺忘門和輸出門。這些門控機制通過控制信息的流動,選擇性地保留或丟棄信息,從而解決了傳統RNN在處理長時間依賴時無法有效記憶的重要信息的問題。
遺忘門通過一個sigmoid函數計算輸入值的權重,將其壓縮至0到1之間的范圍,從而通過權重控制哪些信息需要被遺忘。其計算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)(2)
其中,ft是遺忘門的輸出,Wf是權重矩陣,ht-1是前一個時間步的隱狀態,xt是當前時間步的輸入,bf是偏置,σ是sigmoid激活函數。
輸入門決定哪些新的信息將被加入記憶單元中。輸入門包含2個步驟:首先,使用一個sigmoid函數選擇哪些值將被更新。其次,使用tanh函數生成新的候選值,決定哪些信息將更新到記憶單元中。計算公式如下:
it=σ(Wi·[ht-1,xt]+bi)(3)
Ct=tanh(WC·[ht-1,xt]+bC)(4)
其中,it是輸入門輸入,Ct是新的候選記憶單元狀態。
輸出門決定記憶單元的哪些部分將輸出,影響下一個時間步的隱狀態。輸出門同樣通過sigmoid函數控制信息流動,通過tanh函數將記憶單元狀態轉化為輸出隱狀態。公式如下:
ot=σ(Wo·[ht-1,xt]+bo)(5)
ht=ot·tanh(Ct)(6)
其中,ot是輸出門的輸出,ht是當前時間步的隱狀態。
LSTM單元的最終更新公式如下:
Ct=ft·Ct-1+it·Ct(7)
其中,Ct是當前時間步的記憶單元狀態,Ct-1是前一個時間步的記憶單元狀態。
1.3"提出的1DLSTM模型
1DLSTM模型的核心思想是在深度學習的架構下,構建一個端到端的模型,直接以原始波形作為輸入,通過多層次的特征提取和序列建模,最終實現高精度的水聲目標識別。為了達到這一目標,網絡結構如圖1所示,具體參數如表1所列。首先,輸入層直接接收原始的時域信號,保留了所有的原始信息,避免了在傳統預處理過程中可能導致的信息損失。在一維卷積層部分,網絡采用了3層1D CNN結構,每層卷積層后都緊接著一個最大池化層。這種設計允許網絡逐層提取更高級的特征,其中第一層使用32個濾波器捕捉基本的時域特征,第二層使用64個濾波器以提取更復雜的模式,而第三層則使用128個濾波器進一步提取抽象特征。整個卷積過程中卷積核的大小設置為5。
卷積層輸出的結果在進入LSTM層之前,首先經過重塑層的處理,將其重塑為適合LSTM處理的序列形式,從而保持特征的時間順序。接著,模型采用雙層LSTM結構,每層包含128個隱藏單元。這種設計能夠有效建模信號中的長期時間依賴關系,捕捉水聲信號的全局結構特征。此外,還通過引入dropout機制來防止過擬合的發生。最后,模型通過全連接層(Multilayer Perceptron,MLP)作為分類器,將LSTM的輸出映射到目標類別的概率分布上,從而實現高精度的分類結果。
2"實驗
2.1"實驗數據和評估指標
實驗采用ShipsEar數據集作為水聲目標信號源。根據原始數據集的標注,目標類別劃分為A、B、C、D和E 5個類別(4類船舶和1類背景噪聲)。為了擴充原始數據,實驗將信號按1 s長度進行等間隔分割,最終獲得9600個獨立樣本。為確保模型的魯棒性和泛化能力,采用分層隨機抽樣方法,按8∶1∶1的比例將數據集劃分為訓練集、驗證集和測試集。
分類結果的評估中,采用識別準確率、召回率、精確率和F1-score來全面衡量網絡的識別性能。每個指標的計算公式如下:
Accuracy=TP+TNTP+TN+FP+FN(8)
Precision=TPTP+FP(9)
Recall=TPTP+FN(10)
F1-score=2×Precision×RecallPrecision+Recall(11)
其中,TP、TN、FP、FN分別為真陽性、真陰性、假陽性和假陰性。
2.2"實驗結果
圖2展示了1DLSTM模型在訓練過程中訓練集和驗證集的損失曲線和準確率變化曲線。從圖6中可以觀察到,模型的學習過程呈現出典型的收斂特征。在完成訓練后,實驗中使用獨立的測試集對模型進行了最終評估。1DLSTM模型在測試集上達到了93.91%的總體準確率,這一結果驗證了模型的優秀泛化能力。
為了更深入地分析模型的識別性能,實驗中進一步計算了測試集上模型的精確率、召回率和F1-score,其值分別為93.88%,93.93%和93.89%。結果表明,1DLSTM模型在評價指標上均表現出較高的識別準確率。
此外,圖3所示的混淆矩陣進一步驗證了模型在不同類別上的識別效果。混淆矩陣顯示,1DLSTM模型在各類別的識別中均具有較高的準確性,只有極少數的混淆錯誤發生在船舶類之間。這表明,1DLSTM模型不僅能夠有效區分不同種類的船舶,還能夠較好地分辨背景噪聲,展現了其在多類別水聲目標識別任務中的廣泛適用性。
3"結語
文章提出了一種新型的端到端水聲目標識別模型(1DLSTM),成功融合了一維卷積神經網絡與長短時記憶網絡的優勢,實現了對原始時域信號的高效處理與識別。與傳統基于時頻域特征提取的方法相比,該模型具有明顯優勢,能夠直接利用原始信號,避免了特征工程中的信息損失風險。通過1D CNN與LSTM的協同作用,模型不僅能夠提取局部時間特征,還能有效捕捉信號的全局結構特征。實驗結果表明,1DLSTM模型在ShipsEar數據集上達到了93.91%的識別準確率,表現出優異的泛化能力與魯棒性。在多個評估指標(包括精確率、召回率和F1-score)上,該模型均表現出卓越的性能,尤其在復雜的水聲環境中,1DLSTM能夠有效區分目標類別。
未來的研究可以進一步優化1DLSTM模型的結構和參數,以適應更為復雜的水下環境,同時探索該模型在其他領域如水下通信和海洋資源探測中的應""用潛力。
參考文獻
[1]李昊鑫,肖長詩,元海文,等.特征降維與融合的水聲目標識別方法[J].哈爾濱工程大學學報,2025(1):1-9.
[2]葛軼洲,姚澤,張歆,等.水聲目標的MFCC特征提取與分類識別[J].計算機仿真,2024(2):13-16.
[3]CAO X,ZHANG X M,YU Y,et al.Proceedings of the IEEE International Conference on Digital Signal Processing,October 16-18,2016[C].Beijing:Piscataway,2016.
[4]張旺,楊乘,羅婭婭.融合注意力機制的ResNeXt語音欺騙檢測模型[J].計算機應用與軟件,2024(8):298-302.
[5]雷禹,冷祥光,周曉艷,等.基于改進ResNet網絡的復數SAR圖像艦船目標識別方法[J].系統工程與電子技術,2022(12):3652-3660.
[6]任晨曦.基于聯合神經網絡的水聲目標識別技術研究[D].太原:中北大學,2022.
(編輯"王永超)
End-to-end acoustic target recognition based on 1D convolutional and LSTM networks
YANG "Kang1,2
(1.Zhenjiang College of Technology, Zhenjiang 212003, China;
2.Jiangsu University of Science and Technology, Zhenjiang 212003, China)
Abstract: "Acoustic target recognition plays a crucial role in defense and marine environment monitoring. However, traditional time-frequency domain feature extraction methods often suffer from information loss and inadequate adaptability to varying environments, limiting their recognition performance. To address these limitations, this paper presents an end-to-end acoustic target recognition model (1DLSTM) that combines a one-dimensional convolutional neural network (1D CNN) with a long short-term memory network (LSTM).This model directly processes raw time-domain signals, using the 1D CNN to extract local features and the LSTM to capture long-term dependencies, thereby effectively preserving the global information of the signal. Experimental results on the ShipsEar dataset demonstrate that this model achieves a recognition accuracy of 93.91%, offering a novel approach to end-to-end acoustic target recognition.
Key words: deep learning; acoustic target recognition; end-to-end