徐齊勝 許可樂 竇 勇 高彩麗 喬 鵬 馮大為 朱博青
隨著人類對海洋資源開發(fā)利用的不斷深入以及海上安全問題的日益突出,水聲目標(biāo)識別(Underwater acoustic target recognition,UATR)作為海洋環(huán)境監(jiān)測的一項基礎(chǔ)性任務(wù),成為近年來水聲信號處理領(lǐng)域中的研究熱點之一.目前該研究內(nèi)容已廣泛應(yīng)用于海底目標(biāo)定位與識別[1]、海岸線監(jiān)視[2]、海洋生物行為的計數(shù)和分類[3]、船只識別[4]以及潛艇、魚雷的檢測[5]等領(lǐng)域.相比于電磁信號,基于聲學(xué)信號進行分析是水中目標(biāo)識別更加行之有效的方法,主要有以下三個原因: 一是聲波在水中的傳播速度較快且衰減較慢,相比之下電磁波在水中傳播速度慢且衰減迅速;二是水中目標(biāo)通常使用聲波信號進行通信;三是聲波在不同水域環(huán)境中具有更好的適應(yīng)性,無論是海洋、湖泊還是河流等不同水體環(huán)境,聲波傳播的特性相對穩(wěn)定,使得被動聲吶能夠適應(yīng)不同的水下環(huán)境進行目標(biāo)識別.而電磁信號在不同水體環(huán)境中的傳播特性存在較大差異,需要進行針對性的調(diào)整和適配.一般而言,聲波信號的采集可以通過主動聲吶和被動聲吶獲取.特別地,被動聲吶具有干擾性小、效率高、可同時接收來自多個方向的聲波等優(yōu)點,近年來被廣泛部署,是當(dāng)前水中目標(biāo)識別的主要數(shù)據(jù)來源.然而,由于海洋環(huán)境的復(fù)雜多變,水中目標(biāo)的聲吶信號會受到許多干擾,如海洋背景噪聲、多路徑效應(yīng)、信號衰減等,從而導(dǎo)致可用于研究和分析的被動聲吶信號往往數(shù)量較少,這大大增加了水中目標(biāo)識別的挑戰(zhàn)性.為有效預(yù)處理和分析被動聲吶信號,設(shè)計高通用性和泛化性的特征提取方法、提升水中目標(biāo)識別的準(zhǔn)確率和時效性、降低模型的訓(xùn)練成本和復(fù)雜度、構(gòu)建質(zhì)量良好的公開可用水聲數(shù)據(jù)集,都是基于被動聲吶音頻信號的水中目標(biāo)識別任務(wù)所面臨的關(guān)鍵問題.
一般而言,水中目標(biāo)大致包含水面目標(biāo)和水下目標(biāo)兩個大類.其中水面目標(biāo)主要是各種大型艦船、小型船以及浮標(biāo)等;水下目標(biāo)則主要是各類海洋生物、潛艇、魚雷等.水中目標(biāo)識別旨在通過非接觸的方式實現(xiàn)目標(biāo)類別的判斷[6],一般包括聲學(xué)特征提取并據(jù)此進行信號的識別兩個階段.該過程通常涉及信號處理、模式識別和機器學(xué)習(xí)等相關(guān)知識,根據(jù)信號的特征(如頻率、振幅、持續(xù)時間和頻譜特征)進行目標(biāo)的識別.傳統(tǒng)上,該任務(wù)主要依賴于專業(yè)的聲吶操作員進行人工聽音判別來實現(xiàn)水中目標(biāo)的識別.然而,該方式易受操作員的情緒、所處環(huán)境、健康狀態(tài)以及外界天氣等多種因素的影響,從而導(dǎo)致錯誤的判斷.此外,人工聽音判別效率低,難以適應(yīng)復(fù)雜多變的海洋環(huán)境和無法滿足日益增長的監(jiān)測需求.近年來機器學(xué)習(xí)特別是深度學(xué)習(xí)算法在許多領(lǐng)域中表現(xiàn)出強大的學(xué)習(xí)能力和優(yōu)異的自動識別能力,激勵了學(xué)者探索該方法在水中目標(biāo)識別任務(wù)中的應(yīng)用,目前基于機器學(xué)習(xí)的水中目標(biāo)識別方法逐漸成為該領(lǐng)域的研究熱點[7].
隨著機器學(xué)習(xí)在基于被動聲吶音頻信號的水中目標(biāo)識別任務(wù)的研究不斷深入,眾多成果不斷涌現(xiàn),近年來也出現(xiàn)了一些綜述性工作.例如,文獻[8]從水聲特征提取的角度分析不同聲學(xué)特征的提取方式和物理特性,簡單介紹部分目標(biāo)識別方法.文獻[9]則從方法層面對水中目標(biāo)識別研究進行綜述.相比之下,本文同時從聲學(xué)特征提取和方法層面對已有方法進行總結(jié).此外,文獻[9]只從宏觀上分析不同深度學(xué)習(xí)方法的性能差異,而本文從精度、魯棒性、擴展性等多個維度對比不同方法的一般性能差異.文獻[10]從方法層面將基于機器學(xué)習(xí)的水中目標(biāo)識別劃分為基于統(tǒng)計學(xué)的方法、基于深度學(xué)習(xí)的方法和基于遷移學(xué)習(xí)的方法,并進行相應(yīng)的綜述.本文與文獻[10]的區(qū)別主要體現(xiàn)在以下兩個方面: 在內(nèi)容層面,本文總結(jié)當(dāng)前主流的公開可用水聲數(shù)據(jù)集,在此基礎(chǔ)上指出一個質(zhì)量良好的水聲數(shù)據(jù)集應(yīng)該具備的特點;在方法層面,本文對已有方法進行更加細致和全面的總結(jié).例如本文加入了近期發(fā)展起來的兩類重要方法,即基于Transformer 和基于自監(jiān)督學(xué)習(xí)的水中目標(biāo)識別方法,這兩類方法是當(dāng)下廣為關(guān)注并具有較大研究潛力的研究方向.總之,上述綜述文章大多從特征或方法的某一維度出發(fā)對水中目標(biāo)識別進行綜述,沒有包含最新的研究進展.此外,當(dāng)前的綜述文章中缺少對不同方法的性能對比分析.本文根據(jù)當(dāng)前的研究進展,系統(tǒng)闡述基于被動聲吶音頻信號進行水中目標(biāo)識別的原理和方法,對該領(lǐng)域的研究現(xiàn)狀、存在的問題以及未來的發(fā)展趨勢進行系統(tǒng)性的分析與討論.本文聚焦梳理基于被動聲吶音頻信號的水中目標(biāo)識別的基本原理、方法以及最新成果,突出將機器學(xué)習(xí)應(yīng)用于水中目標(biāo)自動識別的不同策略,分析在此過程中存在的關(guān)鍵問題與挑戰(zhàn),在此基礎(chǔ)上對該領(lǐng)域未來的發(fā)展趨勢進行總結(jié)與分析.具體來說,本文將基于被動聲吶音頻信號的UATR 方法分為7 大類: 基于傳統(tǒng)機器學(xué)習(xí)的方法,基于卷積神經(jīng)網(wǎng)絡(luò)的方法,基于時延神經(jīng)網(wǎng)絡(luò)的方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,基于Transformer 的方法,基于遷移學(xué)習(xí)的方法,基于無監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)的方法,如圖1 所示.此外,本文還對該領(lǐng)域中較為廣泛使用的公開數(shù)據(jù)集進行總結(jié)與分析.

圖1 基于機器學(xué)習(xí)的水聲目標(biāo)識別方法Fig.1 Machine learning-based methods for UATR
本文內(nèi)容安排如下: 第1 節(jié)從數(shù)據(jù)處理角度論述被動聲吶信號處理的基本原理,其中包括基于被動聲吶信號進行水中目標(biāo)識別的基本流程、被動聲吶信號分析的數(shù)理基礎(chǔ)以及特征提取方法;第2 節(jié)和第3 節(jié)則從識別方法層面全面梳理基于被動聲吶音頻信號的水中目標(biāo)識別方法的發(fā)展脈絡(luò)和最新成果,總結(jié)基于被動聲吶音頻信號的水中目標(biāo)識別任務(wù)所面臨的主要挑戰(zhàn),指出探索“自學(xué)習(xí)-高效性-跨模態(tài)融合”算法是解決技術(shù)瓶頸的有效手段;第4 節(jié)從現(xiàn)有公開可用的水聲數(shù)據(jù)集角度論述,指出一個質(zhì)量良好的水聲數(shù)據(jù)集應(yīng)該具備的要素,以便進一步促進該領(lǐng)域的發(fā)展;第5 節(jié)對全文內(nèi)容進行總結(jié),從算法的精度、標(biāo)簽數(shù)據(jù)需求、可擴展性與實時性等多個維度,論述水中目標(biāo)自動識別需要重點研究的若干基礎(chǔ)性問題和未來發(fā)展趨勢.
本節(jié)對基于被動聲吶信號的水中目標(biāo)識別基本流程、被動聲吶信號分析的數(shù)理基礎(chǔ)以及被動聲吶信號的特征提取進行介紹,這些是理解和分析當(dāng)前基于被動聲吶信號進行水中目標(biāo)識別的背景知識.
聲吶(sonar)是利用聲波在水中的傳播和反射特性、通過電聲轉(zhuǎn)換和信號處理進行水中目標(biāo)探測(類型、位置、運動方向等)和通訊的技術(shù),有主動式和被動式兩種類型,圖2 展示了它們的基本工作原理.其中,被動聲吶是一種利用水聽器(hydrophone)接收水下目標(biāo)發(fā)出的聲波信號,從而實現(xiàn)水中目標(biāo)探測與定位的技術(shù).其基本原理是: 當(dāng)水中目標(biāo)如潛艇、船舶、魚類等運動時,它們會在周圍水域中產(chǎn)生聲波信號,這些信號會在水中傳播并被水聽器接收到.主動聲吶則是通過發(fā)射器主動發(fā)出聲波脈沖并由接收器接收回波,從而進行水中目標(biāo)的探測與定位.

圖2 基于聲吶信號的水聲目標(biāo)識別基本原理Fig.2 Fundamental principles of UATR based on sonar signals
一般而言,對于接收到的聲吶信號,通過信號處理和相關(guān)算法可以識別水中目標(biāo)的類型、位置和速度等信息,從而實現(xiàn)基于聲吶音頻信號進行水中目標(biāo)識別的任務(wù).相比于主動聲吶,被動聲吶具有以下優(yōu)勢:
1)隱蔽性高.被動聲吶只接收水下目標(biāo)發(fā)出的聲波信號,不會主動發(fā)射任何聲波,因此不易暴露自己的位置.而主動聲吶需要發(fā)射聲波信號,可能被其他目標(biāo)偵測到,從而暴露自身位置.
2)靈活性強.被動聲吶可以部署在船體上、水下電纜或浮標(biāo)等位置,安裝和使用較為方便.而主動聲吶需要在水下目標(biāo)附近進行發(fā)射,需要有特定的發(fā)射設(shè)備和位置.
3)可利用自然聲源.被動聲吶可以利用自然聲源(如海豚、鯨魚等)或其他水下目標(biāo)發(fā)出的聲波信號進行偵測和定位,由于其通常以靜態(tài)的方式部署在不同的海洋環(huán)境中,相對而言具有可探測范圍廣和受距離限制少的特點.而主動聲吶需要自身發(fā)射聲波信號,因此其偵測距離相對而言會受到更多限制.
因此,當(dāng)前主流水中目標(biāo)識別研究所采用的數(shù)據(jù)集為被動聲吶所采集的音頻信號.此類研究的基本原理是對被動聲吶接收到的音頻信號進行信號處理和特征提取,得到與目標(biāo)本質(zhì)特性相關(guān)的可判別性特征,并據(jù)此進行目標(biāo)識別.如圖3 所示,該過程包括學(xué)習(xí)階段和測試階段.其中學(xué)習(xí)階段包括水中目標(biāo)被動聲吶信號的采集與預(yù)處理、特征選擇與提取、樣本選擇以及分類器設(shè)計;測試階段包括信號采集與預(yù)處理、特征提取、分類決策以及輸出識別結(jié)果.信號采集是通過部署在船體上、水下電纜或浮標(biāo)等位置的被動聲吶來實現(xiàn)的.信號預(yù)處理主要包括對信號進行放大、濾波等操作,以去除背景噪聲、提高數(shù)據(jù)的信噪比.特征提取是從預(yù)處理的信號中提取出水中目標(biāo)的特定識別特征,常用的特征包括時域特征(如振幅、相位、過零率等)、頻域特征(如頻率譜、頻率熵等)和時頻特征,如梅爾倒譜系數(shù)(Mel-scale frequency cepstral coefficients,MFCC)、伽馬通濾波器倒譜系數(shù)(Gammatone filter cepstral coefficient,GFCC)、LOFAR (Low frequency analysis recording)譜和DEMON (Detection of envelope modulation on noise)譜等.特征選擇則是根據(jù)特征的判別性和相關(guān)性,選取最優(yōu)的特征進行目標(biāo)識別,常用方法有主成分分析(Principal component analysis,PCA)和線性判別分析(Linear discriminant analysis,LDA)等.樣本選擇則是從原始被動聲吶信號中選擇最具代表性和差異性的樣本,同時保證不同類別的樣本數(shù)量大致相當(dāng).最后分類器設(shè)計與訓(xùn)練是指選用合適的分類算法對目標(biāo)進行識別,常用的分類算法包括支持向量機、決策樹和神經(jīng)網(wǎng)絡(luò)等.

圖3 水聲目標(biāo)識別的基本流程Fig.3 Basic procedure of UATR
水中聲波信號由物體的運動產(chǎn)生,如潛艇、船舶、魚類等運動時會在周圍水域中產(chǎn)生聲波信號,這些聲波信號是基于被動聲吶信號進行水中目標(biāo)識別的基礎(chǔ).聲波信號可以理解為時域上的一維信號,其在形式上可以被刻畫為時域上的波形圖,如圖4(a)所示.波形圖直觀地表達了聲音信號的基本時域特征,如聲波信號輻射強度(振幅)、過零率[11]等.然而時域特征存在蘊含的聲波信息有限、難以描述信號的周期性和諧波成分等問題.因此,在時域分析的基礎(chǔ)上,研究人員開始嘗試分析信號的頻率特性及其變化情況,即對信號進行頻域分析和時頻分析.特別地,這些研究的數(shù)學(xué)基礎(chǔ)為傅立葉變換(Fourier transform,FT).傅立葉變換假設(shè)任何連續(xù)信號都可以由不同頻率的正弦函數(shù)和余弦函數(shù)疊加得到,這些正弦函數(shù)和余弦函數(shù)統(tǒng)稱為信號的分量.通過對信號進行傅立葉變換,可以將其從時域表示轉(zhuǎn)換為頻域表示,以便更好地理解和處理信號的頻率特性[12].例如對信號進行傅立葉變換和自相關(guān)函數(shù)運算,可以得到信號的功率譜,用以反映信號在某一特定頻率值上的強度.

圖4 被動聲吶信號的特征圖示例Fig.4 The illustrative feature examples of passive sonar signals
在實際應(yīng)用中,為滿足傅立葉變換對信號平穩(wěn)性的要求,被動聲吶信號通常會進行分幀與加窗的預(yù)處理操作,以保證窗口內(nèi)的信號具有短時平穩(wěn)性.對原始信號進行分幀、加窗,然后逐個窗口進行傅立葉變換的過程稱為短時傅立葉變換(Short-time Fourier transform,STFT).短時傅立葉變換是頻域特征和時頻特征提取的基礎(chǔ),例如對信號做短時傅立葉變換,并做進一步的取模等運算,可以得到被動聲吶信號的梅爾(Mel)頻譜和MFCC,圖4(b)展示了其Mel 頻譜和MFCC.譜圖通常以時間為橫坐標(biāo)、頻率為縱坐標(biāo)、振幅值為Z坐標(biāo)繪制,同時反映信號的多維信息.此外,諧波分析也是被動聲吶信號的一個重要分析方法[13-15],其中諧波信息可以通過提取信號的倒譜表示來獲得,倒譜則是通過對信號的STFT 譜取對數(shù)、做逆傅立葉變換得到的,用于獲得頻譜中的周期結(jié)構(gòu)[16].
由于人耳聽覺系統(tǒng)具有出色的信號辨識能力,因此人們設(shè)計一組模擬人耳聽覺系統(tǒng)的被動聲吶信號分析方法,即梅爾尺度與梅爾頻譜.梅爾尺度是一種對數(shù)尺度[17],用于表示聲音頻率的非線性度量,它是基于人耳聽覺系統(tǒng)對聲音頻率的感知方式提出的.事實上,人耳聽覺系統(tǒng)對頻率的感知大致遵循對數(shù)分布,表現(xiàn)為對低頻的變化敏感,對高頻的變化遲鈍[18],因此基于對數(shù)運算的梅爾尺度能夠模擬人耳的聽覺特性.梅爾頻率與原始頻率之間的轉(zhuǎn)換關(guān)系如式(1)所示,其中m表示梅爾頻率,f表示原始頻率.梅爾頻譜是基于梅爾尺度對聲音信號進行頻譜分析的結(jié)果,具體而言,它可以通過計算快速傅立葉變換并將其結(jié)果與一個三角濾波器組卷積得到.然而,梅爾濾波器具有固定的帶寬,無法精細地模擬人耳聽覺特性.相比之下,Gammatone 濾波器基于人耳耳蝸對不同頻率音頻信號的敏感度作出響應(yīng),具有高通性和帶寬變化,能更好地模擬人耳基底膜的濾波特性.
小波變換(Wavelet transform,WT)是一種在時域和頻域上都有良好性能的信號分析方法,也被廣泛應(yīng)用于被動聲吶信號的處理.小波變換通過對信號進行一系列小波基函數(shù)的線性組合來表示信號,小波基函數(shù)是一組具有一定局部性質(zhì)和頻率性質(zhì)的基函數(shù),可以將信號分解為具有不同頻率和時間分辨率的小波子帶,從而實現(xiàn)時頻分析.由于小波基函數(shù)是以有限長度的信號為基礎(chǔ)的[19],因此小波變換不受傅立葉變換的局限,可以很好地處理非平穩(wěn)信號.此外,小波變換還可以提供更好的時頻分析精度,從而實現(xiàn)對信號的多分辨率表示.但需要注意的是,小波變換也存在如計算量較大以及容易產(chǎn)生邊緣效應(yīng)等問題.
另一種常用的被動聲吶信號分析與處理工具為Gabor 濾波器,它的基本原理是將一個帶有高斯包絡(luò)的正弦波作為濾波器的模板.該模板可以在時域和頻域上進行調(diào)整,以適應(yīng)不同的信號分析需求.具體而言,Gabor 濾波器可以通過調(diào)整其中心頻率和帶寬來選擇不同的頻率范圍、調(diào)整其中心位置和時間分辨率來選擇不同的時間范圍.這種靈活性使得Gabor 濾波器非常適合用于分析具有時變特性的水下聲音信號.近年來基于Gabor 濾波器進行聲學(xué)分析的研究日益豐富,例如環(huán)境音的識別[20]、音樂流派識別[21]和語音分析[22-23]等.
上述方法構(gòu)成了被動聲吶信號分析與處理的數(shù)理基礎(chǔ),根據(jù)被動聲吶信號的特點和具體應(yīng)用場景,合理選擇不同的處理方法對于被動聲吶信號識別的性能而言至關(guān)重要.下面進一步討論基于這些數(shù)理基礎(chǔ)所發(fā)展出來的一系列被動聲吶信號特征提取方法.
被動聲吶信號的特征提取是指借助相關(guān)的數(shù)理分析方法,從水中目標(biāo)發(fā)出的聲波信號中提取出有用的特征信息,以實現(xiàn)目標(biāo)類型識別任務(wù).特征提取旨在通過提取出有效的特征信息幫助我們了解目標(biāo)的物理屬性和運動狀態(tài),以便更好地進行目標(biāo)的分析和判別.本文依據(jù)被動聲吶信號特征提取的主要發(fā)展脈絡(luò)對其進行分類,并依次展開介紹每一種方法.
1.3.1 基于水中目標(biāo)固有物理機理的被動聲吶信號特征提取
基于水中目標(biāo)固有物理機理的音頻特征提取,是一種根據(jù)水中目標(biāo)所發(fā)出的聲波和產(chǎn)生的水動力學(xué)效應(yīng)的物理特性來提取目標(biāo)特征的方法.具體來說,水中目標(biāo)在運動時會產(chǎn)生一些特有的水動力學(xué)效應(yīng),如水流的渦旋結(jié)構(gòu)、氣泡的形成、漩渦等.這些效應(yīng)會改變水中聲波的傳播特性,進而影響聲波信號在水中的傳播和接收.因此,通過對這些聲波信號和水動力學(xué)效應(yīng)的分析,可以提取出與目標(biāo)本質(zhì)特性相關(guān)的特征,如振幅值、目標(biāo)聲吶參數(shù)、接收信號的線譜結(jié)構(gòu)以及各類目標(biāo)的機動特點等,從而實現(xiàn)對水中目標(biāo)的高精度識別.
文獻[24-26]直接從水中目標(biāo)輻射噪聲的波形圖中提取過零率、振幅包絡(luò)線等特征用以進行目標(biāo)的識別.Rajagopal 等[27]根據(jù)對船舶噪聲的充分了解,提出檢測線譜的方法,首先選取極具物理意義和現(xiàn)實意義的特征量進行目標(biāo)識別,包括螺旋槳葉片數(shù)、螺旋槳轉(zhuǎn)速、推進器類型、目標(biāo)殼體輻射低頻噪聲、活塞松動產(chǎn)生的諧音基頻、注水器噪聲、最大速度、槽極噪聲和傳動裝置類型等9 個特征.這些物理特征可以清楚地表現(xiàn)出船舶框架結(jié)構(gòu),從而實現(xiàn)4 類目標(biāo)的識別.Lourens[28]則是將研究重點放在螺旋槳轉(zhuǎn)速上,同時描述齒輪機箱的噪聲性質(zhì),在此基礎(chǔ)上提出倒頻譜特征作為檢測噪音的手段.Liu 等[29]則提出一種基于薄殼振動及模態(tài)分解理論的殼體振動模型進行水下目標(biāo)輻射噪聲的本征模態(tài)特征提取方法.
1.3.2 基于時域、頻域和時頻分析的被動聲吶信號特征提取
由于海洋環(huán)境的日益復(fù)雜和各種聲隱技術(shù)的使用,極大影響了水中目標(biāo)所產(chǎn)生的輻射噪聲的物理機理,因此依靠基于目標(biāo)固有物理機理所提取的特征來識別水中目標(biāo)的正確率已經(jīng)不能滿足現(xiàn)實需要.隨著信號處理技術(shù)的發(fā)展,研究者們逐漸將目光投向能同時表達更多信息的時域特征提取、頻域特征提取和時頻特征提取.
時域特征提取是從時域聲吶音頻信號中提取特征的基礎(chǔ)步驟,它包括對原始聲吶音頻信號進行預(yù)處理和特征提取兩個階段.常用的時域信號預(yù)處理技術(shù)包括滑動窗口、加窗和濾波等方法,旨在提高信號質(zhì)量和增強目標(biāo)信息.常用的時域特征主要有振幅、能量、時長、過零率等.這些特征從不同角度描述聲音的時長、強度、節(jié)奏等方面的信息,從而反映聲吶音頻信號的時域波形和時序特征.通過提取這些特征,可以獲得關(guān)鍵的時域信息,為后續(xù)的目標(biāo)識別提供有力支持.時域特征提取以其簡單直觀、計算效率高和對目標(biāo)的時序特征敏感等優(yōu)勢而被廣泛使用.然而,它也存在一些限制,包括對噪聲和干擾的敏感以及難以提取復(fù)雜目標(biāo)的細節(jié)特征等.
頻域特征提取是將時域聲吶音頻信號轉(zhuǎn)換為頻域表示的過程,通常通過FT 或濾波器設(shè)計來實現(xiàn).通過FT,可以獲得聲吶信號在頻域上的能量分布和頻譜特性,從而更好地描述聲吶信號的頻率成分和頻率響應(yīng).常用的頻域特征包括頻譜形狀、頻帶能量分布、頻率峰值等,這些特征可以用于描述聲音的頻率成分和譜線密度等信息.另外,濾波器設(shè)計也是頻域聲吶音頻信號特征提取中的重要內(nèi)容.通過設(shè)計不同類型的濾波器,可以在頻域上選擇感興趣的頻帶,并去除干擾信號.常見的濾波器設(shè)計方法包括低通濾波器、高通濾波器(如Gammatone 濾波器)和帶通濾波器(如梅爾濾波器)等,它們能夠幫助提取感興趣頻率范圍內(nèi)的目標(biāo)信號,并減弱或排除其他頻率的干擾.頻域特征提取從頻域的角度對被動聲吶音頻信號進行特征提取,相較于時域特征提取,具有以下優(yōu)勢: 首先,頻域特征提取能夠提供聲吶信號在不同頻率下的能量分布和頻譜特性,從而更全面地描述聲吶信號的頻率信息;其次,頻域特征具有較好的抗噪聲能力,能夠減少噪聲對目標(biāo)識別的影響;再次,頻域特征提取還能幫助識別目標(biāo)的頻率特征,在不同類型的水中目標(biāo)識別中具有重要意義.
時頻聲吶音頻信號特征提取是一種綜合利用時域和頻域信息的方法,能夠提供更全面、準(zhǔn)確的聲吶信號描述.時頻特征提取的原理是基于聲吶信號在時域和頻域上的特征進行聯(lián)合分析,通過將這兩個領(lǐng)域的特征進行組合,能夠更全面地描述聲吶信號的時序和頻率特性.常用的時頻分析方法有STFT、LOFAR 譜分析、DEMON 譜分析、高階譜分析、小波變換、Hilbert-Huang 變換 (Hilbert-Huang transform,HHT)、倒譜分析以及Gabor 濾波等.Das 等[30]采用STFT 對被動聲吶信號進行處理,提取其光譜特征和倒譜系數(shù).文獻[31-33]則基于小波變換進行艦船輻射噪聲的時頻特征提取,實驗表明小波變換使信號的譜類別特征和波形結(jié)構(gòu)特征有了明顯的增強,更具判別性.Wei 等[34]結(jié)合小波特征和PCA 以實現(xiàn)對特征降維的目的.Xu 等[35]設(shè)計一種基于不確定性估計的可信多表征學(xué)習(xí)方法,用以提升時頻特征的判別性.相比于時域和頻域特征提取,時頻特征提取具有以下優(yōu)勢: 首先,時頻特征提取能夠捕捉到聲吶信號在不同時間和頻率上的變化情況,提供了更加豐富的信息;其次,時頻特征具有較好的抗噪聲能力,能夠減少噪聲對目標(biāo)識別的影響;再次,時頻特征還能夠提取目標(biāo)的時序和頻率特征,對于不同類型的水中目標(biāo)識別具有重要意義.
1.3.3 基于聲音生成感知模型的被動聲吶信號特征提取
基于聲音生成感知模型的水中音頻特征提取是一種利用人耳聽覺感知機制的特征提取方法[36],它的基本原理是人類聽覺系統(tǒng)能夠感知不同頻率范圍內(nèi)的聲音,并對其進行不同的處理.具體來說,人耳會將聲音分解成多個頻帶,每個頻帶內(nèi)的聲音信號會被獨立地處理.因此,基于聲音生成感知模型的特征提取方法也采用了這種分頻帶的思想.在具體實現(xiàn)上該方法使用一組帶通濾波器將聲音信號分解成多個頻帶,然后對每個頻帶內(nèi)的信號進行能量特征的提取,以捕捉聲音的關(guān)鍵信息.該方法從聽覺的生理機制、耳蝸的頻率分解特性、掩蔽效應(yīng)、臨界帶寬等聽覺特性出發(fā),構(gòu)建基于響度、音調(diào)和音色的相應(yīng)特征,以期獲得接近人耳聽覺系統(tǒng)對聲音的良好辨識能力.梅爾尺度和梅爾頻譜正是基于這一思路進行設(shè)計的.此外,由于能量特征計算速度很快,因此該方式適用于實時處理.基于上述特性,該方法一直是音頻表征提取的研究熱點.
早期,Békésy[37]通過頻閃觀測儀發(fā)現(xiàn)了耳蝸基底膜上的行波及基底膜的頻率分解作用,據(jù)此建立了最早的耳蝸一維傳輸模型.Johnstone 等[38]采用Mossbauer 技術(shù)對耳蝸中的基底膜振動進行測量研究,得到比文獻[37]相對更為精確的實驗結(jié)果.Zwislocki[39]則建立一維傳輸線模型來解釋文獻[37]的實驗結(jié)果.費鴻博等[40]則基于梅爾頻譜提出一種可分離方法,進行更精細的聲音特征提取.隨著神經(jīng)學(xué)對人耳聽覺系統(tǒng)認識的不斷深入,文獻[41-42]進一步設(shè)計更加精細的方法用于模擬人耳聽覺系統(tǒng)的功能,具體來說,借助一組基于卷積的濾波器模擬人的聽覺皮層、聽覺中樞等區(qū)域的功能,將原始時域音頻信號分解為一系列不同頻率的音頻分量信號,同時卷積核的大小可變,用以模擬聽覺系統(tǒng)受到聲音刺激后對不同波長分量的感興趣程度.
1.3.4 基于有監(jiān)督深度學(xué)習(xí)的被動聲吶信號特征提取
傳統(tǒng)音頻特征提取方法往往需要專業(yè)的領(lǐng)域知識和專家經(jīng)驗來設(shè)計合適的手工特征提取器,然而由于海洋環(huán)境的復(fù)雜多變,從中獲取足夠的水中目標(biāo)先驗知識是非常困難的.近年來,在水中目標(biāo)被動聲吶信號特征提取領(lǐng)域,深度學(xué)習(xí)方法作為一種直接從原始數(shù)據(jù)構(gòu)建分層表征的方法得到了廣泛的研究,主要包括基于有監(jiān)督學(xué)習(xí)的水中音頻特征提取和基于自監(jiān)督學(xué)習(xí)的水中音頻特征提取.
基于有監(jiān)督深度學(xué)習(xí)的被動聲吶信號特征提取是指通過使用帶標(biāo)簽的音頻數(shù)據(jù)集來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),利用音頻的標(biāo)簽信息驅(qū)動模型學(xué)習(xí)最優(yōu)的音頻特征,圖5(a)展示了該方法的一般范式.由于卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)具有空間局部性和平移不變性等優(yōu)點,文獻[43-45]利用CNN 從聲音的原始音頻或其頻譜中進一步學(xué)習(xí)更高層次的特征以增強特征的判別性.文獻[46]在CNN 中引入注意力機制,以更好地捕獲頻譜中更大范圍的上下文信息.然而,并沒有直接證據(jù)表明注意力機制對聲音特征的判別性增強必須依賴于CNN.基于這一認知,Gong 等[47]在計算機視覺領(lǐng)域的視覺轉(zhuǎn)換器(Vision transformer,ViT)的啟發(fā)下,首次提出完全基于注意力機制的聲音頻譜轉(zhuǎn)換器(Audio spectrogram transformer,AST).Yang 等[48]則從水中目標(biāo)的多維屬性角度進行考慮,設(shè)計一種基于多屬性相關(guān)度感知的深度學(xué)習(xí)方法用以捕捉水中音頻信號的特征.相比于傳統(tǒng)的特征提取方法,基于有監(jiān)督的深度學(xué)習(xí)方法可以更好地捕捉水中音頻信號的復(fù)雜特征,從而提高識別性能.然而該方法需要大量的標(biāo)注數(shù)據(jù)集來進行訓(xùn)練,并且在實際應(yīng)用中需要考慮方法的實時性和魯棒性等問題.

圖5 基于深度學(xué)習(xí)的水中音頻信號特征提取范式Fig.5 Deep learning-based paradigm for underwater acoustic signals feature extraction
1.3.5 基于自監(jiān)督學(xué)習(xí)的被動聲吶信號特征提取
基于自監(jiān)督學(xué)習(xí)的被動聲吶信號特征提取是一種使用無標(biāo)簽數(shù)據(jù)進行訓(xùn)練的深度學(xué)習(xí)方法,旨在從音頻信號中學(xué)習(xí)判別性特征.相比基于有監(jiān)督深度學(xué)習(xí)的音頻特征提取方法,該方法不需要標(biāo)注數(shù)據(jù),從而數(shù)據(jù)的獲取和準(zhǔn)備更加便捷.此外,由于該方法從數(shù)據(jù)自身出發(fā)構(gòu)建監(jiān)督信號用以指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí),能夠更好地利用數(shù)據(jù)的上下文信息實現(xiàn)更具判別性的音頻特征提取.同時,基于自監(jiān)督學(xué)習(xí)的方法還具有更好的泛化能力,可以應(yīng)用于不同水下環(huán)境的目標(biāo)識別任務(wù).
該方法的基本思想是利用自編碼器(autoencoder)的網(wǎng)絡(luò)結(jié)構(gòu)從數(shù)據(jù)自身的內(nèi)在聯(lián)系出發(fā)以自適應(yīng)提取最優(yōu)的音頻特征,訓(xùn)練過程中模型的輸入和輸出都是相同的音頻信號,但在網(wǎng)絡(luò)的中間層提取出的特征可以用于后續(xù)的目標(biāo)識別等任務(wù),圖5(b)展示了該方法的基本流程.如Gong 等[49]設(shè)計一種聯(lián)合判別與掩碼重構(gòu)的策略,從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)音頻的抽象特征.具體來說,該方法首先將聲音的Log-Mel 譜圖切分成相同大小的圖像塊(patch),然后隨機掩碼部分patches,并將未被掩碼的patches輸入基于自編碼器架構(gòu)的ViT 模型中學(xué)習(xí)、重構(gòu)被掩碼的patches,最后利用重構(gòu)的patches 與原始patches 進行損失函數(shù)計算,以指導(dǎo)模型學(xué)習(xí)更優(yōu)異的特征表示.受計算機視覺領(lǐng)域MAE[50]的啟發(fā),Baade 等[51]在Gong 等[49]工作的基礎(chǔ)上設(shè)計一種高比率掩碼的策略,在實現(xiàn)自監(jiān)督音頻特征提取的同時,大大加速了模型的訓(xùn)練.Ghosh 等[52]則提出一種基于對比學(xué)習(xí)的多尺度聲音頻譜轉(zhuǎn)換器,該方法設(shè)計了教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)兩個子網(wǎng)絡(luò),通過計算教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)輸出之間的對比損失來指導(dǎo)模型學(xué)習(xí)更好的音頻表征.每個子網(wǎng)絡(luò)在實現(xiàn)上逐層以2 倍的比例擴大patches 的大小,從而更好地學(xué)習(xí)信號的全局結(jié)構(gòu)與局部特性.
基于傳統(tǒng)機器學(xué)習(xí)的水中目標(biāo)識別主要分為3個模塊: 音頻信號預(yù)處理、特征提取、目標(biāo)識別.其中,信號預(yù)處理是基礎(chǔ),特征提取是關(guān)鍵,目標(biāo)識別是最終目的.音頻信號預(yù)處理目的是為了消除噪聲、提高音頻信號的質(zhì)量和可分析性,主要方法有降噪、濾波、壓縮、分解等.特征提取是整個水中目標(biāo)自動識別系統(tǒng)中最為核心的部分,如何提取出具有足夠判別性的音頻特征對提高系統(tǒng)識別性能具有關(guān)鍵作用,當(dāng)前主流的特征提取方法見第 1.3 節(jié).影響水中目標(biāo)識別性能的另一個關(guān)鍵問題在于如何選擇合適的分類器.目前,基于傳統(tǒng)機器學(xué)習(xí)的水中目標(biāo)識別研究中,主要的特征識別算法有K 近鄰算法(K-nearest neighbor,KNN)、支持向量機(Support vector machine,SVM)、決策樹(Decision tree,DT)、隨機森林(Random forest,RF)和基于隱馬爾科夫模型(Hidden Markov model,HMM)的方法等.在本節(jié)中,將重點討論用于特征識別的機器學(xué)習(xí)算法及其內(nèi)在聯(lián)系與發(fā)展趨勢.
KNN 是一種基于實例的學(xué)習(xí)算法,在水中目標(biāo)識別中常用于對被動聲吶接收器接收到的聲波信號進行分類,以實現(xiàn)水中目標(biāo)的識別.該算法的工作原理是根據(jù)給定的訓(xùn)練集,在訓(xùn)練集中尋找與新輸入實例最鄰近的K 個實例,然后將新實例劃分給這K 個實例中最具有代表性的類別.在KNN 算法中,K 是一個可學(xué)習(xí)的參數(shù),選擇合適的K 值對算法性能至關(guān)重要.KNN 算法的思路簡單且易于實現(xiàn),但其收斂速度相對較慢.
SVM 是一種基于核函數(shù)的有監(jiān)督學(xué)習(xí)模型,在水中目標(biāo)識別中,SVM 可以用于將水中目標(biāo)的聲學(xué)特征與預(yù)定義的類別進行識別.該算法依據(jù)Vapnik-Chervonenkis (VC) 理論和結(jié)構(gòu)風(fēng)險最小化原理,旨在構(gòu)建一個最優(yōu)超平面以實現(xiàn)將數(shù)據(jù)集分割成兩個部分,使得分割超平面兩側(cè)的樣本盡可能的遠.其本質(zhì)上是從有限的樣本數(shù)據(jù)中搜索一種最優(yōu)的折中方案,以實現(xiàn)獲取最佳泛化性的目的.此外,通過使用核函數(shù),SVM 不僅可以將在低維空間線性不可分的數(shù)據(jù)映射到更高維的空間,轉(zhuǎn)化為線性可分的,還能在一定程度上緩解高維數(shù)據(jù)帶來的維數(shù)災(zāi)難問題.
DT 是一種基于樹結(jié)構(gòu)的算法,采用非常直觀的方式對事物進行分類或標(biāo)注.在水中目標(biāo)識別中,決策樹可以用于根據(jù)提取的特征來對目標(biāo)類型進行識別.該算法基于訓(xùn)練數(shù)據(jù)的特征進行樹結(jié)構(gòu)的構(gòu)建,其中每個節(jié)點表示一個特征,每個分支表示一個可能值,最終的葉節(jié)點表示一個類別.該算法直觀清晰,但隨著深度的增加,容易陷入過擬合.隨機森林是一種基于決策樹的集成學(xué)習(xí)算法,它從訓(xùn)練數(shù)據(jù)集中隨機抽取一部分數(shù)據(jù)進行決策樹的構(gòu)建,然后重復(fù)這個過程,構(gòu)建多棵決策樹,最后根據(jù)所有決策樹的結(jié)果進行投票以決定最終的識別結(jié)果,這在一定程度上緩解了過擬合的風(fēng)險.
HMM 是一種基于概率的時序統(tǒng)計模型,它用來描述一個含有隱含參數(shù)的馬爾科夫過程,從可觀察的參數(shù)中確定該過程的隱含參數(shù),從而預(yù)測一個序列的概率.在水中目標(biāo)識別中,可以將不同目標(biāo)的聲學(xué)特征作為觀察數(shù)據(jù)序列輸入到HMM 中進行建模.具體來說,可以將不同水中目標(biāo)的聲學(xué)特征提取為一個向量序列,然后將這個向量序列作為觀察數(shù)據(jù)序列輸入到模型中,模型輸出一個對應(yīng)于每個目標(biāo)的概率分布,表示該目標(biāo)所生成的聲學(xué)特征序列的概率.在實際應(yīng)用中,可以使用基于貝葉斯準(zhǔn)則的后驗概率最大化來進行目標(biāo)識別.
KNN、SVM、決策樹和隨機森林都是有監(jiān)督學(xué)習(xí)算法,它們都是基于訓(xùn)練數(shù)據(jù)集進行模型訓(xùn)練,然后用于預(yù)測新的輸入實例的類別或值.而隱馬爾科夫模型是一種時序模型,它用于模擬一個隱藏的馬爾科夫鏈,從而預(yù)測一個序列的概率.總體來說,這些算法具有基本一致的工作機制[53],都是基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)出一種分類邊界.表1 列出了部分基于傳統(tǒng)機器學(xué)習(xí)算法進行水聲目標(biāo)識別的研究.

表1 典型傳統(tǒng)機器學(xué)習(xí)的水聲目標(biāo)識別算法Table 1 Typical traditional machine learning algorithms for UATR
然而,需要注意的是基于傳統(tǒng)機器學(xué)習(xí)的水中目標(biāo)識別模型本質(zhì)上是一種淺層結(jié)構(gòu),模型的信息容量和學(xué)習(xí)能力有限.隨著海洋環(huán)境的日益復(fù)雜和各種技術(shù)的干擾,基于此類方法的識別分類精度難以滿足使用需求,因此目前主流的研究方向為基于深度學(xué)習(xí)算法的水中目標(biāo)識別.
近年來深度學(xué)習(xí)算法在許多領(lǐng)域表現(xiàn)出強大的自動特征提取和優(yōu)化能力,為基于被動聲吶信號的水中目標(biāo)識別研究開辟了一個新的發(fā)展方向,并逐漸成為該領(lǐng)域的研究熱點.相比于傳統(tǒng)機器學(xué)習(xí)算法,基于深度學(xué)習(xí)算法的水中目標(biāo)識別具有以下優(yōu)勢:
1)深度學(xué)習(xí)算法可以從原始數(shù)據(jù)中自動學(xué)習(xí)音頻特征,避免人工選擇特征的主觀性;
2)深度學(xué)習(xí)算法具有強大的信息表達能力,可以處理高維數(shù)據(jù)和非線性關(guān)系,對于復(fù)雜的海洋環(huán)境和水中目標(biāo)被動聲吶信號具有更好的適應(yīng)性;
3)深度學(xué)習(xí)算法可以處理大規(guī)模數(shù)據(jù),能夠有效利用數(shù)據(jù)資源,從而提高識別的準(zhǔn)確率和效率.
因此,目前利用被動聲吶信號的水中目標(biāo)識別研究主流方案大多都是基于深度學(xué)習(xí)算法展開的,并取得了良好的研究成果.從最初基于卷積神經(jīng)網(wǎng)絡(luò)的水中目標(biāo)識別方法,到后來更有利于捕獲全局依賴的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、時延神經(jīng)網(wǎng)絡(luò)(Time delay neural networks,TDNN)、基于預(yù)訓(xùn)練模型的遷移學(xué)習(xí)(Transfer learning,TL)等方法,再到近年來很有前景的基于Transformer 的方法以及自監(jiān)督學(xué)習(xí)(Selfsupervised learning,SSL)方法,圖6 列出了部分有代表性的基于深度學(xué)習(xí)的水聲目標(biāo)識別算法的發(fā)展歷程.按照學(xué)習(xí)范式的不同,可以將基于深度學(xué)習(xí)的水聲目標(biāo)識別方法分為有監(jiān)督范式(圖中軸線上方)和無監(jiān)督范式(圖中軸線下方);根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,將深度學(xué)習(xí)方法劃分為基于卷積神經(jīng)網(wǎng)絡(luò)的方法(圖中軸線上方黑色不加粗)、基于時延神經(jīng)網(wǎng)絡(luò)的方法(圖中軸線上方藍色不加粗)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法(圖中軸線上方橙色不加粗)、基于Transformer 的方法(圖中軸線上方橙色加粗)、基于遷移學(xué)習(xí)的方法(圖中軸線上方黑色加粗)、基于無監(jiān)督學(xué)習(xí)的方法(圖中軸線下方黑色不加粗)和基于自監(jiān)督學(xué)習(xí)的方法(圖中軸線下方藍色加粗).

圖6 基于深度學(xué)習(xí)的水聲目標(biāo)識別主流算法模型發(fā)展時間軸線Fig.6 Timeline: Evolution of mainstream deep learning algorithms for UATR
CNN 是一類高度非線性的深度學(xué)習(xí)模型,逐層擴大感受野、權(quán)值共享等特性使其能多尺度、細粒度地提取數(shù)據(jù)的特征,在圖像識別[65]等領(lǐng)域取得了非常先進的成果.它通過將層次化的特征提取和目標(biāo)識別結(jié)合在一起,從而同時具備自動特征提取器和分類器的功能.由于CNN 在計算機視覺與自然語言處理應(yīng)用中表現(xiàn)出巨大的性能,激發(fā)了該方法在水中目標(biāo)識別領(lǐng)域的應(yīng)用.基于卷積神經(jīng)網(wǎng)絡(luò)的水中目標(biāo)識別方法主要采用卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),以最大化識別準(zhǔn)確率為目標(biāo),旨在通過網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計與訓(xùn)練從水中目標(biāo)的被動聲吶信號中提取更優(yōu)異的音頻特征,從而實現(xiàn)對目標(biāo)類型的識別.圖7 展示了該方法的基本架構(gòu),其中網(wǎng)絡(luò)的核心由一系列卷積層和池化層構(gòu)成,分類器由多個全連接層構(gòu)成.基于CNN 的水中目標(biāo)識別研究主要可以劃分為優(yōu)化網(wǎng)絡(luò)的輸入[41-44,66-69]、設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)[70-73]以及在網(wǎng)絡(luò)中加入新的機制以學(xué)習(xí)更優(yōu)異的高層次目標(biāo)特征[46]這三種.但需要注意的是該方法存在對標(biāo)簽數(shù)據(jù)的需求較大、提取的特征相對抽象、結(jié)果的可解釋性較差的局限.

圖7 基于CNN 的水聲目標(biāo)識別方法基本架構(gòu)Fig.7 Basic framework of CNN-based methods for UATR
文獻[66-69]將水中目標(biāo)的被動聲吶信號轉(zhuǎn)換為頻譜特征,然后輸入到CNN 中學(xué)習(xí)更抽象的音頻特征并據(jù)此識別不同目標(biāo),其中用到的頻譜特征有幅度譜、MFCC 譜、LOFAR 譜等,用到的CNN網(wǎng)絡(luò)結(jié)構(gòu)有自建網(wǎng)絡(luò)、ResNet、VGG 等.注意到上述方法使用的池化策略均為平均池化,這在一定程度上減弱了不同信號分量的差異.Cao 等[70]基于二階池化策略設(shè)計一種端到端的CNN 網(wǎng)絡(luò),利用常數(shù)Q 變換(Constant-Q transform,CQT)從水中目標(biāo)輻射噪聲中提取時間相關(guān)性,并據(jù)此進行目標(biāo)識別.由于二階池化策略可以捕捉一個頻點上所有CNN 濾波器的時間相關(guān)性并保留它們的差異性,從而實現(xiàn)模型性能的提升.Hu 等[71]使用極限學(xué)習(xí)機(Extreme learning machines,ELM) 替換CNN 的全連接層,在民用客船數(shù)據(jù)集上識別精度可達93.04%.Wang 等[74]提出一種基于注意力機制的多分支CNN,其中注意力機制用以捕捉音頻特征圖中重要的信息,多路分支用以加速網(wǎng)絡(luò)的訓(xùn)練過程,該方法在ShipsEar 數(shù)據(jù)集上實現(xiàn)了2.4%的性能提升.
理論上,可以通過增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元的個數(shù)來提升深度學(xué)習(xí)算法的性能,但實際應(yīng)用中會出現(xiàn)兩個問題: 一是參數(shù)過多,會導(dǎo)致計算復(fù)雜度增加,并且當(dāng)數(shù)據(jù)集有限時,容易出現(xiàn)過擬合問題;二是隨著網(wǎng)絡(luò)深度的增加,反向傳播算法在更新參數(shù)時,可能出現(xiàn)“梯度消失”問題.針對上述問題,Zheng 等[72]使用GoogleNet (一種基于稀疏結(jié)構(gòu)設(shè)計的網(wǎng)絡(luò))作為主網(wǎng)絡(luò)從水中目標(biāo)聲波的時頻譜中提取更抽象的特征,旨在增大背景噪聲與目標(biāo)信號的辨識度.結(jié)果表明,在信噪比為-10 dB 時,所提方法的識別能力較高.然而該方法只使用了一種音頻特征作為輸入,而未對比在其他音頻特征上的性能.Irfan 等[73]提出一種基于可分離卷積自編碼器(Separable convolution autoencoder,SCAE)的網(wǎng)絡(luò),并使用6 種不同的音頻特征(包括Cepstrum 譜、Mel 譜、MFCC 譜、CQT 譜、GFCC 譜和Wavelet packets)對所提方法進行性能分析,證明了該方法的性能優(yōu)于大部分對比實驗的方法.此外,可分離卷積降低了模型的參數(shù)量和計算復(fù)雜度,提升了模型的訓(xùn)練效率.
通常情況下,基于不同方法所提取的目標(biāo)音頻特征在信息表達上具有不同的側(cè)重點,將多種音頻特征進行融合可以綜合它們的優(yōu)點,從而獲得更好的識別效果[75].Hong 等[76]基于ResNet18 設(shè)計一種具有三通道輸入的殘差網(wǎng)絡(luò)用于水中目標(biāo)識別.如圖8(a) 所示,其中Log-Mel 譜作為第一通道,MFCC 譜作為第二通道以及由色度(chroma)、對比度(contrast)、音網(wǎng)圖(tonnetz)和過零率(zerocross ratio)等組成CCTZ 特征作為第三通道,在網(wǎng)絡(luò)中進一步加入特征融合層和頻譜增強層,得到三通道的聲學(xué)特征,然后輸入到CNN 中進一步學(xué)習(xí)更優(yōu)異的音頻特征,該方法在ShipsEar 數(shù)據(jù)集上準(zhǔn)確率提升至94.3%.但是殘差網(wǎng)絡(luò)對數(shù)據(jù)較為敏感,容易受干擾信息的影響,并且網(wǎng)絡(luò)結(jié)構(gòu)需要隨著任務(wù)場景的改變進行重新調(diào)整.

圖8 基于CNN 的水聲目標(biāo)識別主流優(yōu)化方法Fig.8 Mainstream optimization methods for CNN-based UATR
近年來,在基于殘差網(wǎng)絡(luò)的圖像分類和目標(biāo)檢測等任務(wù)中,通過引入注意力機制極大緩解了殘差網(wǎng)絡(luò)受干擾信息影響的問題,并取得了可喜的進展[77-80],這促進了其在水中目標(biāo)識別領(lǐng)域的應(yīng)用.Xiao 等[46]提出在輸入層后面嵌入注意力層的水中目標(biāo)識別方法.如圖8(b)所示,通過引入注意力機制以抑制環(huán)境噪聲和海上艦船干擾,更好地保留與目標(biāo)特性相關(guān)的特征,從而實現(xiàn)了較高的目標(biāo)識別精度.Liu 等[81]設(shè)計一種基于雙注意力網(wǎng)絡(luò)(Dual attention networks,DAN)和多分辨率卷積神經(jīng)網(wǎng)絡(luò)(Multiresolution convolutional neural network,MCNN)的架構(gòu),其中DAN 用以更好地捕捉音頻的局部特性和全局依賴性,并采用動態(tài)加權(quán)的策略以強調(diào)感興趣區(qū)域;MCNN 用以模擬人耳的聽覺感知機制.該方法在實現(xiàn)上采用Inception 模型的多分辨率池化卷積方案,構(gòu)建MCNN 架構(gòu)以實現(xiàn)更好地適應(yīng)三維聚合特征的時頻結(jié)構(gòu),同時采用位置注意力模塊和空間注意力模塊并行學(xué)習(xí),使網(wǎng)絡(luò)兼顧音頻的局部特性和全局依賴.實驗表明,該方法在ShipsEar 數(shù)據(jù)集上的平均識別準(zhǔn)確率可達95.6%.Xue 等[82]設(shè)計一種基于通道注意力機制(Channel attention mechanism,CAM)的殘差神經(jīng)網(wǎng)絡(luò)(Residual network,ResNet),具體來說使用一組一維卷積濾波器將水中目標(biāo)的聲波信號分解為不同頻率的分量,然后使用兩層殘差塊堆疊的結(jié)構(gòu)來提取更抽象的音頻特征,最后通過在殘差塊后面加入通道注意力機制,大大減少了海洋背景噪聲和多目標(biāo)噪聲的干擾,從而獲得更好的識別效果.Li等[83]基于類似的網(wǎng)絡(luò)結(jié)構(gòu),將多種音頻表征融合并使用頻譜增強(SpecAugment)技術(shù)[84]對融合后的音頻特征進行增強,然后堆疊3 層基于通道注意力的殘差塊以優(yōu)化特征.此外,該方法采用交叉熵損失函數(shù)和中心損失函數(shù)作為聯(lián)合損失函數(shù)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí).其中,中心損失函數(shù)通過為每個類提供一個中心,使得同一類的樣本特征分布在類中心附近,同時抑制了交叉熵損失函數(shù)類內(nèi)變化明顯的問題.
上述方法的模型輸入均為基于手工設(shè)計的特征提取器所提取的音頻特征,對原始音頻信號具有一定的壓縮與損失.Doan 等[43]提出基于稠密卷積神經(jīng)網(wǎng)絡(luò)(Dense convolutional neural network,DCNN)的水中目標(biāo)識別方法,其中DCNN 被用來自動提取音頻的特征,無需專業(yè)的領(lǐng)域知識和專家經(jīng)驗的干預(yù).同時,使用跳躍連接技術(shù)的架構(gòu)允許不同網(wǎng)絡(luò)層之間復(fù)用在不同尺度下提取的特征圖,從而避免了在一個卷積神經(jīng)網(wǎng)絡(luò)中順序堆疊多個卷積層和激活層所導(dǎo)致的梯度消失問題.由于水中目標(biāo)本身的物理機理不同以及所處的水下環(huán)境復(fù)雜多變,不同目標(biāo)的聲波具有不同的頻率和波段,現(xiàn)有的特征提取方式往往面臨分辨率固定而無法很好地將目標(biāo)的聲波信號正確區(qū)分開的問題.Miao 等[44]采用各項異性的線調(diào)頻Chirplet 變換以獲得能清晰準(zhǔn)確地刻畫音頻信號頻率隨時間變化的譜圖,然后利用5 個膨脹率不同的卷積層并行地提取多尺度音頻特征,最后將得到的特征進行融合并輸入分類器進行目標(biāo)類型的識別.此外,該方法還設(shè)計一種前向特征融合的高效特征金字塔以降低特征融合過程的模型復(fù)雜度,在提高識別性能的同時減少了計算時間.Luo 等[85]提出基于多分辨率時頻特征分析的水中目標(biāo)識別方法,并設(shè)計一種基于條件卷積生成對抗網(wǎng)絡(luò)的數(shù)據(jù)增強策略,用以增大訓(xùn)練樣本規(guī)模.該方法使用的骨干網(wǎng)絡(luò)為ResNet,在ShipsEar數(shù)據(jù)集上實現(xiàn)了96.32%的識別精度.
文獻[41-42]等受人耳對聲音頻率感知神經(jīng)機制的啟發(fā),提出模擬人耳聽覺系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法,用于水聲目標(biāo)的類型識別.如圖8(c) 所示,該方法借助一組基于卷積運算的濾波器模擬人的聽覺皮層、聽覺中樞等區(qū)域的功能,將原始時域音頻信號分解為一系列不同頻率的音頻分量信號,同時卷積核的大小可變,用以模擬聽覺系統(tǒng)受到聲音刺激后對不同波長分量的感興趣程度.然后在網(wǎng)絡(luò)的末端堆疊最大池化層和全連接層以提取分解信號的幅值,并使用一個融合層來合并每個分解信號的特征,最后將學(xué)習(xí)到的特征輸入到softmax 層輸出類型識別結(jié)果.考慮到傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)存在卷積層和全連接層參數(shù)眾多導(dǎo)致計算復(fù)雜度高、訓(xùn)練效率低的問題,文獻[42]設(shè)計一種具有初始結(jié)構(gòu)和殘差連接的深度架構(gòu)[86]作為方法的實現(xiàn),既保證了識別精度又提高了訓(xùn)練效率.表2 列舉了主要的基于CNN的水聲目標(biāo)識別方法.

表2 基于卷積神經(jīng)網(wǎng)絡(luò)的水聲目標(biāo)識別方法Table 2 Convolutional neural network-based methods for UATR

表3 基于時延神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和Transformer 的水聲目標(biāo)識別方法Table 3 Time delay neural networks-based,recurrent neural network-based and Transformer-based methods for UATR

表4 基于遷移學(xué)習(xí)的水聲目標(biāo)識別方法Table 4 Transfer learning-based methods for UATR
TDNN 本質(zhì)上可以理解為一個一維的CNN,通常被用于時序數(shù)據(jù)的建模和處理.TDNN 的基本思想是通過構(gòu)建多個時延單元,對輸入信號進行時間平移后的疊加,并對結(jié)果進行線性變換,最終輸出一個特征向量.這個特征向量可以用于進行水中目標(biāo)的識別任務(wù).相比于傳統(tǒng)的識別方法,基于TDNN 的方法能夠兼顧時域信息和頻域信息對時序聲音信號進行建模,有效地利用時序信息來捕捉不同目標(biāo)的動態(tài)特征變化,并且在處理長時間序列時具有更好的性能.同時,TDNN 還可以通過設(shè)置不同的神經(jīng)元數(shù)量和層數(shù)來適應(yīng)不同的任務(wù)需求.考慮到TDNN 的上述優(yōu)勢,因此基于TDNN 的水中目標(biāo)識別引起了學(xué)者的關(guān)注.
Ren 等[87]采用TDNN 對水中目標(biāo)進行識別,該方法使用一種更能反映目標(biāo)輻射信號頻譜分布的小波包分量譜(Wavelet packet component spectrum,WPCS)特征作為輸入,實驗結(jié)果表明相比于其他音頻特征,WPCS 特征的性能更好.文獻[88]設(shè)計一種基于可學(xué)習(xí)前端(Underwater acoustic learnable front,UALF) 的水中目標(biāo)識別方法.UALF 設(shè)計一組可學(xué)習(xí)的一維卷積濾波器用以提取信號中不同頻率的信號分量,然后進一步執(zhí)行池化操作并輸出信號的時頻特征,用以支持后續(xù)網(wǎng)絡(luò)的學(xué)習(xí).由于UALF 從原始音頻信號中自適應(yīng)地學(xué)習(xí)合適的特征提取參數(shù),從而實現(xiàn)更具判別性的音頻特征提取.在QLED、ShipsEar、DeepShip 數(shù)據(jù)集上進行實驗,結(jié)果表明UALF 學(xué)習(xí)到的特征比手工特征器所提取的STFT 譜、FBank 譜等表現(xiàn)出更好的識別性能.
基于RNN 的水中目標(biāo)識別是另一種基于深度學(xué)習(xí)的水中目標(biāo)識別方法.RNN 是一種能夠?qū)π蛄袛?shù)據(jù)進行建模的神經(jīng)網(wǎng)絡(luò),其內(nèi)部包含一個循環(huán)結(jié)構(gòu),可以將當(dāng)前時間步的輸入與上一個時間步的輸出結(jié)合起來進行計算.在水中目標(biāo)識別中,RNN可以用于建立從音頻序列到目標(biāo)類別的映射.長短期記憶模型(Long short-term memory,LSTM)和雙向長短期記憶模型(Bi-directional LSTM,Bi-LSTM)是兩種主流的RNN 架構(gòu),由于其細胞狀態(tài)能夠決定哪些時間狀態(tài)應(yīng)該被留下哪些應(yīng)該被遺忘,所以在處理水下聲音信號這種時序數(shù)據(jù)時具有更大的優(yōu)勢.此外,水中目標(biāo)所產(chǎn)生的被動聲吶信號的分析在很大程度上依賴于局部時頻信息和時間序列相關(guān)信息,與RNN 的特性十分契合.因此,有學(xué)者將RNN 應(yīng)用于水中目標(biāo)識別.
Li 等[89]首次提出基于向量傳感器原始音頻數(shù)據(jù)的Bi-LSTM 方法用于水中艦船目標(biāo)的識別.該方法直接將向量傳感器數(shù)據(jù)輸入到模型中自動學(xué)習(xí)音頻特征,在一定程度上避免了人工特征提取所帶來的信息損失.此外,Bi-LSTM 使得音頻特征同時具有過去和未來的信息作為補充,更具判別性.Wang 等[90]提出一種混合時序網(wǎng)絡(luò)用于水中目標(biāo)識別,該網(wǎng)絡(luò)由雙向門控單元(Bi-direction gated recurrent unit,Bi-GRU)和多層門控單元(Gated recurrent unit,GRU)組合而成,并通過級聯(lián)順序?qū)W(wǎng)絡(luò)參數(shù)進行優(yōu)化以學(xué)習(xí)更高層次的目標(biāo)特征.實驗結(jié)果表明,該方法在具有4 層Bi-GRU 和4 層GRU 的網(wǎng)絡(luò)結(jié)構(gòu)上具有良好的抗環(huán)境干擾能力和識別性能.Qi 等[91]則采用LSTM 模型用以學(xué)習(xí)音頻的相位和頻譜特征,并將學(xué)習(xí)到的特征進行融合以提升模型的識別性能.受卷積運算可以很好地學(xué)習(xí)局部特征,而RNN 可以利用數(shù)據(jù)的時序信息來學(xué)習(xí)上下文依賴的啟發(fā),Kamal 等[92]提出一種基于CNN 與Bi-LSTM 融合的水中目標(biāo)識別方法.如圖9 所示,該方法使用一組可學(xué)習(xí)的濾波器用以提取被動聲吶音頻信號的時頻特征,然后將時頻特征輸入到卷積層執(zhí)行卷積運算,接著使用Bi-LSTM從當(dāng)前時刻的之前、之后兩個方向捕捉序列的時域特征,最后使用選擇注意力層選取最有效的特征用以執(zhí)行目標(biāo)識別任務(wù).Han 等[93]則設(shè)計一種基于一維卷積和LSTM 相結(jié)合的聯(lián)合網(wǎng)絡(luò)進行水中目標(biāo)識別,其中一維卷積用于減少模型的參數(shù)量,LSTM能同時關(guān)注歷史信息和當(dāng)前信息,有利于更具判別性的時域特征提取.

圖9 基于CNN 與Bi-LSTM 融合的水聲目標(biāo)識別方法網(wǎng)絡(luò)架構(gòu)Fig.9 Network framework of UATR methods based on the fusion of CNN and Bi-LSTM
基于RNN 的水中目標(biāo)識別和基于TDNN 的水中目標(biāo)識別都是從水中目標(biāo)所產(chǎn)生的被動聲吶信號中提取其時序特征并據(jù)此進行目標(biāo)識別的方法.然而TDNN 是一種前向結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),通過卷積和非線性變換來提取輸入序列中的局部特性,主要用于對固定長度的被動聲吶信號進行建模.而RNN 的主要結(jié)構(gòu)是循環(huán)單元,通過反饋連接將過去的信息進行記憶和傳遞,更擅長捕捉信號中的長期依賴關(guān)系.
Transformer 是一種完全基于自注意力機制的網(wǎng)絡(luò)架構(gòu).與傳統(tǒng)的RNN 相比,它可以同時捕捉輸入序列中不同位置間的關(guān)系,避免了傳統(tǒng)模型中的順序依賴性問題.近年來,在自然語言處理、計算機視覺等領(lǐng)域,Transformer 取得了出色的性能.此外,自注意力機制的使用使得Transformer 可以并行計算,從而加快訓(xùn)練速度,并且能夠更好地捕捉長距離的依賴關(guān)系.這些優(yōu)勢促使學(xué)者將其應(yīng)用于水中目標(biāo)識別領(lǐng)域.在基于Transformer 的水中目標(biāo)識別中,聲學(xué)信號通常被轉(zhuǎn)換為聲譜圖或梅爾頻譜等表示形式,然后輸入到Transformer 網(wǎng)絡(luò)中進行學(xué)習(xí).Transformer 的自注意力機制能夠捕捉輸入信號中不同位置間的依賴關(guān)系,并學(xué)習(xí)到目標(biāo)的高級特征表示,圖10 給出了該方法的基本架構(gòu).

圖10 基于Transformer 的水聲目標(biāo)識別方法基本架構(gòu)Fig.10 Basic framework of Transformer-based methods for UATR
Li 等[94]首次探索將Transformer 引入水中目標(biāo)識別領(lǐng)域,提出頻譜轉(zhuǎn)換模型(Spectrogram transformer model,STM)用于水中目標(biāo)識別.該方法首先提取水中目標(biāo)所產(chǎn)生的被動聲吶信號的時頻譜(包括STFT 譜、Fbank 譜、MFCC),并從時域和頻域維度將其劃分為重疊度為6 的16× 16 大小的圖像塊,然后使用一個線性編碼層將每個圖像塊編碼為一維的向量序列,輸入到Transformer 模型中學(xué)習(xí)更抽象的音頻表征.由于Transformer 架構(gòu)可以更好地捕捉長距離的時序信息和全局依賴關(guān)系,與最先進的基線CNN、CRNN 以及ResNet18進行對比,該方法在ShipsEar 數(shù)據(jù)集上的精度分別提升了13.7%、3.1%、1.8%.Feng 等[95]則在Transformer 模型的基礎(chǔ)上設(shè)計一種新的逐層聚合的Token 機制(Progressive Token embedding strategy,PTES),通過多頭自注意力機制捕捉全局信息,通過逐層聚合的Token 機制分層聚合局部特性,學(xué)習(xí)更精細的聲音特征表示,從而提升模型的識別精度.
需要注意的是,基于Transformer 的水中目標(biāo)識別往往通過大規(guī)模的數(shù)據(jù)訓(xùn)練和優(yōu)化網(wǎng)絡(luò)參數(shù)以達到良好的性能,這極大限制了它的應(yīng)用場景.盡管存在上述問題,但它具有巨大的潛力.隨著技術(shù)的進一步發(fā)展和更多數(shù)據(jù)的積累,基于Transformer 的水中目標(biāo)識別方法有望成為未來水中目標(biāo)識別的重要研究方向,為水下環(huán)境中的目標(biāo)監(jiān)測、海洋資源調(diào)查和海洋工程等領(lǐng)域提供更高效和更精確的解決方案.表 3 列舉了主要的基于 TDNN、RNN 和 Transformer 的水聲目標(biāo)識別方法.
雖然深度學(xué)習(xí)方法在水中目標(biāo)識別任務(wù)上已經(jīng)取得了良好的性能,但它的成功往往需要大量質(zhì)量良好的標(biāo)注數(shù)據(jù)來支撐模型的訓(xùn)練.由于海洋環(huán)境的復(fù)雜性和聲音隱身技術(shù)的應(yīng)用,水中目標(biāo)所產(chǎn)生的被動聲吶音頻信號往往需要專業(yè)的領(lǐng)域知識和豐富的專家經(jīng)驗才能得到質(zhì)量較高的音頻類別標(biāo)注,這使得音頻標(biāo)注數(shù)據(jù)集的規(guī)模一般比較小,難以支撐大規(guī)模的深度神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí).現(xiàn)有的一些研究表明,遷移學(xué)習(xí)對于解決模型訓(xùn)練數(shù)據(jù)不足的問題十分有效[96-97].TL 通常在一個大規(guī)模的相關(guān)數(shù)據(jù)集(源域)上訓(xùn)練一個模型,然后使用小規(guī)模目標(biāo)域的數(shù)據(jù)集來微調(diào)源域上訓(xùn)練好的模型參數(shù),從而使模型收斂到目標(biāo)域.TL 可以利用在源域上學(xué)習(xí)到的知識來加速水中目標(biāo)識別的訓(xùn)練過程,從而緩解水中環(huán)境數(shù)據(jù)稀缺或不平衡的問題.因此,許多學(xué)者開始探索將遷移學(xué)習(xí)引入水中目標(biāo)識別領(lǐng)域.
文獻[98-99]利用在ImageNet[65]數(shù)據(jù)集上訓(xùn)練所得到的性能優(yōu)異的網(wǎng)絡(luò)作為預(yù)訓(xùn)練模型(Pretrained model),然后利用小規(guī)模的音頻標(biāo)注數(shù)據(jù)集對模型進行微調(diào),使模型收斂到相應(yīng)的音頻識別任務(wù).其中,文獻[96]利用在計算機視覺領(lǐng)域性能表現(xiàn)優(yōu)異的ResNext101[100]和Xception[101]作為預(yù)訓(xùn)練模型,然后采用小樣本標(biāo)注數(shù)據(jù)進行模型微調(diào),結(jié)果表明該方法的精度提高了20%.文獻[99]則在分別采用VGG16、ResNet 以及DenseNet 作為預(yù)訓(xùn)練模型并進行微調(diào)的基礎(chǔ)上,設(shè)計一種模型集成機制以進一步提升識別性能,精度可達96.56%.
然而當(dāng)預(yù)訓(xùn)練模型與下游任務(wù)屬于不同的領(lǐng)域時,例如使用在圖像數(shù)據(jù)集ImageNet 訓(xùn)練的模型初始化模型參數(shù),由于圖像數(shù)據(jù)與音頻數(shù)據(jù)本身的固有偏差會降低其在下游任務(wù)上的性能表現(xiàn).因此文獻[102]和文獻[103]先后探索基于音頻大型數(shù)據(jù)集AudioSet 的預(yù)訓(xùn)練模型,并將其遷移到其他音頻相關(guān)的下游任務(wù)上.文獻[102]和文獻[103]都采用基于神經(jīng)網(wǎng)絡(luò)和音頻信號的時頻分析方法進行網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,以提取更優(yōu)秀的音頻特征.其中前者基于自建卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),后者則以VGGish 作為骨干網(wǎng)絡(luò).此外,為增強結(jié)果的可解釋性,后者參考有限沖擊響應(yīng)濾波器的計算模式,設(shè)計了基于一維卷積運算的網(wǎng)絡(luò)濾波器并饋入注意力機制,通過網(wǎng)絡(luò)優(yōu)化自動挖掘出適合當(dāng)前目標(biāo)識別任務(wù)的音頻特征.在ShipsEar 數(shù)據(jù)集上的結(jié)果表明,該模型能夠自適應(yīng)感知水中目標(biāo)的頻域特征,在各種目標(biāo)識別任務(wù)中表現(xiàn)出有競爭力的性能,特別是那些對泛化性要求高的任務(wù).表 4 列舉了主要的基于 TL 的水聲目標(biāo)識別方法.
基于無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的水中目標(biāo)識別方法主要是通過數(shù)據(jù)自身的統(tǒng)計規(guī)律和特征分布來進行特征提取與模型訓(xùn)練,從而避免了需要大量標(biāo)簽數(shù)據(jù)的瓶頸問題.與監(jiān)督學(xué)習(xí)方法相比,無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)方法的一個共同特點是不需要大量標(biāo)注數(shù)據(jù),因此具有更好的可擴展性和適用性.
3.6.1 基于無監(jiān)督學(xué)習(xí)的水中目標(biāo)識別
基于無監(jiān)督學(xué)習(xí)的水中目標(biāo)識別方法主要基于自編碼器、聚類分析等策略從不含標(biāo)簽信息的數(shù)據(jù)中進行學(xué)習(xí).其中,自編碼器可以用于特征的無監(jiān)督學(xué)習(xí),通過重構(gòu)輸入數(shù)據(jù)來學(xué)習(xí)水中目標(biāo)所產(chǎn)生的被動聲吶音頻信號的特征表示.聚類分析則是將未標(biāo)注的數(shù)據(jù)分成不同的類別,從而獲得數(shù)據(jù)的特征分布信息.
深度置信網(wǎng)絡(luò)(Deep belief network,DBN)是一種類似于自編碼器的網(wǎng)絡(luò)架構(gòu),被廣泛應(yīng)用于水中目標(biāo)識別.DBN 是一種由多個受限玻爾茲曼機(Restricted Boltzmann machine,RBM)組成的無監(jiān)督學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò),這些RBM 依次訓(xùn)練,以便逐層生成高層次的特征表示來增強特征的判別性,最后使用反向傳播算法進行微調(diào),以進一步提高識別精度.
在水中目標(biāo)識別中,深度置信網(wǎng)絡(luò)可以從被動聲吶采集到的聲波信號中自動學(xué)習(xí)特征表示,從而實現(xiàn)目標(biāo)類型的識別.該方法的優(yōu)點是可以自動提取特征,避免了手動設(shè)計特征的困難和復(fù)雜性,并且在處理大規(guī)模數(shù)據(jù)時可以獲得較高的準(zhǔn)確性和泛化能力.由于DBN 具有上述優(yōu)勢,近年來基于DBN的水中目標(biāo)識別研究十分廣泛.文獻[66,104-105]利用DBN 在無標(biāo)簽的艦船輻射噪聲信號上進行預(yù)訓(xùn)練,然后在預(yù)訓(xùn)練好的DBN 模型后面加入分類層進行模型的微調(diào),其中文獻[104]在包含40 個類別的1 000 個樣本中精度達到了90.23%.然而,該方法在小數(shù)據(jù)集上微調(diào)的迭代次數(shù)較多,可能存在過擬合的風(fēng)險.楊宏暉等[106]提出一種混合正則化深度置信網(wǎng)絡(luò)(Hybrid regularization deep belief network,HR-DBN)用于水中目標(biāo)識別,其中最大互信息組正則化策略旨在提高隱含層的稀疏度,增強所學(xué)到的聲音特征的判別性;數(shù)據(jù)驅(qū)動正則化策略則是利用大量的無標(biāo)簽樣本進行預(yù)訓(xùn)練,從中學(xué)習(xí)水中目標(biāo)的先驗知識與通用表征,引導(dǎo)網(wǎng)絡(luò)更好地學(xué)習(xí).在該工作的基礎(chǔ)上,Yang 等[107]進一步提出一種基于DBN 與競爭學(xué)習(xí)機制結(jié)合的水中目標(biāo)識別方法 ——結(jié)合競爭機制的深度置信網(wǎng)絡(luò)(Competitive deep belief network,CDBN).具體來說,該方法首先利用大量無標(biāo)簽音頻數(shù)據(jù)以無監(jiān)督學(xué)習(xí)的方式預(yù)訓(xùn)練RBM.其次,對于隱藏層,該架構(gòu)根據(jù)不同類別對應(yīng)的得分對隱藏層單元進行分組.然后,通過在分組的隱藏層單元之間添加橫向連接,構(gòu)建了具有組內(nèi)增強和組間抑制機制的競爭層,組成競爭性受限玻爾茲曼機(Competitive restricted Boltzmann machine,CRBM).最后,將CRBM 堆疊構(gòu)建CDBN,并對整個模型進行微調(diào),以最大化其預(yù)測水中目標(biāo)的概率.該方法通過增加競爭層,可以迫使網(wǎng)絡(luò)學(xué)習(xí)到更具有判別性的音頻特征.然而當(dāng)隱藏層神經(jīng)元過多時,計算任意兩個特征之間的互信息是低效的.基于此,Shen 等[108]提出一種壓縮的CDBN 用于船舶輻射噪聲的特征學(xué)習(xí),使用競爭學(xué)習(xí)的機制使得同類別樣本的特征更加聚集,并采用基于互信息的剪枝策略去除網(wǎng)絡(luò)的冗余參數(shù).結(jié)果表明該方法的識別精度比CDBN提高了5.3%.
受自編碼器思想的啟發(fā),Cao 等[109]使用堆疊自編碼器架構(gòu)進行音頻信號表征學(xué)習(xí),并在網(wǎng)絡(luò)末端使用softmax 層進行信號識別.其中堆疊自編碼器的基本結(jié)構(gòu)為稀疏自編碼器,并以無監(jiān)督貪婪范式進行逐層訓(xùn)練,在包含3 類的海洋測試數(shù)據(jù)集上精度達到了94.12%.Luo 和Feng[110]設(shè)計一種基于RBM 進行預(yù)訓(xùn)練、級聯(lián)BP 神經(jīng)網(wǎng)絡(luò)進行水中目標(biāo)識別的方法.該方法將信號的MFCC 和GFCC歸一化頻譜作為輸入,使用4 層RBM 進行更抽象的音頻特征學(xué)習(xí),并將得到的音頻特征輸入到BP神經(jīng)網(wǎng)絡(luò)分類器中進行信號識別.在兩個真實艦船輻射噪聲數(shù)據(jù)集上對該方法進行測試,結(jié)果表明該方法比手工設(shè)計的特征提取方法具有更好的識別精度和魯棒性.
3.6.2 基于自監(jiān)督學(xué)習(xí)的水中目標(biāo)識別
基于SSL 的水中目標(biāo)識別是利用數(shù)據(jù)本身的內(nèi)在結(jié)構(gòu)和特性進行學(xué)習(xí),從而實現(xiàn)對目標(biāo)類型識別的方法.該方法通過設(shè)計代理任務(wù)來進行模型訓(xùn)練,從而消除對人工標(biāo)注的數(shù)據(jù)標(biāo)簽的需求.常用的代理任務(wù)有對比學(xué)習(xí)任務(wù)和預(yù)測任務(wù).其中,對比學(xué)習(xí)旨在將來自同一樣本的不同視圖進行比較,以學(xué)習(xí)樣本之間的相似性和差異性.在水中目標(biāo)識別中,可以設(shè)計對比學(xué)習(xí)任務(wù),如同一聲音信號在時間或頻域上的不同切片進行對比.通過對比學(xué)習(xí)的訓(xùn)練,網(wǎng)絡(luò)可以學(xué)習(xí)到區(qū)分目標(biāo)和背景的特征表示.預(yù)測任務(wù)則是通過模型對未來或缺失的部分進行預(yù)測,以學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu).在水中目標(biāo)識別中,可以設(shè)計預(yù)測任務(wù),如預(yù)測聲音信號的下一個時間步或缺失的頻譜區(qū)域.通過預(yù)測任務(wù)的訓(xùn)練,網(wǎng)絡(luò)可以學(xué)習(xí)到對目標(biāo)關(guān)鍵特征的建模能力.
Luo 等[111]提出一種基于RBM 的自編碼器與重構(gòu)輸入的水中目標(biāo)識別方法.如圖11 所示,自編碼器是一個由多層RBM 堆疊而成的結(jié)構(gòu),用以逐層提取更抽象的音頻特征.自解碼器與自編碼器在結(jié)構(gòu)上對稱,用以逐層重構(gòu)原始輸入.最后將重構(gòu)的聲音特征與原始輸入進行對比構(gòu)成一組自監(jiān)督信號,以指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí).該方法融合功率譜和DEMON 譜作為模型的輸入,在ShipsEar 數(shù)據(jù)集上取得了92.6%的識別性能.Sun 和Luo[112]將自監(jiān)督對比學(xué)習(xí)的思想引入水中目標(biāo)識別領(lǐng)域,提出對比編碼學(xué)習(xí)(Contrastive coding for UATR,CCU)的方法.

圖11 基于RBM 自編碼器重構(gòu)的水聲目標(biāo)識別方法架構(gòu)Fig.11 The framework of RBM autoencoder-based reconstruction methods for UATR
近年來,另一種基于掩碼建模的SSL 方法在音頻分類任務(wù)上表現(xiàn)出良好的性能.Gong 等[49]提出一種聯(lián)合判別與掩碼重構(gòu)的自監(jiān)督學(xué)習(xí)方法(Selfsupervised audio spectrogram Transformer,SSAST)用于音頻與語音分類.圖12 展示了該方法的網(wǎng)絡(luò)架構(gòu),首先將音頻信號轉(zhuǎn)換為頻譜特征并將頻譜圖切分成大小相等且互不重疊的patch,對patch 執(zhí)行隨機掩碼操作(圖中灰色的patch),經(jīng)過線性投影層將patch 編碼為一維向量,在編碼向量中加入每個patch 對應(yīng)的位置編碼作為最終的模型輸入,送入Transformer encoder 中學(xué)習(xí)更高層次的目標(biāo)特征.Transformer encoder 的輸出: 1)在預(yù)訓(xùn)練階段,輸入到Reconstruct head 和Classification head 中分別重構(gòu)掩碼的patch 并對恢復(fù)的patch 進行分類,通過評估重構(gòu)效果和分類精度來指導(dǎo)網(wǎng)絡(luò)的反向傳播;2)在微調(diào)階段,用于音頻的分類.然而,該方法在水中目標(biāo)識別領(lǐng)域的應(yīng)用仍處于探索中.基于這樣的觀察,文獻[113-114]率先將掩碼建模的思想引入水中目標(biāo)識別任務(wù)中,提出掩碼建模與多表征重構(gòu)的方法用于水中目標(biāo)識別,其基本處理流程與SSAST 類似,都包含頻譜轉(zhuǎn)換、patch 的切分、隨機掩碼與重構(gòu)(預(yù)訓(xùn)練階段)、微調(diào)等過程.其中輸入的頻譜特征為Log-Mel,使用兩個decoder 分別用于重構(gòu)被掩碼的Log-Mel 特征以及預(yù)測Grammatone 頻譜,通過評估重構(gòu)效果和預(yù)測效果來指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,該方法在DeepShip 數(shù)據(jù)集上實現(xiàn)了78.03%的識別精度.

圖12 SSAST 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 The network architecture of SSAST
總的來說,基于自監(jiān)督學(xué)習(xí)的方法可以充分利用未標(biāo)記數(shù)據(jù)進行訓(xùn)練,從而提高水中目標(biāo)識別的性能和泛化能力.這種方法在數(shù)據(jù)量有限或難以獲得標(biāo)記數(shù)據(jù)的情況下尤為有用,并且能夠有效應(yīng)對水中環(huán)境的復(fù)雜性和變化性.而基于無監(jiān)督學(xué)習(xí)的方法通常使用聚類或降維等無監(jiān)督學(xué)習(xí)方法,并且沒有監(jiān)督信號參與訓(xùn)練.此外,基于自監(jiān)督學(xué)習(xí)的方法通常能夠提取更豐富的特征,但需要更多的計算資源和時間,而基于無監(jiān)督學(xué)習(xí)的方法則更加簡單快速,但通常提取的特征較為簡單.表5 列舉了主要的基于無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的水聲目標(biāo)識別方法.

表5 基于無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的水聲目標(biāo)識別方法Table 5 Unsupervised and self-supervised learning-based methods for UATR
基于機器學(xué)習(xí)算法進行水中目標(biāo)識別的研究已成為當(dāng)前采用被動聲吶音頻信號實現(xiàn)水中目標(biāo)識別任務(wù)的主流方法.在第2 節(jié)和第3 節(jié)中,全面梳理了基于傳統(tǒng)機器學(xué)習(xí)算法和基于深度學(xué)習(xí)算法的水中目標(biāo)識別技術(shù).傳統(tǒng)機器學(xué)習(xí)算法通過手工設(shè)計和選擇特征,能夠根據(jù)領(lǐng)域知識和專家經(jīng)驗進行目標(biāo)識別,并且具有較高的計算效率.然而,傳統(tǒng)算法通常需要依賴專業(yè)知識,手動提取特征,因此在處理復(fù)雜的數(shù)據(jù)模式時存在一定的限制.此外,傳統(tǒng)機器學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)往往比較淺,模型性能上界有限.
相比之下,深度學(xué)習(xí)算法具有自動特征學(xué)習(xí)的能力,能夠從原始數(shù)據(jù)中學(xué)習(xí)到更有效的特征表示,適應(yīng)復(fù)雜的數(shù)據(jù)模式和非線性關(guān)系.深度學(xué)習(xí)算法具有深層的網(wǎng)絡(luò)結(jié)構(gòu),具有較大的網(wǎng)絡(luò)容量,可以更好地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系.它具有較強的表達能力和學(xué)習(xí)能力,可以通過大規(guī)模數(shù)據(jù)和增加模型復(fù)雜度來提高性能.然而,深度學(xué)習(xí)算法對于標(biāo)記數(shù)據(jù)的需求較高且計算復(fù)雜度較高.此外,由于某些深度學(xué)習(xí)模型的復(fù)雜性,它們可能是黑盒模型,難以解釋和理解模型的決策過程.
總的來說,在具備領(lǐng)域知識和對特定問題有深入理解的情況下,傳統(tǒng)機器學(xué)習(xí)算法可以提供較好的性能和可解釋性,尤其適用于處理相對簡單的數(shù)據(jù)模式.而對于復(fù)雜的數(shù)據(jù)模式和大規(guī)模數(shù)據(jù)集,深度學(xué)習(xí)算法能夠更好地發(fā)揮其自動特征學(xué)習(xí)能力.然而,研究人員需要權(quán)衡所需的標(biāo)記數(shù)據(jù)量和計算資源,并在應(yīng)用中注意深度學(xué)習(xí)模型的可解釋性問題.
近年來,機器學(xué)習(xí)特別是深度學(xué)習(xí)的快速發(fā)展使數(shù)據(jù)驅(qū)動學(xué)習(xí)在水中目標(biāo)識別領(lǐng)域取得了優(yōu)異的效果,并逐漸成為該領(lǐng)域研究的主流方法.然而,深度學(xué)習(xí)對訓(xùn)練數(shù)據(jù)的需求是巨大的,因為它們需要大量帶標(biāo)簽的數(shù)據(jù)來指導(dǎo)模型學(xué)習(xí)到正確的知識.由于水聲標(biāo)注數(shù)據(jù)的獲取涉及復(fù)雜的技術(shù)、高昂的成本以及潛在的國防安全敏感信息,大部分數(shù)據(jù)集并不公開.因此,許多水中目標(biāo)識別的研究是基于私人搜集的未公開數(shù)據(jù)集[104-107]、仿真數(shù)據(jù)集[72]或者基于有限的真實數(shù)據(jù)進行數(shù)據(jù)增強[115-117]的,但由于缺乏合適大小的真實數(shù)據(jù)集,它們所達到的精度仍然不能令人滿意.此外,由于所使用的數(shù)據(jù)集不同,不同方法之間的性能對比也難以令人信服.為了發(fā)展更準(zhǔn)確的水聲目標(biāo)識別技術(shù)以及便于不同方法之間的性能對比,陸續(xù)推出了一些公開可用的水聲數(shù)據(jù)集.其中較為有代表性的為Santos-Domínguez 等[118]提出的ShipsEar 數(shù)據(jù)集和Irfan 等[73]提出的DeepShip 數(shù)據(jù)集.表6 總結(jié)了常用的公開水聲數(shù)據(jù)集.

表6 常用的公開水聲數(shù)據(jù)集總結(jié)Table 6 Summary of commonly used public underwater acoustic signal datasets
相比于計算機視覺領(lǐng)域,目前水聲標(biāo)注數(shù)據(jù)集的數(shù)量和規(guī)模仍有待發(fā)展.對于一個良好的數(shù)據(jù)集而言,它需要具備良好的可讀性、足夠的完整性、可靠性和結(jié)果的可復(fù)現(xiàn)性.良好的可讀性便于使用者輕松理解數(shù)據(jù)的含義;足夠的完整性確保數(shù)據(jù)蘊含完整的信息,便于指導(dǎo)網(wǎng)絡(luò)正確的學(xué)習(xí);可靠性要求數(shù)據(jù)具有較高的質(zhì)量;可復(fù)現(xiàn)性確保多次基于數(shù)據(jù)的分析結(jié)果基本一致.
本文對基于被動聲吶音頻信號的水中目標(biāo)識別的相關(guān)研究進行綜述.首先從數(shù)據(jù)的角度闡述了當(dāng)前水中目標(biāo)識別主要使用的數(shù)據(jù)類型為被動聲吶音頻信號,并對音頻信號處理中所涉及的關(guān)鍵技術(shù)進行了概述,包括采用被動聲吶音頻信號進行水中目標(biāo)識別的基本原理、被動聲吶音頻信號分析的數(shù)理基礎(chǔ)以及系統(tǒng)介紹了相關(guān)研究中所使用的音頻特征提取方法,為后續(xù)介紹機器學(xué)習(xí)方法在水中目標(biāo)識別任務(wù)中的應(yīng)用提供了必要的背景知識.然后分別從傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)的角度全面分析了水中目標(biāo)識別任務(wù)的相關(guān)進展,發(fā)現(xiàn)由于海洋環(huán)境的復(fù)雜性和各種聲音隱身技術(shù)的應(yīng)用,基于深度學(xué)習(xí)的水中目標(biāo)識別方法逐漸成為主流研究方法.按照深度學(xué)習(xí)的模型結(jié)構(gòu)將這些方法分為: 1)基于卷積神經(jīng)網(wǎng)絡(luò)的方法;2)基于時延神經(jīng)網(wǎng)絡(luò)的方法;3)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法;4)基于Transformer 的方法;5)基于遷移學(xué)習(xí)的方法;6)基于無監(jiān)督和自監(jiān)督學(xué)習(xí)的方法.對相關(guān)方法進行上述分類,可以確保在涵蓋所有主流方法的同時又能實現(xiàn)每個類別之間不會存在交集的目的,分類脈絡(luò)更清晰.圖13 展示了這些方法在水中目標(biāo)識別任務(wù)上的性能對比,從圖中可以發(fā)現(xiàn),基于自監(jiān)督學(xué)習(xí)的方法在性能上足以媲美有監(jiān)督學(xué)習(xí)的方法,并且由于該方法對標(biāo)簽數(shù)據(jù)需求小、泛化性和可擴展性高等優(yōu)勢,近年來自監(jiān)督學(xué)習(xí)方法逐漸成為基于被動聲吶音頻信號的水中目標(biāo)識別任務(wù)的研究熱點.

圖13 不同深度學(xué)習(xí)方法在水聲目標(biāo)識別領(lǐng)域的性能對比Fig.13 Performance comparison of various deep learning methods for UATR
然而需要注意的是,雖然近年來深度學(xué)習(xí)方法在很大程度上提高了水中目標(biāo)識別的精度和速度,但距離真正實時、魯棒、精準(zhǔn)和可持續(xù)學(xué)習(xí)的識別系統(tǒng),仍存在較大的提升空間.主要表現(xiàn)在:
1)公開可獲得的被動聲吶數(shù)據(jù)集及其標(biāo)注的顯著稀缺性.由于海洋環(huán)境的復(fù)雜性、處理與標(biāo)注數(shù)據(jù)集的高昂成本以及潛在的國防敏感信息等因素[119],使得該類數(shù)據(jù)集通常不可公開獲取.這使得這類研究在很大程度上失去了對比意義,因為如果沒有一個共同的數(shù)據(jù)集,對解決方案進行比較和基準(zhǔn)測試難以進行.
2)噪聲標(biāo)簽的普遍性.由于被動聲吶數(shù)據(jù)的標(biāo)注成本高昂,使用廉價的數(shù)據(jù)收集方式(比如在線查詢和眾包等)成為可行的替代方案.然而這些方式會引入大量的噪聲標(biāo)簽,甚至是專家標(biāo)注的數(shù)據(jù)集中也可能出現(xiàn)噪聲標(biāo)簽,深度學(xué)習(xí)由于其強大的擬合能力,很容易受到這些噪聲標(biāo)簽的干擾.因此,在將數(shù)據(jù)用于模型訓(xùn)練之前,進行噪聲的清洗是一項十分重要的工作[120-121].
3)具有判別性和泛化性的水中目標(biāo)通用音頻特征提取方法仍處于探索中.目前許多研究所采用的水中目標(biāo)音頻特征往往是基于手工制作、特征提取器進行提取的,然而這類參數(shù)固定的特征提取器難以自動適應(yīng)數(shù)據(jù)的特點.其次,被動聲吶數(shù)據(jù)受采集時間、季節(jié)、天氣、地理區(qū)域、傳感器類型、海洋深度等影響,往往需要專業(yè)的領(lǐng)域知識和專家經(jīng)驗來選取合適的音頻特征,以適應(yīng)相應(yīng)的任務(wù)場景.此外,雖然有些研究開始采用深度學(xué)習(xí)方法自動提取音頻特征,但所設(shè)計的提取策略也僅在私人數(shù)據(jù)集或單一數(shù)據(jù)集上取得相對不錯的效果,在其他數(shù)據(jù)集上的性能仍有待驗證.因此,探索具有判別性和泛化性的通用音頻特征提取方法是一項十分有意義的工作.
4)模型持續(xù)學(xué)習(xí)能力的探索.現(xiàn)有研究主要聚焦于設(shè)計合適的深度學(xué)習(xí)策略以提升模型的識別能力,然而這些方法在模型訓(xùn)練結(jié)束后,對知識的學(xué)習(xí)過程也隨之結(jié)束.此外,水中目標(biāo)所處的海洋環(huán)境是動態(tài)變化的,這種參數(shù)固定的模型難以適應(yīng)這樣的任務(wù)場景.因此,探討模型的持續(xù)學(xué)習(xí)問題是一個非常具有現(xiàn)實意義的問題.
此外,在第4 節(jié),總結(jié)了文獻中常用的一些被動聲吶音頻公開數(shù)據(jù)集,并指出一個良好的數(shù)據(jù)集應(yīng)該具備的特點,為后續(xù)搭建被動聲吶水聲數(shù)據(jù)集提供了指導(dǎo)性意見.同時,本文認為未來的工作應(yīng)該明確所使用數(shù)據(jù)集的獲取條件和限制,同時最好能在公開數(shù)據(jù)集上進一步測試模型的性能,以便更好地進行性能對比.
總的來說,高精準(zhǔn)、可擴展性、魯棒性、實時性和可持續(xù)學(xué)習(xí)性仍然是未來基于被動聲吶音頻信號的水中目標(biāo)識別任務(wù)的重要挑戰(zhàn).同時,如何將已有的成果應(yīng)用于生活實際、實現(xiàn)模型壓縮和跨平臺部署等也是亟需解決的問題.