逄 巖 許 楓 劉 佳
(1 中國科學院聲學研究所 北京 100190)
(2 中國科學院大學 北京 100049)
利用采樣工具進行站點式取樣底質數據完成海底底質的探測與分類雖然準確直觀,卻存在著效率低以及不適合大規模調查等缺點[1]。底質數據的獲取是完成底質分類的基礎,通過側掃聲吶獲取底質數據具有操作簡單、覆蓋面積廣以及分辨率高等優點。目前利用側掃聲吶獲取底質數據進行底質分類主要有兩種研究思路:一是提取海底底質的側掃聲吶圖像紋理等特征完成底質分類[2?3];二是校正獲取的側掃聲吶數據得到只與底質類型有關的散射強度數據,提取有效分類特征實現底質分類[4?5]。
模擬耳蝸聽覺模型的Gammatone 濾波器組(Gammatone filter banks,GFB)具有較高語聲識別準確率和抗噪能力,能夠有效分析非平穩信號,描述信號的瞬間變化[6?7]。由于底質存在凹凸不平等非均勻性特征,聲波會在底質表面發生隨機散射,從而導致底質反向散射的聲波信號具有非平穩性以及瞬變特性,因此Gammatone 濾波器組可以用于分析底質反向散射信號。近年來,以卷積神經網絡(Convolutional neural networks,CNN)為主的深度學習方法在目標檢測[8]、人臉識別[9]以及文本分類[10]等領域得到廣泛應用,將CNN 方法應用到海底底質分類逐步成為一種研究趨勢。Berthold等[11]通過GoogLeNet 對礫石、泥、沙和混合底質4 種底質進行初步分類;Luo 等[12]利用深層和淺層CNN 模型對石、泥和沙3 種底質進行分類比較,在取得優秀的分類表現的同時發現淺層CNN 模型的分類性能優于深層CNN 模型。上述研究驗證了CNN 方法在底質分類中的可行性以及有效性,為CNN方法在底質分類中的深入研究奠定了基礎。
本文將CNN 方法與底質信號分析相結合,利用構造的CNN 模型學習Gammatone 濾波器組分析計算的底質信號時頻譜進行底質的分類識別,最終取得良好的分類效果。
Gammatone濾波器(Gammatone filter,GTF)是一種近似于Revcor函數的解析數學函數,在保留完整的幅度信息的同時還兼備完整的相位信息[13]。
Gammatone 濾波器組[14]最早用于描述聽覺系統脈沖響應,是一個標準的耳蝸聽覺線性濾波器組,其時域表達式為

其中,c為濾波器增益,m為濾波器階數,fi為第i個濾波器的中心頻率;?i為第i個濾波器的初始相位,由于初始相位對聽覺系統影響較小,同時為簡化濾波器組模型,所有?i取為0;N為Gammatone 濾波器的個數;bi為第i個濾波器的衰減因子,與對應濾波器等效矩形帶寬ERB(fi)有關,同時決定脈沖響應的衰減速度,其中,bi= 1.019ERB(fi),ERB(fi)如式(2)所示:

各個濾波器的中心頻率在ERB 域上等間隔分布。濾波器個數為64,中心頻率范圍為50~128 Hz 時Gammatone 濾波器組的幅頻響應如圖1(a)所示,不同通道數時各通道中心頻率在ERB 域的變化如圖1(b)所示,不同中心頻率時Gammatone 濾波器時域波形如圖1(c)所示。

圖1 GFB 不同通道數和中心頻率時的波形變化Fig.1 GFB waveforms in different channel numbers and center frequencies
時頻分析是將信號時域和頻域相結合分析信號的時頻聯合特征,克服只能在時域或頻域分析信號的缺點。傳統的時頻分析方法包含短時傅里葉變換(Short time Fourier transform,STFT)、小波變換以及Wigner-Ville 分布等。但STFT 的分析結果易受窗函數的影響,同時窗口大小的設置難以確定;小波變換存在小波基選擇的難點;Wigner-Ville 分布雖然具有良好的時頻聚焦特性,但同時容易產生交叉項的干擾[15?16]。由于底質信號的非平穩性和瞬變特性以及GFB 在分析上述特性具有顯著優勢,同時GFB很好地模擬了耳蝸基底膜,兼具良好的頻率選擇特性和頻譜分析特性,能夠對底質信號低頻部分保持較高頻率分辨率,同時對底質信號高頻部分信號保持較高的時間分辨率。因此利用GFB 在能夠對底質信號實現更為精細化時頻分析的同時,在分析過程中也避免產生交叉項的干擾。
由圖2所示,本文設計的底質信號GFB 時頻譜計算步驟如下:

圖2 GFB 時頻譜計算流程Fig.2 GFB time-frequency spectrum calculation processs
(1)利用GFB 對原始底質信號進行濾波后得到一組數目與GFB通道數目相同的子帶信號;
(2)取長度為M的窗口在每一條子帶信號上以步長為K(K (3)對步驟(2)中計算所得到的所有子帶信號能量集E進行對數運算,得到原始底質信號的GFB時頻譜。 CNN[17]是一種主要包含卷積層(含激勵操作)、池化層和全連接層的深度學習結構,通過卷積、激活和池化操作自動學習提取圖像特征后利用全連接層輸出分類結果達到最終的分類目的。 卷積層主要是由若干個卷積核組成,通過卷積操作能夠提取輸入信息的不同層次特征,隨著卷積層深度的增加,CNN 越注重提取更深層次的特征,最后卷積結果通過激勵層得到特征圖。所有卷積層通過BP 算法進行權重更新進而實現整個CNN 模型的優化,卷積層操作表達式如下: 其中,xln為卷積層l第n個通道的輸出,Pn為卷積層l的輸入特征圖集(卷積層l?1的輸出特征圖集),為第l ?1 卷積層的輸出特征圖,為卷積核權重矩陣,bln為偏置。f(·)為激勵函數,本質上是對卷積層輸出進行一次非線性映射[18],增加整個CNN 模型的非線性特性,常用的激勵函數有ReLU函數、sigmoid 函數、tanh 函數以及softplus 函數,4種激勵函數圖像如圖3所示。 圖3 4 種激勵函數Fig.3 Four kinds of activation function 相對于利用分類器分類人工提取的底質分類特征實現底質的分類,CNN方法將底質數據特征提取與分類兩個過程融為整體,利用自身網絡結構中的多個卷積核自下而上、由淺入深提取學習底質數據的特征,獨立得到底質數據全面綜合的特征信息后利用全連接層完成底質分類。在解決人工選取有效分類特征難點的同時通過自身模型的訓練優化自動得到最有效的分類特征,進而達到底質識別分類的目的。 LeNet-5[19]卷積神經網絡是Yann LeCun 于1998年提出用于手寫體數字識別的CNN,其網絡結構如圖4所示。該CNN 模型包含2 個卷積層、2 個池化層、2 個全連接層以及1 個softmax 輸出層,通過卷積、參數共享以及池化等操作對手寫體數字取得了優秀的識別率。 圖4 LeNet-5 卷積神經網絡結構示意圖[19]Fig.4 The schematic diagram of LeNet-5 CNN[19] 在本文中,以LeNet-5卷積神經網絡為基礎,構造包含2 個卷積層、2 個池化層和3 個全連接層共7層網絡層的CNN 模型。第一個卷積層的卷積核數量為6,核大小設置為5×5,進行卷積操作時的步長為1;第二個卷積層的卷積核數量增加到20,同時核大小減小為2×2,但卷積操作的卷積步長仍然保持不變為1。同時在2 個卷積層各帶有1 個池化層,池化核的大小均為2×2,統一設置池化步長為2,同時2 個池化層的池化方式均采用最大采樣。最后的3 個全連接層將輸入特征進行特征映射實現最后的底質分類目的。最終的CNN模型結構如表1所示。 表1 本文所采用的CNN 模型結構Table 1 The CNN model structure used in this paper 在本次實驗中,采用了美國加州州立大學海底測繪實驗室(SFML)在加利福尼亞州Scott Creek近海所采集的側掃聲吶圖像數據,采集記錄底質類型主要為沙、石和泥。由于底質的側掃聲吶圖像在成圖前已經經過系統誤差校正以及Lambert 校正,因此可以從圖像中提取一維數據作為底質信號。從沙、石和泥3 種底質圖像中分別提取300 條長度為256點的一維數據作為底質信號數據,3組底質數據中各隨機抽取250 條數據作為訓練樣本,剩余數據作為測試樣本,訓練樣本與測試樣本的比例為5:1。 由于實驗數據是從底質圖像中提取,假設每段數據是在1 s 的時間內采集,數據采樣率為256 Hz,最終前文所述的Gammatone 濾波器參數中增益c設為1,階數m設為4,濾波器個數設為64,中心頻率范圍為50~128 Hz。同時根據GFB 實際輸入數據長度將M設為6,K設為2。沙、石和泥經過GFB時頻分析得到的時頻譜(大小為64×84)如圖5所示,其中圖5(a)、圖5(b)、圖5(c)分別為沙、石和泥信號GFB時頻譜。 圖5 沙、石和泥的GFB 時頻譜Fig.5 The GFB time-frequency sperctrum of sand,rock and mud 在本文中,樣本訓練采用批次訓練,批次大小為50,每當全部數據訓練30 次后,學習率會以0.1倍數下降,損失函數采用交叉熵損失函數(Crossentropy error function),具體實驗流程如圖6所示。 圖6 實驗流程Fig.6 Experiment process 為了充分驗證利用構建的CNN 模型分類底質圖像信號GFB 時頻譜所達到的底質分類效果,在實驗中分別利用隨機梯度下降(Stochastic gradient descent,SGD)優化器和Adam優化器對CNN 模型進行優化,同時對分類結果進行比較分析。此外,通過設置初始學習率為0.01 和0.001 驗證上述優化器在不同學習率條件下的學習和分類能力。兩種優化器在不同初始學習率下訓練損失與測試準確率變化過程和測試準確率隨訓練次數變化結果分別如圖7和圖8所示。 圖7 兩種優化器不同初始學習率下訓練損失與測試準確率對比Fig.7 Comparison of training loss and test accuracy of two optimizers with different initial learning rates 圖8 兩種優化器不同初始學習率在不同訓練次數時的測試準確率Fig.8 The accuracy of the two optimizers with different initial learning rates at different training times 通過實驗結果可知,采用Adam優化器,初始學習率為0.01 時,訓練損失和測試準確率雖然在訓練過程中發生明顯起伏,但在訓練樣本訓練10次以后達到收斂;初始學習率為0.001 時,訓練損失和測試準確率在全部樣本訓練10次后同樣達到收斂,同時二者變化相對理想平穩;兩種初始學習率條件下的測試準確率最終逐步穩定在99%左右。采用SGD優化器,初始學習率0.01 時,訓練損失和測試準確率變化情況與Adam 優化器時的變化情況類似;而初始學習率為0.001 時,訓練損失和測試準確率收斂速度相對較慢,但在訓練過程中訓練損失和測試準確率變化平穩,兩種初始學習率條件下的測試準確率最終也逐步穩定在99%左右??傮w而言,本文提出的方法取得了較高的分類準確率,整體分類結果如表2所示。 表2 本文方法在不同初始學習率下的分類結果Table 2 Classification results of this method under different initial learning rates 為了驗證本文方法有效性,選取底質信號分類領域一些較為常見的方法進行比較,進行分類準確率對比。本文所采用方法的平均分類準確率達到99.15%,均高于其他方法(表3)。 表3 本文方法與其他方法比較Table 3 Comparison of the method in this paper with other methods 相同底質的信號時頻分析結果在局部細節和全局分布上具有較大的相似性,同時通過底質時頻分析數據訓練后的CNN 模型獲得了對數據局部細節和全局分布關注力度不同的卷積權重。當CNN模型對訓練集和測試集以外的數據進行分類識別時,會利用卷積權重著重聚焦新輸入數據的區域重點和全局趨勢,利用新輸入數據提取的綜合特征信息完成分類,因此本文方法會具有一定的泛化能力。為了驗證本文所提出方法的泛化能力,利用青島某海域和三亞某海域采集到的底質側掃聲吶圖像數據。其中,青島底質主要為泥,三亞底質主要為沙,分別從底質圖像中各提取1000 段長度為256 點的數據進行測試,最終的測試結果如表4所示。 表4 本文方法泛化能力驗證結果Table 4 Test results of generalization ability of this method 表4實驗結果表明,本文方法對于泥底質已經取得優異的分類效果,能夠達到分類目的;而對于沙底質和石底質,由于該兩種底質在物理特性上具有較大的相似性,分類效果并不是很理想。針對這一問題,可以增加CNN模型層數,進一步提高CNN模型對底質數據更深層次特征的學習能力,或者在訓練數據增加其他地方的沙底質和石底質數據樣本,提高本文方法對沙底質和石底質的泛化能力。最后,為了驗證上述方法對本文方法泛化能力的改進情況,采用增加數據樣本的方式,對3類底質計算得到的GFB時頻譜進行水平、垂直和水平垂直鏡像操作后,將訓練集合測試集擴充為原始數據的4 倍。利用擴充后數據對搭建的模型進行訓練后,再次利用上述青島沙和三亞泥數據集進行測試,改進結果如表5所示。 表5 改進后泛化能力驗證結果Table 5 The verification results of generalization ability after improvement 表5的改進結果證明通過增加訓練數據的數量可以提升本文方法的泛化能力,也為進一步提高泛化能力的深入研究提供了思路方向,最終實現在提高本文方法泛化能力的同時達到準確分類底質的目的。 本文將深度學習的思想應用到海底底質分類當中,將底質圖像信號的Gammatone 濾波器組時頻譜作為CNN 模型的輸入,進行底質的分類識別,取得了較高的分類準確率,分類準確率均優于其他常用底質分類的方法。同時,本文進一步驗證了所提出的方法對于泥底質具有很好的泛化能力,但對于沙底質和泥底質,泛化能力不強,需要通過增加CNN 模型層數或者增加沙和石底質訓練樣本數量來進一步完善本文提出的方法。此外,本文采用的底質信號數據集均提取于底質的側掃聲吶圖像,未來有待進一步使用原始的底質側掃數據進行研究論證,以實現在實際中的應用。2 CNN
2.1 CNN介紹


2.2 本文所構建的CNN模型


3 實驗過程及分析
3.1 實驗數據與實驗過程


3.2 實驗結果與分析






4 結論