李寶奇 黃海寧 劉紀元 劉正君 韋琳哲
(中國科學院聲學研究所 北京 100190)
(中國科學院先進水下信息技術重點實驗室 北京 100190)
合成孔徑聲吶 (Synthetic Aperture Sonar,SAS)是一種高分辨率水下成像聲吶,其基本原理是利用小孔徑基陣的移動形成虛擬大孔徑,從而獲得方位向的高分辨率。與普通側掃聲吶相比,SAS 最為顯著的優(yōu)點是方位向分辨率較高,且理論分辨率與目標距離以及采用的聲波頻段無關[1,2]。合成孔徑聲吶圖像目標檢測任務在水下無人平臺自主導航和搜索發(fā)揮著重要作用[3,4]。考慮水下目標尺寸的多樣性,即合成孔徑聲吶圖像中目標的尺度差別較大,這會進一步增加目標檢測的難度。
通過將深度學習[5—7]模型卷積神經網絡 (Convolutional Neural Networks,CNN)[8—10]嵌入到目標檢測模型之中,目標檢測精度在過去幾年中不斷提高,結合CNN的目標檢測算法可分為基于候選區(qū)域和基于回歸兩類。基于候選區(qū)域的算法主要有RCNN(Region-based Convolutional Neural Networks)[11],Fast R-CNN[12]和Faster R-CNN[13,14]等,此類算法檢測速度有待提高。為了提高模型的檢測速度,一些研究者開展了無區(qū)域建議的目標檢測研究,主要采用回歸的思想。Redmon等人[15]提出了一種無區(qū)域建議的目標檢測模型YOLO (You Only Look Once)。YOLO 通過采用空間限制,大大提高了效率,能夠達到實時的效果。但是YOLO的檢測精度不如Faster R-CNN。針對YOLO存在的不足,Liu等人[16]提出SSD (Single Shot Detector)模型。SSD通過融合6個尺度的特征來提高目標檢測的精度。雖然SSD單幅圖像檢測精度比YOLO有大幅的提高,不過檢測速度依然較慢。為了縮短SSD的檢測時間,Iandola等人[17]提出了基于FireModule的輕量化SqueezeNet網絡。FireModule主要是利用1×1的卷積層對輸入特征降維來降低模型的參數和計算量,同時也利用Inception[18]結構提高FireModule的特征提取能力。Howard等人[19]提出了輕量化的卷積神經網絡MobileNet V1。MobileNet V1用深度可分離卷積 (Depthwise Separable Convolution,DSC)替換標準卷積來減少模型的參數和計算量,它在不影響目標檢測精度的條件下能極大地提高SSD的檢測速度。不過,DSC的輸出很容易變?yōu)?,并且無法恢復。為此,Sandler等人[20]提出了MobileNet V1的改進版本MobileNet V2。MobileNet V2在深度可分離卷積的基礎上引入了ResNet中的shortcut connection結構,并設計了新的特征提取模塊IRB(Inverted Residual Block)。新模塊將原來的先“壓縮”后“擴張”調整為先“擴張”后“壓縮”,同時為了降低激活函數在高維信息向低維信息轉換時的丟失和破壞(DSC的輸出很容易變?yōu)?),將最后卷積層的激活層由非線性更改為線性。由于IRB卷積核尺寸單一,同時無法對特征進行有效區(qū)分,降低了模型對合成孔徑聲吶圖像水下目標的適應能力。
在卷積神經網絡卷積核選取和多尺度特征增強方面,Hu等人[21]提出了SE(Squeeze and Excitation)特征提取模塊。SE模塊首先對卷積得到的特征進行Squeeze操作,得到全局特征,然后對全局特征進行Excitation操作,得到不同特征的權重,最后乘以對應通道的特征得到最終特征。本質上,SE模塊是在特征維度上做選擇,這種注意力機制讓模型可以更加關注信息量最大的特征,而抑制那些不重要的特征。在此基礎上,Li等人[22]提出了SK(Selective Kernel)模塊可以針對目標物體的大小選擇不同的感受野。輸入特征首先經過SK模塊多尺度卷積層(使用分組卷積方式提升計算效率),然后融合所有尺度的特征圖,并計算不同尺度不同通道的權重,最后將多個尺度的特征融合成一個與輸入特征通道數相等的輸出特征,SK模塊提高了網絡對圖像目標的特征提取能力和適應能力。雖然SK模塊多尺度卷積層采用分組卷積降低了模型的參數和計算量,但參數依然較多、計算量依然較大。為了保證輸出通道與輸入通道一致,SK模塊的多個尺度的特征相加融合成一個,這必然會造成多尺度特征無法準確區(qū)分,進而降低SK模塊的特征提取能力。
受深度學習在計算機視覺領域取得突破進展的啟發(fā),近年來,國內外的研究學者利用深度學習技術提高SAS圖像水下目標識別的準確率。Williams[23]利用深度卷積神經網絡對SAS圖像目標進行分類識別,提高了SAS圖像目標的分類準確率。McKay等人[24]在深度卷積神經網絡的基礎上,通過遷移學習進一步提高了SAS圖像水下目標的分類準確率。Williams[25]通過分析深度卷積神經網絡的計算復雜度,選取參數更少的網絡來對水下目標進行分類識別。上述3種SAS圖像水下目標識別方法主要是利用CNN對SAS圖像進行分類識別,因此無法獲取圖像內目標的位置信息。
針對上述輕量化目標檢測方法及其改進方法對SAS圖像水下多尺度目標檢測精度低的問題,本文提出了一種可擴張、可選擇卷積核模塊 (Expand Selective Kernel,ESK),ESK通過優(yōu)化不同尺度特征層之間的融合方式來提高模塊的特征提取能力和利用深度可分離空洞卷積降低模塊的參數。接著,利用ESK模塊重新設計了SSD的基礎網絡和附加特征提取網絡,并為其選取了合理的參數。最后,在SSD框架內實現對合成孔徑圖像水下多尺度目標準確的檢測。
本節(jié)首先介紹新特征提取模塊ESK,接著介紹改進SSD模型結構,最后對網絡參數的選取進行了分析。
ESK模塊借鑒IRB模塊的“擴張壓縮”殘差結構和SK模塊的動態(tài)選擇機制:“ 擴張壓縮”殘差結構能有效增加深層網絡的梯度傳播,動態(tài)選擇機制允許每個神經元根據輸入信息的尺度自適應地調整其感受野大小[22],獲取信息量最大的特征,增加對水下多尺度目標的適應性。此外,利用深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC)[26]替換分組卷積減少模型的計算成本,DSDC首先將標準卷積分解成DSC和點卷積,然后在DSC中引入一個稱作空洞率[27,28]的新參數,并利用擴張率控制卷積核處理數據時各值的間距。同時,通過優(yōu)化不同尺度卷積層的輸入特征數量和融合方式來提高ESK模塊的特征提取能力。IRB模塊、SK模塊、ISK模塊和ESK模塊的結構關系如圖1所示。
圖1(a)為IRB模塊,模塊采用了反殘差網絡結構,即先對通道采取先“擴張” 后“壓縮”的策略,同時刪除了最后一個卷積層的激活函數,保留特征的多樣性。圖1(b)為SK模塊,SK模塊包括分裂層、多尺度分組卷積層、融合層和選擇層4個部分:分裂層是將輸入特征分別送入多尺度卷積層;多尺度分組卷積層負責提取輸入特征的不同尺度特征;融合層是將多尺度卷積層輸出的結果進行疊加融合;選擇層是計算多尺度多通道特征的權重系數,與多尺度特征相乘得到輸出特征。圖1(c)為SK模塊的IRB結構,記作ISK。ISK模塊由擴張層、分裂層、多尺度分組卷積層、融合層、選擇層和壓縮層組成。ISK是利用SK模塊直接替換IRB模塊中的深度可分離卷積。圖1(d)為本文提出的ESK特征提取模塊,ESK模塊由擴張層、切割層、多尺度深度可分離空洞卷積層、拼接層、選擇層和壓縮層組成。與ISK的主要區(qū)別為切割層、多尺度深度可分離空洞卷積層和拼接層。切割層負責將通道放大后的輸入特征按多尺度卷積核個數等分后分別送入不同尺度深度可分離空洞卷積層;多尺度深度可分離空洞卷積層負責提取輸入信息不同尺度上的特征信息;拼接層負責將多尺度深度可分離卷積層的輸出特征在通道上拼接合并。

圖1 ESK特征提取模塊
對于一個任意的輸入特征F∈ΦH×W×M,其中H×W為輸入特征的尺寸,M為輸入特征的通道數。輸入特征F進入ESK模塊的兩個支路網絡:左側支路負責多尺度特征提取和選擇;右側支路保持輸入特征F不變,并最后與左側支路網絡的輸出特征相加。對于左側支路網絡,輸入特征F首先經過擴張層,其輸出特征的數學表達式為

其中,F為原始輸入特征,U為經過擴張層后的特征,擴張層的卷積核尺寸為1×1,卷積核的數量為輸入特征通道的k倍,即k×M。
隨后,輸出特征U經切割層送入多尺度深度可分離空洞卷積層,其輸出特征的數學表達式為

其中,Vl為深度可分離空洞卷積層輸出的特征圖,特征圖尺寸為H×W,通道數為k×M/L,L為多尺度實際空洞濾波器(pRactical Dilated Filter,RDF)的類型數,例如RDF為3,5和7,則L=3。RDF尺寸與空洞率之間的關系為

其中,Krdf為該層RDF尺寸,κ為該層卷積核尺寸,R為該層空洞率大小。例如,一個卷積核尺寸為3×3,空洞率R=2的空洞卷積層,RDF的實際覆蓋范圍為5×5,即Krdf=5。進一步增大空洞率R來擴大卷積層的感受野。因此,ESK可以用更少的參數和計算量實現與ISK相當的特征提取能力。
接著,對L個多尺度深度可分離空洞卷積層的輸出Vl在通道項進行拼接融合,其輸出特征的數學表達式為

其中,V為拼接融合后的輸出特征,輸出特征圖的尺寸H×W,通道數為k×M與擴張后的通道數相等。
然后,對拼接融合后的輸出特征V的進行通道選擇,多尺度通道選擇系數的數學表達式為

其中,s為多尺度通道的選擇系數,s∈Φ1×(k×M);Pg()為全局池化函數,輸出特征維度為Φ1×(k×M);fc為第1全連接層,輸出特征維度為Φ1×d,其中d=32;fcs為第2全連接層,輸出特征維度為Φ1×(k×M);softmax()為歸一化指數函數。多尺度通道選擇系數(式(5))與輸出特征相乘得到選擇后的輸出特征,其數學表達式為

其中,V ′為通道選擇后的多尺度通道特征。
接著,對V ′進行通道壓縮,數學表達式為

其中,F′為通道壓縮后的多尺度通道特征。
通過上面的計算,最后可以得到ESK模塊的輸出特征數學表達式為

其中,G為ESK模塊的輸出特征,G∈ΦH×W×M,特征圖尺寸為H×W,通道數為M。
基于ESK模塊的SSD水下目標檢測模型結構如圖2所示,記作SSD-MV2ESK,包括基礎網絡(MobileNet V2ESK)、附加特征提取網絡 (ESKAN)、Default boxes生成和卷積預測4個部分。

圖2 基于ESK模塊的SSD目標檢測模型
基礎網絡MobileNet V2ESK與MobileNet V2的網絡結構保持一致,利用ESK模塊替換IRB模塊實現。SSD-MV2ESK附加特征提取網絡一共提取6個尺度的特征,MobileNet V2ESK中的第14層Conv14和第19層Conv19的輸出作為附加特征提取網絡的第1特征層和第2特征層,特征圖尺寸為19×19和10×10;Conv19_1,Conv19_2,Conv19_3和Conv19_4作為附加特征提取網絡的第3—第6尺度特征層,4個特征層的輸出特征圖尺寸為5×5,3×3,2×2和1×1。Default Boxes生成部分根據預先定義的scales和aspect ratios從上述6個尺度的特征層中提取數量和大小不同的候選框;卷積預測部分則是對候選框內目標的類型和位置進行判斷,并利用非極大值抑制算法對候選框內目標進行優(yōu)化。SSD-MV2ESK與目標檢測模型SSD的訓練過程[16]一樣。
對于M個尺寸為DH×DW的輸入特征圖F,經尺寸為DK×DK的卷積核操作后,輸出N個尺寸為DH×DW的特征圖G,其中M是輸入通道數,N是輸出通道數,DH和DW是輸入(出)的特征圖的寬度和高度。為了便于計算和分析,限定輸入通道數M等于輸出通道數N,輸入(出)特征圖尺寸DH等于DW,圖1(a)的DK×DK等 于3×3,圖1(b)、圖1(c)和圖1(d)的多尺度通道數L=3。同時,省略參數或計算量較少的網絡層,例如shortcut connection層、BN層、分裂層、分割層、融合層和拼接層。
IRB模塊的生成特征圖G的計算成本為

其中,第1項為擴張層的計算成本,第2項為深度可分離卷積層的計算成本,第3項為壓縮層的計算成本。
SK 模塊生成特征圖G的計算成本為

其中,第1項為多尺度卷積層的計算成本,第2和第3項為選擇層的計算成本。
ISK模塊生成特征圖G的計算成本為

其中,第1項為擴張層的計算成本,第2項為多尺度分組卷積層的計算成本,第3和第4項為選擇層的計算成本,第5項為壓縮層的計算成本。
ESK 模塊生成特征圖G的計算成本為

其中,第1項為擴張層的計算成本,第2項為多尺度深度可分離卷積層的計算成本,第3和第4項為選擇層的計算成本,第5項為壓縮層的計算成本。
ISK模塊與IRB模塊的計算成本比值為

當多尺度系數L=3時,對于式(13),當M取值較大時,ISK模塊的計算成本與IRB的計算成本比值約等于k+1;對于式(14),ESK模塊的計算成本與IRB的計算成本比值基本相同。
對于由ESK模塊組成的SSD-MV2ESK網絡,由式(12)可以發(fā)現,擴張系數k對SSD-MV2ESK模塊的計算成本影響較大,而多尺度系數L基本上對SSD-MV2ESK模塊的計算成本沒有影響。除上述因素外,SK,ISK和ESK在Pytorch深度學習框架內通過一個循環(huán)結構實現多尺度卷積組的設計,即每次僅進行一個尺度的卷積運算,因此,多尺度系數L會影響SSD-MV2ESK的計算時間。鑒于上述原因,擴張系數k主要影響 SSD-MV2ESK的模型參數,多尺度系數L主要影響SSD-MV2ESK的計算時間。為了平衡SSD-MV2ESK模型檢測精度、參數大小和檢測時間,基礎網絡中ESK模塊的擴張系數k=4,多尺度系數L=4,附加特征提取網絡中Conv19_1,Conv19_2,Conv19_3和Conv19_4的擴張系數以此為0.2,0.25,0.5和0.25,多尺度系數依次為4,2,2和1。
為了驗證ESK的有效性以及擴張系數和多尺度系數對SSD-MV2ESK性能的影響,實驗以mAP、參數大小和平均檢測時間作為模型定量評價指標。設計實驗1,以SSD-MV2(基礎網絡為MobileNet V2,特征提取網絡為IRBAN)為參考,比較分析不同輕量化目標檢測模型之間的性能差異。考慮ESK模塊在SSD-MV2ESK基礎網絡和附加特征提取網絡中占的比重,實驗僅分析基礎網絡中擴張系數和多尺度系數對SSD-MV2ESK性能的影響。設計實驗2,以基礎網絡MobileNet V2ESK中擴張系數為研究對象,比較分析不同擴張系數對SSDMV2ESK性能的影響。設計實驗3,以基礎網絡MobileNet V2ESK中多尺度系數為研究對象,比較分析不同多尺度系數對SSD-MV2ESK性能的影響。為了進一步驗證ESK模塊對水下多尺度目標的適用性,設計實驗4,以單尺度的MobileNet V2ESK分類結果為參考,比較分析不同多尺度系數的MobileNet V2ESK對水下多尺度目標特征提取效果。實驗平臺基于Dell PowerEdge R730深度學習服務器,操作系統(tǒng)為RedHat Enterprise linux 7.5、環(huán)境管理軟件為Anaconda3、深度學習框架為Torch 1.3.1和Torchvision 0.4.2等;CPU處理器為Intel E5-2603 V4、內存大小是32 GB、GPU計算單元為兩個V100(16 GB)。輸入圖像的尺寸被剪切為300像素×300像素、BatchSize=32、學習率=0.001、所有模型均在V100(16 GB)上進行訓練和測試。
為了更好地檢驗SSD-MV2ESK對合成孔徑聲吶圖像水下多尺度目標的檢測性能,本文建立了一個水下多尺度目標檢測數據集:SST-DET。SSTDET數據集主要為高頻合成孔徑聲吶圖像,采集地點包括千島湖、丹江口等地,包括3種水下目標:圓柱形目標、線纜和疑似物,共計704幅圖像,其中633幅用于模型訓練,71幅圖像用于模型測試,如表1所示。圓柱體和疑似物目標的像素比約為0.05,線纜目標在圖像某一個方向上的像素比大于0.5。從這個角度認定圓柱體和疑似物為小尺寸目標,線纜屬于大尺寸目標。

表1 合成孔徑聲吶水下多尺度目標檢測數據集組成
本實驗比較分析SSD-SQ[21],SSD-MV1[19],SSD-MV2[20],SSD-MV2ISK[22]與本文目標檢測方法SSD-MV2ESK在數據集SST-DET上的性能差異。SSD-SQ的基礎網絡為SqueezeNet,特征提取網絡為OAN;SSD-MV1的基礎網絡為Mobile-Net V1,特征提取網絡為OAN;SSD-MV2的基礎網絡為MobileNet V2,特征提取網絡為IRBAN;SSD-MV2ISK的基礎網絡為基于ISK模塊的MobileNet V2ISK網絡,附加特征提取網絡為基于ISK模塊的ISKAN網絡;SSD-MV2ESK的基礎網絡為MobileNet-V2ESK,特征提取網絡為ESKAN。分別記錄檢測模型在迭代1000次時對SST-DET測試數據集的mAP數值、參數大小和平均檢測時間。
從表2可以發(fā)現,SSD-MV2ESK的檢測精度比SSD-SQ,SSD-MV1,SSD-MV2和SSD-MV2ISK分別高16.18%,7.62%,4.71%和2.21%;模型參數比SSD-SQ和SSD-MV2分別高6 MB和0.1 MB,比SSD-MV1和SSD-MV2SK分別低15.1 MB和46.8 MB;檢測時間比SSD-SQ,SSD-MV1和SSD-MV2分別高35.42 ms,36.2 ms和28.77 ms,比SSD-MV2SK減少32.96 ms。SSD-MV2ESK檢測精度最高為75.08%,SSD-SQ的檢測精度最低為58.90%;SSDSK的模型參數最大為59.4 MB,SSD-SQ的模型參數最小為7.51 MB;SSD-SK的檢測時間最多為79.63 ms,SSD-MV1的檢測時間最少為10.47 ms。雖然SSD-MV2ISK比SSD-MV2的檢測精度提高2.5%,但模型的參數和檢測時間均大幅提升。綜合考慮檢測精度(mAP)、參數大小和平均檢測時間3個因素,SSD-MV2ESK優(yōu)于其他檢測模型,更適合基于合成孔徑聲吶圖像水下多尺度目標檢測任務。

表2 目標檢測模型性能比較
為了更直觀地說明SSD-MV2ESK對合成孔徑圖像水下多尺度目標的檢測效果,利用訓練20000次的SSD-MV2ESK模型分別對3種水下目標圖像進行檢測,檢測結果如圖3所示。從圖3可以看出,SSD-MV2ESK模型對3種水下多尺度目標能實現準確檢測。

圖3 SSD-MV2ESK對合成孔徑聲吶水下多尺度目標的檢測效果圖
本實驗比較基礎網絡不同擴張系數對SSDMV2ESK性能的影響。基礎網絡SSD-MV2ESK的多尺度系數等于1,擴張系數分別為1,5,10,15,20和40。附加特征提取網絡的擴張系數依次為0.2,0.25,0.5和0.25,多尺度系數依次為4,2,2和1。記錄模型迭代1000次時模型對SST-DET測試數據集的mAP數值、平均檢測時間和參數大小。
從表3可以看出,SSD-MV2ESK隨基礎網絡擴張系數的增加檢測精度逐漸增加,當擴張系數等于40時,SSD-MV2ESK的檢測精度已經達到85.29%。另外,SSD-MV2ESK模型參數隨基礎網絡擴張系數增加也不斷增大,當擴張系數等于40時,SSDMV2ESK的模型參數已經達到256 MB,不過SSDMV2ESK的檢測時間并沒有隨擴張系數的增加有明顯的變化。擴張系數等于10、多尺度系數等于1時SSD-MV2ESK的檢測精度與擴張系數等于4、多尺度系數等于4時SSD-MV2ESK 的檢測精度基本相同(實驗1),不過模型參數已經達到30.5 MB,明顯高于擴張系數等于4、多尺度系數等于4時SSDMV2ESK模型參數12.6 MB。換句話說,雖然增大擴張系數能提高SSD-MV2ESK的檢測精度,但模型參數的增加也比較明顯,在相同的檢測精度條件下,僅依靠增加擴張系數的SSD-MV2ESK比擴張系數和多尺度系數結合的SSD-MV2ESK要付出更多的存儲空間。

表3 基礎網絡擴張系數對SSD-MV2ESK性能的影響
本實驗比較基礎網絡不同多尺度系數對SSDMV2ESK性能的影響。基礎網絡SSD-MV2ESK的擴張系數等于4,多尺度系數分別為1,2和4(3,5,6沒有數據,主要是因為它們無法保證每個多尺度輸入通道數為整數)。記錄模型迭代1000次時對SST-DET測試數據集的mAP數值、平均檢測時間和參數大小。
從表4可以看出,SSD-MV2ESK隨基礎網絡多尺度系數的增加檢測精度增大,模型參數基本不變,檢測時間存在明顯增加。在深度學習Pytorch框架內,多尺度深度可分離空洞卷積層采用循序并行化結構設計,但在前向傳播過程中每個多尺度卷積層是依次進行的,導致SSD-MV2ESK運算時間隨多尺度系數增加。雖然增加多尺度系數能提高SSDMV2ESK模型的檢測精度,但模型的運算時間也存在明顯的增加,因此,結合擴張系數和多尺度系數對SSD-MV2ESK是更好的選擇。

表4 基礎網絡多尺度系數對SSD-MV2ESK性能的影響
為了進一步說明ESK模塊對水下多尺度目標的適用性,在MobileNet V2的基礎上,利用ESK模塊設計3個輕量化目標分類網絡MobileNet V2_4_1,MobileNet V2_4_2和MobileNet V2_4_4,3個模型分類網絡的擴張系數等于4、多尺度系數分別為1,2和4。用于分類測試實驗的合成孔徑圖像水下多尺度目標分類數據集為SAS-DET中的703幅圖像,其中訓練樣本集個數638幅圖像,測試樣本集數量65幅圖像。模型訓練Batchsize等于32、學習率等于0.01、迭代次數等于100。記錄3個模型迭代100次過程中最高的分類準確率,實驗結果如表5所示。

表5 模型分類準確率(%)
從表5可以發(fā)現,MobileNet V2_4_4的最高分類準確率比MobileNet V2_4_1和MobileNet V2_4_2分別高6.06%和1.51%。由于3個網絡的擴張系數相同,即輸入給多尺度深度可分離卷積組的特征數量是一樣的,具有更多尺度的MobileNet V2_4_2和MobileNet V2_4_4比單尺度MobileNet V2_4_1的分類準確率高間接地明ESK模塊對水下多尺度目標具有更好的適應性。
實驗從mAP、平均檢測時間和參數大小3個方面比較了本文合成孔徑聲吶圖像水下多尺度目標檢測方法SSD-MV2ESK與經典輕量化目標檢測算法(SSD-SQ和SSD-MV1)和最新算法(SSD-MV2和SSD-MV2ISK)性能上的差異,也進一步分析了基礎網絡的擴張系數和多尺度系數的選取如何影響SSD-MV2ESK的性能,同時也間接驗證了ESK模塊對水下多尺度目標的適用性。ESK模塊結合IRB模塊和SK模塊的優(yōu)點,并利用深度可分離空洞卷積替換分組卷積和優(yōu)化輸入特征分配和結合方式改善了模塊的性能。通過原理和計算成本定量分析發(fā)現擴張系數對SSD-MV2ESK模型的計算成本影響較大,多尺度系數對模型計算成本影響較小。不過,由于在深度學習框架Pytorch內多尺度卷積組采用循序計算方式,將導致SSD-MV2ESK模塊運算時間隨多尺度系數增加而增加。雖然單獨增加擴張系數和多尺度系數均能提高SSD-MV2ESK對水下多尺度目標的檢測精度,但為了平衡檢測精度、模型大小和計算時間,SSD-MV2ESK的擴張系數和多尺度系數均等于4。
SSD-SQ通過通道壓縮來降低模型的計算量和參數,SSD-MV1通過標準卷積分解來降低模型的計算量和參數。通道壓縮會引起激活函數在高維信息向低維信息轉換時特征的丟失和破壞,SSD-SQ的較低的檢測精度(58.90%)也證實了這一觀點。SSD-MV2利用IRB特征提取模塊重新設計了SSDMV1的基礎網絡和附加特征提取網絡,通過“擴張壓縮”來提高深度可分離卷積層的特征提取性能,同時降低模型的參數。SSD-MV2比SSD-MV1的模型參數大幅降低,減少15.2 MB,同時檢測精度也有提升,提升2.5%。SSD-MV2ISK則是利用ISK模塊替換SSD-MV2中的IRB模塊,雖然SSD-MV2ISK的檢測精度比SSD-MV2有所提升,但代價是成倍的模型參數和計算時間。SSD-MV2ESK通過合理選擇擴張系數和多尺度系數,可以較好地平衡檢測精度、模型大小和計算時間。更重要的是,在相同的擴張系數和多尺度系數條件下,SSD-MV2ESK比SSD-MV2ISK檢測精度更高、模型參數更少、檢測時間更短。
對于合成孔徑圖像水下多尺度目標而言,在保持檢測精度的同時需兼顧模型參數大小和檢測時間,結合實驗1、實驗2和實驗3的結果,顯然結合擴張系數和多尺度系數的SSD-MV2ESK更適合合成孔徑聲吶多尺度目標的檢測任務。實驗4也進一步地證明了ESK模塊對水下多尺度目標的適用性。
合成孔徑聲吶圖像水下多尺度目標檢測任務具有重要的理論研究和實際應用價值。在SSD檢測模型框架內,本文提出了一種多通道、通道可擴張且可選擇的卷積模塊ESK,并利用ESK重新設計了SSD的基礎網絡和附加特征提取網絡。ESK有效提升SSD對合成孔徑聲吶圖像水下目標的檢測精度,并經理論分析和仿真實驗證明了ESK特征提取模塊對SAS圖像水下多尺度目標的有效性。
對于基于SSD的合成孔徑聲吶圖像水下多尺度目標檢測任務,改進Default Boxes生成策略同樣能提升SSD模型的性能。下一步的研究重點包括:(1)研究適合捕獲合成孔徑聲吶圖像水下多尺度目標特征的Default Boxes生成策略;(2)研究更加輕量化的合成孔徑聲吶圖像水下多尺度目標特征提取模塊。