李寶奇 黃海寧 劉紀元 劉正君 韋琳哲
(中國科學院聲學研究所 北京 100190)
(中國科學院先進水下信息技術重點實驗室 北京 100190)
我國海洋裝備體系正朝著無人化、智能化的方向快速發展。光學成像具有信息豐富、分辨率高和成本低等優點,是水下近距離環境感知的主要手段,廣泛用于海底物種監測、無人潛航器導航、定位、避障和目標識別等多種場合[1,2]。然而,水下目標在不同觀察距離和視角下通常會呈現不同的特征,尤其是水下非剛性目標,增加了水下光學圖像目標檢測識別的難度。
基于傳統特征的水下目標檢測與識別方法通過特征描述符(顏色特征、形狀特征、紋理特征等)刻畫水下目標物體[3],具有方法簡單、實時性好的優點,但易受目標物體尺寸變化、旋轉、被遮擋和拍攝角度變化的影響。隨著深度學習[4—6]技術的興起,研究學者利用深度卷積神經網絡(Convolutional Neural Networks, CNN)提高水下光學圖像目標分類的準確率[7,8]。不過,分類任務是對圖像整體的描述,無法確認目標在圖像中的準確位置。近年來,基于CNN的目標檢測模型在一個框架內實現了目標檢測和識別的統一,目標檢測模型可分為基于候選區域和基于回歸兩類,其中基于候選區域的模型主要代表有R-CNN[9], Fast R-CNN[10]和Faster R-CNN[11]等,基于回歸思想的模型主要代表有YOLO (You Only Look Once)[12]和SSD(Single Shot Detection)[13],其中SSD模型較好地兼顧了檢測精度和檢測速度。為了縮短SSD的檢測時間,Iandola等人[14]提出了輕量化網絡SqueezeNet。SqueezeNet主要是利用1×1的卷積層對輸入特征降維來降低模型的參數和計算量,同時也利用Inception[15]結構提高FireModule的特征提取能力。Howard等人[16]提出了輕量化的卷積神經網絡MobileNet V1。MobileNet V1用深度可分離卷積 (Depthwise Separable Convolution, DSC) 替換標準卷積來減少模型的參數和計算量,計算成本約為標準卷積的1/9。基于MobileNet V1的SSD-MV1模型目標檢測速度也得到了極大的提升,但檢測精度略有降低。為此,Sandler等人[17]提出了MobileNet V1的改進版本MobileNet V2。MobileNet V2在深度可分離卷積的基礎上引入了ResNet中的shortcut connection結構,并設計了新的特征提取模塊逆殘差模塊(Inverted Residual Block, IRB)。新模塊將原來的先“壓縮”后“擴張”調整為先“擴張”后“壓縮”。IRB模塊利用擴張壓縮的計算方式進一步減少計算量,引入了ResNet中的shortcut連接提高模塊的特征提取能力。基于Mobilenet V2的SSD-MV2較好地兼顧了目標檢測精度和檢測速度,但對存在一定形變的水下光學圖像目標檢測精度有待提高。
為了提高卷積神經網絡的特征提取能力,Hu等人[18]提出了壓縮激勵(Squeeze and Excitation,SE)特征提取模塊。SE模塊首先對卷積得到的特征進行壓縮操作,得到全局特征,然后對全局特征進行激勵操作,得到不同特征的權重,最后乘以對應通道的特征得到最終特征。本質上,SE模塊是在特征維度上做選擇,這種注意力機制讓模型可以更加關注信息量最大的特征,而抑制那些不重要的特征。另外,Dai等人[19]提出了可變形卷積網絡(Deformable Convolutional Networks, DCN)。DCN加入1個偏移量使其可以自由變形,從而提升卷積神經網絡的幾何變換建模能力,提高對不規則物體、非剛性目標及復雜環境下目標的檢測效果。
為此,本文針對SSD-MV2及其改進算法存在的不足提出了兩種特征提取模塊:一種是通道可選擇的輕量化特征提取模塊(Selective and Efficient Block, SEB);一種是通道可選擇和卷積核可變形的特征提取模塊(Selective and Deformable Block,SDB),SEB模塊在IRB模塊基礎上引入了通道可選擇組件,SDB模塊在IRB模塊基礎上引入了通道可選擇組件和卷積核可變形組件。接著,利用SEB模塊和SDB模塊分別重新設計了目標檢測模型SSD的基礎網絡和附加特征提取網絡,新的基礎網絡和附加特征提取網絡對水下光學圖像目標具有更好的適用性。最后,在SSD框架內實現對水下光學圖像感興趣目標準確的檢測識別。
水下目標具有形態多樣的特點,本文通過改進SSD-MV2基礎網絡和附加特征提取網絡特征提取模塊來提高水下光學圖像目標檢測精度。
為了提高目標檢測模型對水下光學圖像目標的檢測精度,本文在IRB模塊的基礎上提出了兩種特征提取模塊:SEB模塊和SDB模塊,如圖1所示。SEB在IRB模塊[17]內引入了通道可選擇組件,SDB在IRB模塊[17]內引入了通道可選擇組件和卷積核可變形組件,其中通道可選擇組件并不顯著增加計算成本[18],卷積核可變形組件計算成本增加顯著[19]。事實上,通道可選擇組件和卷積核可變形組件是相互獨立的,而且都是提升網絡特征提取能力的有效手段:通道可選擇組件利用注意力機制選擇最有價值的通道數據來提高網絡的性能,卷積核可變形組件利用卷積核形變準確捕捉目標特征來提高網絡的性能。鑒于SEB是SDB的簡化版本,本文僅對SDB模塊進行說明和分析,SDB模塊沿用反殘差網絡結構,即先對通道采取先“擴張” 后“壓縮”的策略,并由擴張層、可變形卷積組件、通道可選擇組件和壓縮層組成,其中擴張層負責輸入特征通道擴張;可變形卷積組件通過學習改變卷積核形態提取水下感興趣目標特征;通道可選擇組件通過學習權重選擇包含重要信息的通道;壓縮層負責將特征通道壓縮成與輸入特征的一致的數量。
對于一個任意的輸入特征D ∈ΦH×H×M,其中H×H為輸入特征的尺寸,M為輸入特征的通道數。輸入特征D進入SDB模塊的兩個支路網絡:下側支路負責水下感興趣目標特征提取和選擇;上側支路保持輸入特征D不變,并最后與下側支路網絡的輸出特征相加。對于下側支路網絡,輸入特征D首先經過擴張層,其輸出特征的數學表達為
其中,D為原始輸入特征,Dex為經過擴張層后的特征,擴張層的卷積核尺寸為1×1,卷積核的數量為輸入特征通道的k倍,即k×M。
隨后,輸出特征Dex送入可變形卷積組件,其輸出特征的數學表達式為
其中,Dde(p0)表示以p0為中心的可變形卷積組件輸出特征,W(pn)表示卷積核權重,pn是對R中所列位置的枚舉,R={(-1,-1),(-1,0),...,(0,1),(1,1)},Δpn是pn的偏移量。在實際計算過程中,并不是真正改變卷積核的形狀,而是對輸入特征重新整合,變相地實現卷積核的形變。也就是說,在輸入圖像的偏置特征圖上利用標準卷積求得最終的輸出特征。
通常Δpn為小數,非整數的坐標(p=p0+pn+Δpn)無法在圖像上使用的,具體實現通過雙線性插值尋找距離這個對應坐標最近的4個特征點來計算該點的值
其中,q表示距離p最近的4個特征點,G(q,p)表示對應的系數,由偏移量(offsets)計算得到。可變形卷積組件為了保留輸入圖像的邊沿特征,需要對其進行零填充(zero_padding)。理論上,對一個填充后不小于卷積核尺寸的特征圖,可變形卷積組件依然能夠計算。只不過,當填充后的特征圖中有效特征點較少時,雙線性插值重構的特征圖并不會產生更多的有用信息。
然后,輸出特征Dde送入通道選擇組件,其輸出特征的數學表達式為
其中,Dse為通道選擇后的通道特征,s為通道的選擇系數,s ∈Φ1×(k×M);Pg()為全局池化函數,輸出特征維度為Φ1×(k×M);f1為第1全連接層,輸出特征維度為Φ1×d,其中d=16;f2為第2全連接層,輸出特征維度為Φ1×(k×M);softmax()為歸一化指數函數。
接著,對Dse進行通道壓縮,數學表達式為
其中,D′為通道壓縮后的特征。
通過上面的計算,最后可以得到SDB模塊的輸出特征數學表達式為
其中,D為SDB模塊的輸出特征,D ∈ΦH×H×M,特 征圖尺寸為H×H,通道數為M。
SEB在IRB的基礎上引入了通道可選擇組件,通道可選擇組件主要由兩個全連接層組成,計算成本相對較低。SDB在IRB的基礎上引入了通道可選擇組件和可變形卷積組件,可變形卷積組件新增雙線性插值計算和兩個卷積層計算成本相對較高。為了兼顧SSD-MV2SDB模型的性能,基礎網絡采用了輕量化的SEB模塊,附加特征提取網絡采用目標適應性更強的SDB模塊。改進的SSD水下目標檢測模型結構如圖2所示,記作SSD-MV2SDB,包括基礎網絡、特征提取網絡、候選框生成和卷積預測4個部分。基礎網絡MobileNet V2SEB與MobileNet V2的網絡結構保持一致,利用SEB模塊替換IRB模塊實現。特征提取網絡一共提取6個尺度的特征,MobileNet V2SEB中的第14層Conv14和第19層Conv19作為特征提取網絡的第1特征層和第2特征層,輸入特征圖尺寸為38×38和19×19,輸出特征圖尺寸為19×19和10×10;Conv20_1, Conv20_2,Conv20_3和Conv20_4作為特征提取網絡的第3、第4、第5和第6尺度特征層,輸入特征圖尺寸為10×10, 5×5, 3×3和2×2,輸出特征圖尺寸為5×5, 3×3, 2×2和1×1。Conv20_1, Conv20_2,Conv20_3和Conv20_4 4個卷積層也稱作附加特征提取網絡,與基礎網絡中的Conv14和Conv19兩個尺度的特征層相比,附加特征提取網絡中的特征區分度更高,對水下感性目標的檢測識別更有幫助。因此,本文利用SDB模塊替換附加特征提取網絡中的I R B 模塊,但考慮最后1 個特征提取層Conv20_4的輸入特征圖尺寸為2×2,有效特征點少,因此C o n v 2 0_4 依然采用S E B 模塊,即Conv20_1,Conv20_2和Conv20_3采用SDB模塊,Conv20_4采用SEB模塊。候選框生成部分根據預先定義的尺度(scales)和縱橫比(aspect ratios)從上述6個尺度的特征層中提取數量和大小不同的候選框;卷積預測部分則是對候選框內目標的類型和位置進行判斷,并利用非極大值抑制算法對候選框內目標進行優化。
SSD-MV2SDB基礎網絡和附加特征提取網絡中模塊參數選取參考了SSD-MV2模塊的設計原則:基礎網絡中模塊采用擴張系數大于1、壓縮系數小于1(先擴張后壓縮)的計算方式,附加特征提取網絡模塊采用擴張系數小于1,壓縮系數大于1(先壓縮后擴張)的計算方式,為了便于研究依然稱SEB模塊和SDB模塊的第1個卷積層和最后1個卷積層為擴張層和壓縮層。附加特征提取網絡模塊采用擴張系數小于1、壓縮系數大于1的計算方式主要是為了保持與SSD-MV2具有相同的通道數,另外降低網絡的計算成本。具體地,本文SSD-MV2SDB附加特征提取網絡Conv20_1, Conv20_2和Conv20_3的初始通道數分別為1280, 512和256,擴張層的卷積核尺寸為1×1,擴張系數分別為0.2,0.25和0.5,即擴張后的通道數分別為256, 128和128,可變形組件和通道可選擇組件并不影響輸入特征的尺寸和通道數,壓縮層的卷積核尺寸為1×1,壓縮系數分別為5, 4和2,最終的輸出通道數分別為1280, 512和256。
為了驗證SSD-MV2SDB模型的有效性以及基礎網絡SEB模塊擴張系數和附加特征提取網絡SDB模塊數量對模型性能的影響,實驗以mAP,參數大小和平均檢測時間作為定量評價指標。設計實驗1,以SSD-MV2(基礎網絡和附加特征提取網絡的特征提取模塊為IRB)為參考,比較分析不同輕量化目標檢測模型之間的性能差異。設計實驗2,以基礎網絡SEB模塊擴張系數為研究對象,比較分析不同擴張系數對SSD-MV2SDB模型性能的影響。設計實驗3,以附加特征提取網絡SDB模塊數量為研究對象,比較分析不同數量的SDB對SSD-MV2SDB模型性能的影響。
為了更好地檢驗SSD-MV2SDB模型對水下光學圖像感興趣目標的檢測識別性能,本文建立了一個水下光學圖像感興趣目標檢測數據集(Underwater Optical Interest DEtection Target, UOIDET)。UOI-DET共計1135幅圖像,包括方框、漁網、蛙人、UUV和球體5類目標,其中1035幅用于模型訓練,100幅圖像用于模型測試,如表1所示。圖像采集地點為千島湖,采集時間為2020年11月,目標與水下圖像采集設備距離在3~10 m。

表1 水下圖像目標檢測數據集組成(幅)
本實驗比較分析SSD-MV2, SSD-MV2SEB,SSD-MV2IRBD與本文目標檢測方法SSD-MV2SDB在數據集UOI-DET上的性能差異。SSD-MV2的基礎網絡的特征提取模塊為IRB,附加特征提取網絡的特征提取模塊為IRB,其中基礎網絡IRB模塊的擴張系數等于4;SSD-MV2SEB的基礎網絡的特征提取模塊為SEB,附加特征提取網絡的特征提取模塊為SEB,其中基礎網絡SEB模塊的擴張系數等于4;SSD-MV2IRBD的基礎網絡的特征提取模塊為SEB,附加特征提取網絡為IRBD模塊,其中基礎網絡SEB模塊的擴張系數等于4,IRBD表示在IRB模塊中引入了可變形卷積模塊[19];SSDMV2SDB的基礎網絡的特征提取模塊為SEB,附加特征提取網絡Conv20_1, Conv20_2和Conv20_3為SDB模塊,Conv20_4為SEB模塊。分別記錄目標檢測模型在迭代500次時對UOIDET測試數據集的mAP、參數大小和平均檢測時間,實驗結果如表2所示。
從表2可以發現,SSD-MV2SDB的檢測精度比SSD-MV2, SSD-MV2SEB和SSD-MV2IRBD分別高3.04%, 2.19%和1.31%,模型參數分別多4.7 MB,3.9 MB和0.1 MB,運算時間分別高6.66 ms,3.85 ms和0.34 ms。通道可選擇組件和卷積核可變形組件對提高水下光學圖像感興趣目標的檢測識別精度都有幫助,不過均增加了一定的計算成本,并且可變形組件的計算成本更高。從檢測識別精度角度考慮,SSD-MV2SDB更適合基于水下光學圖像感興趣目標檢測任務。

表2 目標檢測模型性能比較
為了更直觀地說明SSD-MV2SDB對水下光學圖像感興趣目標的檢測效果,利用SSD-MV2SDB模型對3種類型的水下感興趣目標進行檢測,結果如圖3所示。從圖3可以看出,SSD-MV2SDB算法對水下感興趣目標能實現準確檢測識別。
本實驗比較SSD-MV2SDB基礎網絡SEB模塊不同擴張系數對SSD-MV2SDB性能的影響。SSD-MV2SDB附加特征提取網絡Conv20_1,Conv20_2和Conv20_3為SDB模塊,Conv20_4為SEB模塊,基礎網絡的SEB模塊擴張系數分別為2,4, 6和8。記錄模型迭代500次時模型對UOI-DET測試數據集的mAP、平均檢測時間和參數大小,實驗結果如表3所示。
從表3可以看出,SSD-MV2SDB的檢測精度隨基礎網絡SEB模塊擴張系數的增加逐漸增加,當擴張系數等于8時,SSD-MV2SDB的檢測精度已經達到97.76%。與此同時,SSD-MV2SDB模型參數隨基礎網絡擴張系數增加也不斷增大,當擴張系數等于8時,SSD-MV2SDB的模型參數已經達到20.4 MB。事實上,SSD-MV2SDB的檢測時間并沒有隨擴張系數的增加有明顯的變化,主要是由于SEB模塊沿用了IRB模塊的深度可分離計算方式。增大擴張系數能提高SSD-MV2SDB的檢測精度,但模型參數的增加也比較明顯,擴張系數為8的SSD-MV2SDB比擴張系數為2的SSD-MV2SDB參數增加8.3 MB。另外,與擴張系數等于4時的SSD-MV2SDB相比,擴張系數等于6或8的 SSD-MV2SDB的檢測精度并沒有明顯增加,僅增加0.05%和0.48%。綜合考慮檢測精度、參數大小和運算時間3個評價指標,擴張系數等于4的SSD-MV2SDB效果最好。

表3 基礎網絡擴張系數對SSD-MV2SDB性能的影響
本實驗比較附加特征提取網絡中SDB數量對SSD-MV2SDB性能的影響。基礎網絡SEB模塊擴張系數等于4,附加特征提取網絡中SDB模塊的數量分別為0, 1, 2和3,其中0表示附加特征提取網絡均為SEB模塊的SSD-MV2SEB模型,1表示附加特征提取網絡僅Conv20_1為SDB模塊,2表示附加特征提取網絡Conv20_1和Conv20_2為SDB模塊,3表示附加特征提取網絡Conv20_1, Conv20_2和Conv20_3為SDB模塊。記錄模型迭代500次時對UOI-DET測試數據集的mAP、平均檢測時間和參數大小,實驗結果如表4所示。
從表4可以看出,與附加特征提取網絡均為SEB模塊的SSD-MV2SEB相比,SSD-MV2SDB隨附加特征提取網絡SDB模塊數量的增加(1, 2和3)檢測精度逐漸增大,分別增加0.99%, 2.00%和2.19%,可見結合了通道可選擇組件和卷積核可變形組件的SDB模塊對水下感興趣目標具有很好的適用性。不過,模型參數和檢測時間也存在一定的增加,主要是由于SDB模塊中的可變形卷積組件采用標準卷積計算方式。考慮模型的計算成本,本文僅在附加特征提取網絡中使用SDB模塊。另外,附加特征提取網絡中SDB模塊的數量等于3。

表4 附加特征提取網絡SDB模塊數量對SSD-MV2SDB性能的影響
實驗從mAP、平均檢測時間和參數大小3個方面比較了本文水下光學圖像感興趣目標檢測方法SSDMV2SDB與經典輕量化目標檢測算法(SSD-MV2)和最新算法(SSD-MV2SEB和SSD-MV2IRBD)性能上的差異,也進一步分析了基礎網絡的擴張系數和附加特征提取網絡SDB模塊數量的選取如何影響SSD-MV2SDB的性能,同時也驗證了SSD-MV2SDB模型對水下光學圖像感興趣目標的適用性。
SSD-MV2較好地兼顧了目標檢測精度和檢測速度,但對存在一定形變的水下光學圖像目標檢測精度有待提高。SSD-MV2SEB在基礎網絡和附加特征提取網絡中利用SEB模塊替換IRB模塊,在不顯著增加計算成本的前提下,通過通道可選擇組件提高了模型對水下感興趣目標的檢測識別能力。SSD-MV2IRBD在SSD-MV2SEB的基礎上,在附加特征提取網絡中利用IRBD替換SEB模塊,利用可變形卷積組件提高了模型對水下感興趣目標的檢測識別能力。可以確定,單獨的通道可選擇組件和單獨的卷積核可變形組件對提高水下感興趣目標的檢測識別能力均是有幫助的。SSD-MV2SDB在SSD-MV2SEB基礎上,在附加特征提取網絡中利用SDB模塊替換SEB模塊,通過結合通道可選擇組件和卷積核可變形組件進一步提高了模型對水下感興趣目標的檢測識別能力。融合了通道可選擇組件和卷積核可變形組件的SDB模塊對水下感興趣目標具有更好的特征提取能力。但為了平衡目標檢測模型的檢測精度與計算成本,本文僅附加特征提取網絡前3個特征層使用了SDB模塊,而基礎網絡和附加特征提取網絡的最后1個卷積層使用SEB模塊。
水下光學圖像感興趣目標檢測具有重要的理論研究和實際應用價值。本文提出了SEB和SDB兩種特征提取模塊,并利用SEB和SDB重新設計了SSD的基礎網絡和附加特征提取網絡,經理論分析和仿真實驗證明了改進SSD模型對水下光學圖像感興趣目標的有效性。
對于水下光學圖像感興趣目標檢測任務, 下一步的研究重點包括:(1) 研究適合捕獲水下感興趣目標特征的附加特征提取網絡;(2)研究更適合水下感興趣目標的特征提取模塊。