沈靖夫SHEN Jing-fu;張元良ZHANG Yuan-liang;劉飛躍LIU Fei-yue;柳淳LIU Chun
(①江蘇海洋大學海洋工程學院,連云港 222005;②江蘇海洋大學機械工程學院,連云港 222005)
水面無人艇(Unmanned Surface Vehicles,USV)作為一種無人操作的水面艦艇,具有體積小、航速快、機動性強、模塊化等特點,可用于執行危險以及不適于有人船執行的任務[1]。其中,水面無人清理船(Unmanned Surface Cleaning Vessels,USCV)是水面無人艇的其中一個任務分支。相較于傳統清理水面垃圾需要耗費大量的人力,水面無人清理船的應運而生不僅可以節省人工成本,同時提高清理效率。目前國內USCV 尚未進行大規模應用,一個重要的原因就是水面目標檢測算法性能不足,而精準檢測目標是USCV 自主導航、智能避障、高效作業等需求的基礎。如何在保障目標檢測速度的前提下提高目標檢測的精度以適應復雜的水面場景,以及擴充檢測目標的類別,都是水面目標識別中需要解決的問題。
USCV 用于目標檢的設備主要有激光雷達和可見光相機,相較于激光雷達造價高、缺少紋理及色彩信息、能耗高等缺陷,可見光相機在目標檢測領域的研究更為廣泛。基于圖像的目標檢測研究可追溯至20 世紀90 年代,通過人工設計特征對目標的紋理及輪廓進行提取,其泛化能力較差,僅適用于特定的檢測場景,對于水面較為復雜的環境,傳統目標檢測就變得力不從心[2]。而深度學習算法通過訓練大量的數據,學習數據中存在的特征規律有效克服了傳統特征的諸多缺點,已成為當下各種應用領域中目標檢測任務的主流算法。
基于深度學習的目標檢測主要分為基于CNN 和Transformer 的兩種框架?;贑NN 的目標檢測器分為預生成候選框,接著進行分類和回歸預測的Two-stage[3-5]和無需生成候選框,直接完成預測的One-stage[6-13]。Twostage 檢測精度高,而One-stage 檢測速度快。One-stage 主要基于人為預先定義錨框的Anchor-based。基于Transformer 的檢測器框架(DETR)[14-18]是通過Transformer提取圖像特征,代替傳統的卷積神經網絡,并消除非極大值抑制(NMS),實現真正意義上的端到端的神經網絡?;谏疃葘W習的目標檢測具有較強的泛化能力,更加適應于較為復雜的檢測場景,其網絡發展歷程如圖1 所示。

圖1 經典目標檢測算法發展歷程
Two-stage 目標檢測算法首先通過CNN 提取輸入圖像的特征,接著生成預選框,對預選框進行非極大值移植(NMS)去掉重疊度較高的框,最后對剩余的框進行分類和回歸并輸出最終目標檢測結果。
經典的Two-stage 目標檢測算法是RCNN 系列。Ross Girshick 提出的RCNN[3],通過生成候選區域,并提取圖像的特征,接著通過分類器對特征進行分類得到分類結果。Fast RCNN[4]優化了RCNN 訓練及測試速度慢的問題,直接將整張圖像輸入卷積中,避免大量重復卷積操作。同時利用特征池化操作進行尺度變換,使得輸入可以是任意大小的圖片。為了解決候選區域生成占據大量時間開銷的問題,Faster RCNN[5]提出了RPN(Region Proposal Network)網絡,利用Anchor 機制將區域生成與卷積網絡聯系到一起,提高了檢測速度和檢測精度。
相較于Two-stage 系列的網絡,在對目標進行預測分類之前需要先生成候選區域,從候選區域內找尋與特征圖匹配的目標框,這個過程雖然可以提高一定的檢測精度,但是也削減了檢測速度。而One-stage 系列的網絡直接對目標進行分類和定位,去除了候選框生成這一過程,在保持檢測精度的前提下,極大地提高了檢測速度。
目前主流并應用于實際的One-stage 系列的神經網絡當屬YOLO 系列的算法。YOLO 系列的開山之作YOLOv1[6]是由Joseph Redmon 提出的,通過卷積神經網絡提取特征,把提取到的特征送入兩層全連接層輸出檢測類別和檢測框。后續的YOLOv2[7]在此基礎上加入了正則化,加速了收斂速度,同時提高了檢測精度。YOLOv3[8]引入了殘差網絡模塊,解決了小目標檢測精度問題。YOLOv4[9]采用了很多優化策略,在數據處理中引入Mosaic 數據增強、主干網絡引入CSP 結構、網絡層(Neck)采用SPP 模塊、激活函數替換成Mish,在檢測精度上有效的提高。YOLOv5[10]加入了Focus 模塊,并用SPPF 結構代替SPP 結構,使得檢測精度有一定的提高。后續的YOLOv6-8[11-13]均在YOLO結構上進行不同的改進。
相較于Two-stage 和One-stage 系列的網絡,其本質是通過CNN 進行特征提取,而CNN 往往會忽略掉較遠特征的相似性,對全局特征的關注較低。注意力機制(Transformer)通過捕捉圖像中全局位置中的相關性,有效提高了對圖像全局特征的關注,但同時Transformer 對局部特征的處理不如CNN。為此,可以將Transformer 與CNN進行融合使用,在關注圖像全局特征同時兼顧圖像的局部特征。
DETR[14]是Facebook 團隊于2020 年提出的基于Transformer 的端到端目標檢器,通過Transformer 的Encoder 和Decoder 框架進行特征提取,使用二分圖匹配方式替換傳統卷積中的非極大值抑制(NMS),極大簡化了目標檢測的流程。Deformable DETR[15]利用可變形卷積,只關注目標周圍的一小部分關鍵采樣點,解決了DETR 難以收斂及檢測小目標精度低的問題。Anchor DETR[16]分析了DETR 的目標查詢沒有明確意義,無法關注特定區域。在此基礎上,設計了基于錨框(anchor)的對象查詢,提高DETR 的訓練收斂速度及檢測精度。DINO DETR[17]通過設計了一款帶有改進的去噪器box 的DETR,通過使用對比方式進行去噪訓練,結合混合查詢選擇方法進行錨點初始化,加速DETR 的訓練速度及訓練精度。第一個實時端到端的目標檢測器RT-DETR[18],通過高效的混合編碼器及解耦尺度內交互和跨尺度融合高效處理多尺度特征(對深層特征圖進行注意力特征提取,對淺層特征圖做特征融合),并提出IoU 感知的查詢選擇,提高目標查詢的初始化,解決了DETR 難以實際應用的問題。
由于水面環境復雜多變,可見光圖像的圖像質量會受到水面光照反射、運動模糊及水面倒影等影,這就增加了水面目標檢測的難度,同時深度學習網絡需要大量的數據進行訓練,尤其針對水面這種較為復雜的環境,一種全面的水面目標檢測數據集是水面目標檢測算法的關鍵。
在水面目標檢測領域,大多數研究都是根據研究任務構建的小型數據集,缺乏大規模、高質量標注的開源數據集,一定程度上制約了相關技術的發展。學者們在構建開源數據集方面進行了一系列的嘗試,如表1 所示。FloWImage 數據集[19]是全球第一個無人清理船視角下的水面漂浮垃圾檢測的數據集。Water Surface Object Detection Dataset(WSODD)[20]包含了多種水面目標類型,覆蓋了多種天氣環境和時間段,有效解決了水面環境單一的問題。Marine Image Dataset(MID)[21]涵蓋了多種現實中海面常出現的障礙物,為海域目標障礙物檢測提供有效信息。Singapore Maritime Dataset(SMD)[22]在不同時間段和環境下采集的新加坡海洋常出現的一些障礙物目標數據。

表1 水面目標檢測公開數據集
相較于路基及空域的目標檢測技術,USCV 基于深度學習的水面目標檢測技術起步較晚,眾多學者主要在水面目標檢測精度及檢測速度上進行深入研究。
Huang[23]等人提出一種改進的YOLO v5 算法,通過將YOLO 網絡中的C3 結構替換成transformer 編碼層,同時結合卷積注意力模塊(CBAM)提高對水面小目標的檢測精度。Zhang[24]等人通過引入ASFF 模塊對基本的YOLO v5s 模型進行改進,提高了水面目標檢測的精度。Tong[25]等人在網絡的深層使用空洞卷積金字塔池化模塊融合目標的全局先驗信息,接著通過注意力模塊自適應增強目標淺層空間位置和深層語義信息特征。最后,通過多尺度特征融合提高水面小目標的檢測精度。Wang[26]等人在YOLOv3中引入綜合特征增加模塊,并改進損失函數,提高了對船艦小目標的檢測能力。Lin[27]等人在YOLOv5s 的骨干網絡末端引入特征圖注意力層,并通過馬賽克數據增強策略,提高水面漂浮小目標的檢測效果。SPMYOLOv3 目標檢測算法[28]首先對改進的K-means 算法進行重新聚類,并在YOLOv3 的主干網絡添加SE-PPM 模塊以加強目標的特征信息,使用多向金字塔網絡對不同尺度的特征圖進行融合,提高水面垃圾的檢測精度。
本文綜合分析了當前基于深度學習的目標檢測方法的發展歷程以及在水面中的應用情況,對水面目標檢測數據集及檢測方法進行了綜述。希望能夠為研究人員提供資料性的參考依據以及研究思路和方法,促進相關檢測方法的推廣和應用。結合現有的研究現狀,可以在以下三個方面開展更深入的研究工作。
①構建大規模、高質量標注的開源數據集。在水下生物目標檢測領域,大多數研究都是根據研究任務構建的小型數據集,缺乏大規模、高質量標注的開源數據集,一定程度上制約了相關技術的發展。
②基于Transformer 的目標檢測算法研究甚少。由于需要實際應用于水面目標檢測任務中,需要算法具有實時性,而目前大部分Transformer 的目標檢測算法不符合實時性要求。而RT-DETR 算法的出現解決了基于Transformer 的目標檢測算法的實時性要求,未來可以在此基礎上進行深入研究。
③相比較于空中的無人機與路基的無人車平臺的視覺方法,水面環境光線變化較大,圖像信息容易受到反射在水面上的光線影響,可以利用圖像增強和去噪算法減少圖像的噪聲,使訓練出來的效果更好。