





















收稿日期:2024-04-03
基金項目:國家自然科學基金項目(41776142)
作者簡介:王德興(1971-),男,河北保定人,博士,副教授,研究方向為人工智能、模式識別和數據挖掘等。(E-mail)dxwang@shou.edu.cn
通訊作者:何勇,(E-mail)2850035542@qq.com
摘要:水下目標檢測技術對于自動化水下捕撈至關重要,可有效推動漁業的智能化發展。針對水下圖像質量較差和小目標水下生物聚集導致漏檢、誤檢等問題,本研究提出了一種基于改進YOLOv8m模型的水下生物目標檢測模型——YOLOv8-BAN。該模型首先在骨干網絡中嵌入雙向路由自注意力機制,以增強網絡的特征提取能力;其次在頸部結合自適應特征融合模塊,優化特征融合效果,增強了模型對多尺度目標的檢測能力;最后設計了一種小目標損失函數,通過精確標簽分配進一步提升了水下生物小目標的檢測精度。在URPC2018和Brackish數據集上的測試結果顯示,YOLOv8-BAN模型的平均檢測精度分別達到86.9%和98.6%,較YOLOv8m分別提高了3.5個百分點和3.3個百分點;與其他6種模型相比,YOLOv8-BAN模型具有更高的檢測精度和較快的檢測速度。本研究結果可為水下機器人進行水產捕撈作業提供了技術支持。
關鍵詞:水下生物;YOLOv8m;深度學習;小目標檢測
中圖分類號:TP391文獻標識碼:A文章編號:1000-4440(2025)01-0101-11
UnderwaterbiologicaltargetdetectionmethodbasedonYOLOv8-BANmodel
WANGDexing,HEYong,YUANHongchun
(CollegeofInformationTechnology,ShanghaiOceanUniversity,Shanghai201306,China)
Abstract:Underwatertargetdetectiontechnologyiscrucialfortheautomationofunderwaterfishing,whichcaneffectivelypromotetheintelligentdevelopmentofthefishingindustry.Aimingattheproblemsofpoorunderwaterimagequalityandmissedand1detectionscausedbytheaggregationofsmalltargetunderwaterorganisms,thisstudyproposedanunderwaterbiologicaltargetdetectionmethodbasedonimprovedYOLOv8mmodel,namelyYOLOv8-BAN.Themodelfirstembeddedabidirectionalroutingself-attentionmechanisminthebackbonenetworktoenhancethenetwork’sfeatureextractioncapability.Secondly,theadaptivefeaturefusionmodulewascombinedinthenecktooptimizefeaturefusioneffects,enhancingthemodel’sdetectioncapabilityformulti-scaletargets.Finally,asmalltargetlossfunctionwasdesignedtofurtherimprovethedetectionaccuracyofsmalltargetsthroughpreciselabelassignment.ExperimentalresultsontheURPC2018andBrackishdatasetsshowedthattheaveragedetectionaccuracyofYOLOv8-BANmodelreached86.9%and98.6%respectively,whichwas3.5percentagepointsand3.3percentagepointshigherthanthatofYOLOv8mmodel.Comparedwiththeothersixmodels,theYOLOv8-BANmodelhadhigherdetectionaccuracyandfasterdetectionspeed.Theresultsofthisstudycanprovidetechnicalsupportforunderwaterrobotstocarryoutaquaculturefishingoperations.
Keywords:underwaterorganisms;YOLOv8m;deeplearning;smalltargetdetection
水下生物目標檢測技術是水產養殖智能化戰略的核心組成部分,對于實現水下機器人自動化捕撈具有重要意義[1]。水下機器人在自動化捕撈中的應用依賴于高效的水下生物目標檢測技術[2]。然而,受水下環境和光照條件的影響,光學圖像存在紋理特征信息不足、對比度低等問題[3],同時小目標生物的聚集也增加了檢測的難度。因此,亟需設計一種高精度的、魯棒性強的水下生物目標檢測模型。
近年來,隨著計算機視覺技術的發展,基于深度學習的檢測方法被廣泛應用于水下生物目標檢測。深度學習目標檢測方法分為兩大類,即雙階段方法和單階段方法。雙階段方法需要先生成候選區域,然后經過分類和回歸得到檢測結果。當前,在水下生物目標檢測領域,許多研究者選擇基于雙階段檢測算法進行研究,尤其是針對經典的FasterR-CNN算法[4]進行改進和優化。袁紅春等[5]提出了一種基于FasterR-CNN二次遷移學習和帶色彩恢復的多尺度視網膜增強算法,該方法在水下小規模魚類數據集上表現出較高的準確率。Liu等[6]對FasterR-CNN進行了改進,將骨干網絡替換為Transformer結構,并添加了聚合路徑網絡以增強特征提取能力,但該方法檢測速度較慢。Lin等[7]提出了一種基于FasterR-CNN的數據增強方法RoIMix,將多張圖片中感興趣的區域進行融合,模擬水下生物的重疊和遮擋。Shi等[8]將FasterR-CNN骨干網絡進行改進,使用ResNet并引入BI-FPN特征金字塔結構以加強模型的特征提取能力。相比雙階段方法,單階段方法速度優勢明顯,而且隨著單階段算法的不斷迭代,其精度也能達到很高。目前研究人員主要基于YOLO系列模型[9-12]開展單階段算法的研究。Guo等[13]針對水下圖像模糊、對比度低的問題,提出了一種改進自適應算法的MSRP圖像增強算法,并和YOLOv3模型結合進行檢測,但該模型骨干網絡的特征提取能力較弱。Chen等[14]在YOLOv4模型的基礎上進行改進,通過增加殘差塊與通道注意力機制結合,增強骨干網絡特征提取能力。Lei等[15]基于YOLOv5模型進行改進,將SwimTransformer作為基本骨干網絡并改進路徑聚合網絡PANet,讓網絡更適用于模糊的水下圖像。翟先一等[16]使用帶色彩恢復的多尺度視網膜增強算法對圖像進行預處理,并使用卷積注意力機制對海參進行檢測,但該方法使用的數據集類別較少,僅對海參有較好的檢測效果。Sun等[17]使用MobileT作為YOLOX模型的骨干網絡,提高算法的全局特征提取能力,減少了參數量,但該方法對小目標檢測效果不佳。Yi等[18]針對小目標檢測漏檢率高的問題,提出了一種基于YOLOv7模型改進的檢測算法,該方法通過整合SENet注意力機制,增強FPN金字塔結構,合并EIOU損失函數,集中了小目標的更多關鍵特征信息,提高了小目標的檢測精度。
盡管基于深度學習方法在水下生物目標檢測任務上已經獲得了顯著的精度和速度提升,但仍然存在一些問題。首先,現有方法使用的數據集數量較少或者種類單一,導致模型泛化性不足。其次,現有方法對于水下目標尤其是小目標檢測精度不足,這主要是因為水下圖像質量不佳,導致目標特征難以提取。同時,大部分網絡在多尺度融合過程中主要使用簡單的元素相加,容易攜帶不同特征層的矛盾信息。此外,基于交并比(IntersectionoverUnion,IOU)改進的損失函數對于小目標位置偏差較為敏感,難以對小目標進行精準定位。針對以上問題,本研究提出了一種基于改進YOLOv8m模型的水下生物目標檢測模型YOLOv8-BAN模型。該模型首先在骨干網絡中嵌入雙向路由自注意力機制(Bi-LevelRoutingAttention,BRA),用于提高網絡特征提取能力。其次在頸部結合自適應特征融合網絡(AdaptiveFeatureFusion,AFF),提高不同尺度目標尤其是小目標的檢測精度。最后設計了NWD-CIOU損失函數,替換原始的完全交并比(Complete-IOU,CIOU)損失函數,對小目標進行更準確的標簽分配,進一步提高小目標的定位精度。為了讓模型具有較強的泛化性,本研究在兩個公共數據集上進行消融試驗和對比試驗,以驗證改進模型的有效性。
1材料與方法
1.1YOLOv8-BAN模型的網絡結構
為了保證檢測的實時性,本研究使用YOLOv8m模型作為基礎模型,并根據所提出的改進方法,將其命名為YOLOv8-BAN模型。YOLOv8-BAN模型網絡架構由3個主要部分組成,分別是骨干網絡(Backbone)、頸部網絡(Neck)以及檢測頭(Head),網絡結構如圖1所示。Backbone采用了一系列卷積和反卷積來提取特征,同時使用殘差連接和瓶頸結構來縮減網絡大小并提高性能。Backbone部分采用了C2F模塊作為基本的構成單元,與YOLOv5s模型的C3模塊相比,C2F模塊具有更少的參數和更優秀的特征提取能力。同時為了增強在水下環境的特征提取能力,嵌入了BRA雙向路由自注意力機制。Neck部分增加一個4倍下采樣的淺層特征層,使用4個特征層結合AFF網絡進行自適應特征空間融合,將融合后的4個特征作為檢測頭進行檢測。Head負責最終的目標檢測和分類任務,包括一個檢測頭和一個分類頭,檢測頭包括一系列的反卷積層和池化層,用于生成檢測結果;分類頭采用全局池化對每個特征層進行分類。YOLOv8模型使用CIOU作為邊界框定位損失函數,由于該函數不利于小目標的檢測,因此本研究使用一種邊界框距離度量標準NWD,與CIOU結合設計了NWD-CIOU損失函數,用來提高小目標在底層標簽分配中的準確性。
1.1.1雙向路由自注意力機制針對水下環境中圖像對比度低、模糊和失真等問題,本研究在骨干網絡中嵌入了BRA[19]自注意力機制,以增強骨干網絡的特征提取能力。這種機制使得模型能夠更有效地捕捉并利用有限的目標特征,從而在復雜的水下環境中提高檢測效果。BRA本質是一種自注意力機制的變體(圖2),它將多頭自注意力的計算分為兩個階段,第一階段進行粗粒度的注意力計算,該模塊基于稀疏采樣而非下采樣,可以保留細粒度的細節。第二階段基于第一階段的稀疏注意力結果進行細粒度的注意力計算。在第一階段中將給定的H×W維圖像劃分為S×S個非重疊區域,然后對每個非重疊區域進行自注意力計算,得到查詢Q、鍵K和值V。然后構建有向圖來找到關注關系,即每個給定區域應該關注的區域。具體來說,通過對Q和K應用每個區域的平均值來得到區域查詢Qr和鍵Kr,然后通過Qr和轉置Kr之間的矩陣乘法,得到區域到區域親和圖像的鄰接矩陣Ar,其中鄰接矩陣中的每個數值表示兩個區域之間的語義關聯程度,其計算公式為:
Ar=Qr(Kr)T(1)
公式(1)中r表示計算的區域(region),T表示轉置符號。
為了更加高效地定位有價值的鍵值對進行全局參與,在粗粒度的區域級別中過濾掉不相關的鍵值對,只需要保留對每個區域關聯程度最大的鍵值對,從而得到了一個路由索引矩陣Ir,其公式為:
Ir=topkIndex(Ar)(2)
在第二階段中,根據第一階段得到的鄰接矩陣Ir進行細粒度的自注意力計算。對于第i個區域中的每個查詢,讓它僅僅關注Ir中第i行的前k個區域的并集中所有的鍵值對,為了方便操作首先需要收集所有的K和V,公式為:
Kg=gather(K,Ir)(3)
Vg=gather(V,Ir)(4)
公式(3)中Kg和公式(4)中Vg是Ir中所有區域收集到的鍵值張量。
最后將注意力集中在收集的鍵值對上,其計算公式為:
O=Attention(Q,Kg,Vg)+LEC(V)(5)
公式(5)中引入了一個局部上下文增強術語LCE(V)[20],可以增強V中相鄰像素之間的聯系。其中,函數LCE(·)使用深度可分離卷積進行參數化,卷積核大小設置為5。
1.1.2自適應特征融合網絡YOLOv8頸部網絡使用3種尺度不同的特征層進行融合,分別是20×20、40×40和80×80,然而在水下場景中,圖像比較模糊且存在不同尺度的密集目標,這些目標的語義信息和位置信息更多集中在更淺的特征層,僅使用3個較深的特征層容易出現漏檢或者誤檢。為此本研究在頸部特征融合過程中增加了一個160×160的淺層特征層,以獲得更多的特征信息,然后設計了AFF網絡,將4個不同尺度大小的特征層進行自適應特征融合。該方法是訓練過程中學習不同層次特征的最佳融合方法,融合過程中可以過濾掉攜帶矛盾的其他層的特征信息,從而緩解學習目標不一致的問題。
AFF結構如圖3所示,其核心思想是自適應學習每個尺度上特征圖的融合空間權重,主要分為兩個步驟,即特征縮放和自適應融合。先將特征圖進行縮放,其中第l層將其他特征層通過上采樣或者下采樣的方式調整到和該層特征圖大小。對于上采樣使用1×1的卷積層將特征圖像通道壓縮到和第l層相同,然后使用插值法提高分辨率;對于下采樣則使用步長為2的3×3卷積層修改通道數量和分辨率,最后進行特征融合,以第l層輸出特征圖像為例,其融合公式如下:
ylij=αlij·x1→lij+βlij·x2→lij+γlij·x3→lij+ηlij·x4→lij
(6)
在公式(6)中,l表示融合的層數,xk→lij表示第k個輸入特征層(k=1,2,3,4)在第l層融合后在(i,j)位置上輸出的特征結果,αlij、βlij、γlij和ηlij分別代表對于不同層的權重系數,并且對于權重參數滿足αlij+βlij+γlij+ηlij=1,αlij、βlij、γlij和ηlij∈[0,1],其中權重參數αlij定義為:
αlij=eλlαijeλlαij+eλlβij+eλlγij+eλlηij(7)
公式(7)中eλlαij、eλlβij、eλlγij、eλlηij都是控制參數,通過1×1的卷積核與x1→l、x2→l、x3→l、x4→l分別學習得到,其他權重參數以此類推。通過該方式進行自適應特征融合后得到4個輸出特征層,后續使這4個特征層作為檢測頭進行檢測。
1.1.3小目標損失函數(NWD-CIOU)YOLOv8中的損失函數包括3個部分,即邊界框定位損失、置信度損失和分類損失。其中邊界框定位損失默認使用完全交并比CIOU[21]為度量標準,CIOU是對IOU的改進,然而這兩種度量標準對于小目標的位置偏差都較為敏感,導致小目標在標簽分配中可能無法匹配到正樣本或者正樣本數量太少,降低模型的性能??紤]到CIOU在衡量小目標邊界框距離時可能不是最佳選擇,本研究提出了一種改進的CIOU損失函數,命名為NWD-CIOU。這種新的損失函數旨在更準確地評估并優化小目標的邊界框預測,提升小目標檢測的精度。
應用NWD-CIOU首先需要對邊界框進行高斯分布建模。對于較小物體的邊界框,由于物體不是嚴格意義的矩形,所以存在一些前景像素和背景像素,各自分布在邊界框的中間和邊界[22]。為了描述邊界框中不同像素的權重,對邊界框進行二維高斯分布建模,其中最中間的像素有最高權重,權值大小從中心到邊界逐漸降低。對于邊界框R(cx,cy,ω,h),其中(cx,cy)、ω和h分別表示為邊界框的中心坐標、寬度和高度。其內接圓的方程式為:
(x-μx)2σx2+(y-μy)2σy2=1(8)
公式(8)中μx和μy是橢圓的中心坐標,σx和σy表示x軸和y軸的半軸長度。因此μx=cx,μy=cy,σx=ω/2,σy=h/2。二維高斯分布的概率密度函數為:
f(X|μ,)=exp-12(X-μ)T-1(X-μ)2π||12(9)
公式(9)中exp表示以e為底的指數函數,X、μ和∑分別表示高斯分布的坐標、平均向量和協方差矩陣。
進行二維高斯分布建模后,使用最優運輸理論中的Wasserstein距離[23]來衡量兩個邊界框的距離。對于μ1=N(m1,∑1)和μ2=N(m2,∑2)兩個二維高斯,兩者之間的二階Wasserstein距離定義為:
W22(μ1,μ2)=‖m1-m2‖22+‖∑1/21-∑1/22‖(10)
公式(10)中m1和m2表示高斯分布的均值向量,‖·‖F表示Frobenius范數。
對于兩個邊界框,距離度量又可以表示為:
W22(Na,Nb)=‖[(cxa,cya,ωa2,ha2)T,(cxb,cyb,ωb2,hb2)T]‖22
(11)
公式(11)中a和b代表兩個邊界框。然而,這個距離度量并不能直接用于相似度的計算,需要對其進行歸一化,獲得歸一化的Wasserstein距離(NormalizedWassersteindistance,NWD),將其作為邊界框的度量標準,其公式如下:
NWD(Na,Nb)=exp-W22(Na,Nb)C(12)
公式(12)中a和b代表兩個邊界框,C是一個和數據集相關的常數(數據集的平均大?。H绻麅H以NWD度量方式作為模型的定位損失函數,對于包含不同尺度大小的數據集可能達不到更好的檢測效果,為此本研究將NWD和CIOU兩種度量標準進行結合,引入一個比例因子,設計了新的NWD-CIOU損失函數,即:
LOSSNWD-CIOU=(1-μ)LOSSNWD+μLOSSCIOU(13)
公式(13)中μ值為超參數,經過多次試驗后該值取0.2達到最佳。和CIOU相比,NWD-CIOU考慮到了小目標由于位置偏差過于敏感導致標簽分配失敗的問題,提升了模型對小目標的檢測效果。和僅使用NWD度量標準相比,在包含不同尺度大小的數據集上,NWD-CIOU能獲得更高的精度,并且可以加快模型訓練的收斂速度。
1.2試驗數據集
本試驗所用到的數據集來自公開的URPC2018數據集和Brackish數據集。其中URPC2018數據集有3701張圖片,包含海星、海參等4種海洋生物,部分數據集圖片如圖4所示。Brackish數據集總共有14518張圖片,包含魚類、螃蟹等6種海洋生物,部分數據集圖片如圖5所示。本研究將兩個數據集均按照8∶1∶1的比例劃分為訓練集、驗證集和測試集進行后續試驗。
1.3試驗設置
本研究的模型構建在PyTorch深度學習框架之上,并在Ubuntu20.04操作系統環境下進行試驗。具體而言,PyTorch版本為1.8,搭配的Python版本是3.8。模型訓練任務在配備NVIDIAGeForceRTX3090(24GB顯存)的GPU上執行。為了確保模型訓練的一致性和可重復性,輸入圖像被標準化為640×640像素。在訓練過程中,Batch-Size設置為16,總共進行300個epoch訓練。初始學習率設定為0.01,并采用余弦退火策略對學習率進行調整。優化過程中,動量參數設置為0.937,選用SGD(隨機梯度下降)作為優化器。
1.4評價指標
為了評價模型的檢測精度,本研究采用平均精確率(mAP)、精準率(P)和召回率(R)作為評價指標。其中AP表示單類標簽的平均精確率,mAP表示所有類別標簽的平均精確率,IOU取值為0.5。精準率表示在預測的所有正樣本中實際也是正樣本的概率。召回率表示實際為正樣本被預測為正樣本的概率。為了評價模型的檢測速度,選取每1s檢測幀數(FPS)作為檢測速度的評價標準。上述指標的計算公式分別為:
P=TPTP+FP(14)
R=TPTP+FN(15)
AP=∫10PdR(16)
mAP=NnAPnN(17)
FPS=FTTC(18)
公式(14)和(15)中TP表示被預測為正樣本的數量,FP表示預測為負樣本的數量,FN表示實際為正樣本被預測為負樣本的數量;公式(17)中N表示類別數量;公式(18)中FT表示總幀數;TC表示檢測時間。
2結果與分析
2.1消融試驗結果
為了驗證改進模塊的有效性,對本研究方法使用的BRA、AFF和NWD-CIOU3個模塊進行消融試驗,在URPC2018和Brackish兩個數據集上的試驗結果如表1和表2所示。可以看到,當網絡中添加BRA自注意力模塊后,與YOLOv8m模型相比mAP分別提升1.4個百分點和1.5個百分點,這說明BRA使用了細粒度的自注意力機制,建立遠程的上下文特征依賴,捕獲最顯著特征,從而增強了網絡的特征提取效果。當加入AFF之后,與YOLOv8m模型相比mAP均提升1.2個百分點,這說明AFF通過增加淺層特征層進行自適應特征融合,更加充分地利用不同尺度特征層的位置信息和語義信息,提高不同尺度目標的檢測效果。將NWD與CIOU結合作為邊界框損失函數后,與YOLOv8m模型相比mAP分別提升了1.8個百分點和1.5個百分點,這一改進在兩個不同的數據集上都得到了驗證。圖6中的邊界框損失曲線圖直觀展示了改進措施的效果。在訓練過程中,使用NWD的模型與使用CIOU的模型相比,顯示出更明顯的訓練損失下降。這一結果表明,NWD在處理小目標時性能更佳,能夠實現更精確的標簽分配,從而提高對小目標的檢測精度。當NWD與CIOU結合使用時,模型的損失下降最為顯著。由此可見,將NWD與CIOU結合能夠充分利用兩種度量標準的優勢,平衡對不同尺度目標的檢測性能,提升模型的整體檢測效果。從表1和表2還可以發現,將全部模塊添加之后,模型在兩個數據集上的mAP達到最高,分別為86.9%和98.6%,與YOLOv8m模型相比分別提高了3.5個百分點和3.3個百分點。
為了更直觀地展示模型各模塊對檢測效果的影響,通過逐一添加BRA自注意力模塊、AFF模塊和NWD-CIOU損失函數來進行試驗。在URPC2018和Brackish兩個數據集中分別隨機抽取一張圖片,并生成了相關的熱力圖,結果如圖7和圖8所示。可以看出,使用YOLOv8m基礎模型時,熱力圖上檢測到的目標數量較少,且覆蓋的區域較小,表明有些目標沒有被模型準確識別。這一結果說明YOLOv8m骨干網絡對于水下復雜場景下的特征提取能力不足。加入BRA模塊后,熱力圖中檢測到的目標區域擴大且更集中在目標周圍,同時檢測到的目標數量增加,這表明BRA通過其細粒度的自注意力機制,建立了遠程的上下文連接,讓網絡更容易關注到目標的最顯著特征。在增加BRA模塊的基礎上增加AFF模塊后熱力圖中檢測到的目標數量增多,且檢測到的區域更集中于實際目標上,但是仍然存在較小目標沒有被關注。這說明AFF模塊通過自適應特征融合增強了對不同尺度目標的識別能力,且增加的淺層特征層包含了更多的位置信息和語義信息,擴大了檢測范圍,從而對不同尺度目標識別更為精準。在增加BRA模塊和AFF模塊基礎上再使用NWD-CIOU損失函數后,熱力圖中檢測到的目標數量繼續增加,且檢測到的區域更加精確地集中在目標的中心位置。這表明NWD-CIOU損失函數在小目標的定位上更為精確,提高了小目標標簽分配的準確性,從而提高了模型對小目標的檢測精度。
2.2對比試驗結果
為了客觀評估本研究方法的性能,應用YOLOv8-BAN模型和一些經典的目標檢測模型在URPC2018和Brackish兩個數據集上進行定量和定性對比試驗,對比的經典目標檢測模型有FasterR-CNN[4]、YOLOV5s[24]、YOLOX[25]、ViTDet[26]和YOLOv7[27]等模型。
定量對比試驗結果如表3、表4所示。FasterR-CNN模型由于采用了兩階段檢測設計,導致其檢測速度較慢;同時,由于未能利用多尺度特征層進行特征融合,其檢測平均精度也最低,分別只有73.5%和84.4%。YOLOv5s模型雖然因其輕量化設計,在兩個數據集上的檢測速度最高,分別為1s124.6幀和118.6幀,但網絡深度和復雜度的不足限制了其特征提取能力,因此其平均檢測精度與YOLOv8-BAN模型相比分別低5.8個百分點和5.2個百分點。YOLOX模型的平均檢測精度與YOLOv8-BAN模型相比也有3.7個百分點和3.0個百分點的差距;檢測速度雖然高于FasterR-CNN模型和ViTDet模型,但實時性表現一般。ViTDet模型基于ViT模型進行了改進,增強了網絡特征提取能力,但在小目標的標簽分配上仍有誤差,平均檢測精度比YOLOv8-BAN模型低1.7個百分點和1.0個百分點;同時因為模型參數量和計算量較大,導致其檢測速度較慢,難以滿足實時性要求。YOLOv7模型在檢測精度和實時性方面表現尚可,平均檢測精度分別為82.6%和94.6%,但YOLOv7模型使用CIOU邊界框定位損失函數,導致其對小目標檢測效果一般。YOLOv8-BAN模型與另外6個模型相比平均檢測精度最高,分別達到86.9%和98.6%,相比YOLOv8m模型分別提升3.5個百分點和3.3個百分點。這一顯著提升歸功于本研究提出的3個改進模塊,其中BRA自注意力機制增強了其網絡特征提取能力,讓網絡更加關注目標的最顯著區域;AFF模塊使用自適應特征融合的方式,減少了不同特征層融合產生的矛盾信息,提高了融合效果,讓網絡對不同尺度目標檢測精度提升;NWD-CIOU損失函數提高了小目標在底層標簽分配過程中的準確性,讓小目標瞄框可以分配到更多的正樣本目標,從而提高對小目標的檢測精度。
為了定性評價和比較不同檢測模型在實際水下環境中對水生生物的檢測效果,本研究選擇了3張具有代表性的水下圖片進行測試。在URPC2018數據集中選取了2張圖片,即圖9(1)和圖9(2);在Brackish數據集中選取了1張圖片,即圖9(3)。其中圖9(1)受背景干擾,目標特征不明顯;圖9(2)包含不同尺度的目標;圖9(3)則存在密集小目標。測試結果顯示,YOLOv8-BAN模型檢測到了圖9(1)中所有目標,并且置信度超過另外6種模型,其他模型則產生了漏檢或者誤檢。這一結果突出了YOLOv8-BAN模型在特征提取方面的超強能力,尤其是加入的BRA自注意力機制能夠有效建立遠程特征之間的聯結,使網絡更加關注目標的關鍵特征。YOLOv8-BAN模型也能夠檢測到圖9(2)中所有目標,而且置信度比其他模型都高,這進一步驗證了AFF模塊的有效性,該模塊能夠在多尺度特征融合過程中增加目標的特征信息,并過濾掉攜帶矛盾信息的特征,從而解決學習目標不一致的問題,提高了不同尺度目標的檢測效果。針對圖9(3),YOLOv8-BAN模型檢測到了所有的小目標,其他6種模型都產生了漏檢的現象。這一結果再次驗證了NWD-CIOU損失函數在提高小目標檢測精度方面的作用,該損失函數提高了小目標標簽分配的準確性,可以對小目標進行精準定位。
綜上所述,經過定量和定性的對比試驗,充分驗證了本研究提出的模型對于水下生物目標檢測任務的適用性,對于水下密集目標和小目標都具有良好的檢測效果。
3結論
水下生物目標檢測技術賦予水下機器人精確捕撈的能力,并輔助進行水生生物的統計監測,為水產養殖的智能化轉型提供了堅實的技術支持。為了應對水下圖像質量差和小目標生物聚集所帶來的檢測精度低的挑戰,本研究通過改進YOLOv8m模型,獲得YOLOv8-BAN模型。該模型首先在骨干網絡中集成了BRA自注意力機制,以捕獲目標間的長距離特征關聯,使網絡更加聚焦于目標的關鍵特征;其次,通過在頸部網絡中結合AFF模塊進行自適應特征融合,有效降低了特征融合過程中的矛盾信息,提升了對不同尺寸目標的檢測效果;此外,本研究將NWD和CIOU兩種邊界框距離度量標準相結合,設計了NWD-CIOU損失函數,完成了對小目標更精準的標簽分配。在URPC2018和Brackish兩個水下公共數據集上的測試結果表明,YOLOv8-BAN模型取得了良好的檢測效果,能夠為水下生物目標檢測的自動化和智能化提供技術支撐。
參考文獻:
[1]FAYAZS,PARAHSA,QURESHIGJ,etal.Underwaterobjectdetection:architecturesandalgorithms-acomprehensivereview[J].MultimediaToolsandApplications,2022,81(1):20871-20916.
[2]許裕良,杜江輝,雷澤宇,等.水下機器人在漁業中的應用現狀與關鍵技術綜述[J].機器人,2023,45(1):110-128.
[3]XUSB,ZHANGMH,SONGW,etal.Asystematicreviewandanalysisofdeeplearning-basedunderwaterobjectdetection[J].Neurocomputing,2023,527:204-232.
[4]RENSQ,HEKM,GIRSHICKR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2017,39(6):1137-1149.
[5]袁紅春,張碩.基于FasterR-CNN和圖像增強的水下魚類目標檢測方法[J].大連海洋大學學報,2020,35(4):612-619.
[6]LIUJ,LIUS,XUSJ,etal.Two-stageunderwaterobjectdetectionnetworkusingswintransformer[J].IEEEAccess,2022,10:117235-117247.
[7]LINWH,ZHONGJX,LIUS,etal.Roimix:proposal-fusionamongmultipleimagesforunderwaterobjectdetection[C].Barcelona:ICASSP,2020.
[8]SHIP,XUX,NIJ,etal.Underwaterbiologicaldetectionalgorithmbasedonimprovedfaster-RCNN[J].Water,2021,13(17):2420.
[9]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection[C].LasVegas:IEEE,2016.
[10]REDMONJ,FARHADIA.YOLO9000:better,faster,stronger[C].Honolulu:IEEE,2017.
[11]REDMONJ,FARHADIA.Yolov3:anincrementalimprovement[C].SaltLakeCity:CVPR,2018.
[12]BOCHKOVSKIYA,WANGCY,LIAOHYM,etal.Yolov4:optimalspeedandaccuracyofobjectdetection[C].Seattle:CVPR,2020.
[13]GUOT,WEIY,SHAOH,etal.ResearchonunderwatertargetdetectionmethodbasedonimprovedMSRCPandYOLOv3[C].Nashville:IEEE,2021.
[14]CHENLY,ZHENGMC,DUANSQ,etal.UnderwatertargetrecognitionbasedonimprovedYOLOv4neuralnetwork[J].Electronics,2021,10(14):1634.
[15]LEIF,TANGF,LIS.UnderwatertargetdetectionalgorithmbasedonimprovedYOLOv5[J].JournalofMarineScienceandEngineering,2022,10(3):310.
[16]翟先一,魏鴻磊,韓美奇,等.基于改進YOLO卷積神經網絡的水下海參檢測[J].江蘇農業學報,2023,39(7):1543-1553.
[17]SUNY,ZHENGWX,DUX,etal.UnderwatersmalltargetdetectionbasedonYOLOXcombinedwithmobileViTanddoublecoordinateattention[J].JournalofMarineScienceandEngineering,2023,11(6):1178.
[18]YIWG,WANGB.ResearchonunderwatersmalltargetdetectionalgorithmbasedonimprovedYOLOv7[J].IEEEAccess,2023,11:66818-66827.
[19]ZHUL,WANGX,KEZ,etal.BiFormer:visiontransformerwithBi-levelroutingattention[C].Vancouver:IEEE,2023.
[20]RENS,ZHOUD,HES,etal.Shuntedself-attentionviamulti-scaletokenaggregation[C].NewOrleans:IEEE,2022.
[21]ZHENGZ,WANGP,LIUW,etal.Distance-IoUloss:fasterandbetterlearningforboundingboxregression[C].NewYork:AAAI,2020.
[22]XUC,WANGJW,YANGW,etal.Detectingtinyobjectsinaerialimages:anormalizedWassersteindistanceandanewbenchmark[J].ISPRSJournalofPhotogrammetryandRemoteSensing,2022,190:79-93.
[23]ARJOVSKYM,CHINTALAS,BOTTOUL.Wassersteingenerativeadversarialnetworks[C].Sydney:ICML,2017.
[24]WANGDD,HEDJ.ChannelprunedYOLOV5s-baseddeeplearningapproachforrapidandaccurateapplefruitletdetectionbeforefruitthinning[J].BiosystemsEngineering,2021,210:271-281.
[25]HEQ,XUA,YEZ,etal.ObjectdetectionbasedonlightweightYOLOXforautonomousdriving[J].Sensors,2023,23(17):7596.
[26]LIYH,MAOHZ,GIRSHICKR,etal.Exploringplainvisiontransformerbackbonesforobjectdetection[C].TelAviv:ECCV,2022.
[27]WANGCY,BOCHKOVSKIYA,LIAOHYM.YOLOv7:trainablebag-of-freebiessetsnewstate-of-the-artforreal-timeobjectdetectors[C].Vancouver:IEEE,2023.
(責任編輯:黃克玲)