摘 要:針對水面漂浮物感知目標小、易受干擾、識別精度低的問題,提出ATD-CNN目標檢測模型。結合注意力機制,將注意力模塊嵌入FasterR-CNN改進模型的基本主干網絡,計算特征圖內部特征點之間的長距離相關系數,對顯著性特征進行有效增強,以提升基本主干網絡對圖像特征的提取能力?;诤幽鲜∴嵵菔谢轁鷧^南裹頭黃河沿岸采集的圖像數據,對ATD-CNN模型檢測效果進行驗證,并將該模型性能與FasterR-CNN改進模型、YOLOv5單階段目標檢測模型進行對比。結果表明:與FasterR-CNN改進模型相比,ATD-CNN模型對水面漂浮物的漏檢率下降,其mAP值提升了6.80%,F1Score平均值提升了2%。與YOLOv5X、Faster R-CNN改進模型相比,ATD-CNN模型的mAP值分別提升了2.91%、6.80%,有效提高了水面漂浮物檢測精度。
關鍵詞:卷積神經網絡;水面漂浮物;目標檢測;注意力;黃河鄭州段
中圖分類號:TP391.4;TV882.1 文獻標志碼:A doi:10.3969/j.issn.1000-1379.2025.02.020
引用格式:邵曉艷,王軍,趙雪專,等.基于ATD-CNN模型的黃河鄭州段水面漂浮物檢測研究[J].人民黃河,2025,47(2):131-136.
基金項目:國家自然科學基金資助項目(U1904119);河南省科技攻關計劃項目(232102210033,232102210054);河南省重點研發專項(231111212000);河南省杰出外籍科學家工作室項目(GZS2022011);航空科學基金資助項目(20230001055002);重慶市自然科學基金資助項目(CSTB2023NSCQ-MSX0070)
ResearchontheDetectionofFloatingObjectsontheWaterSurface oftheZhengzhouSectionoftheYellowRiverBasedontheATD?CNNModel
SHAOXiaoyan1,WANGJun1,ZHAOXuezhuan1,WANGSheng1,FENGJun2
(1.SchoolofComputerScience,ZhengzhouUniversityofAeronautics,Zhengzhou450046,China;2.SchoolofComputerandInformationEngineering,HenanUniversity,Kaifeng475004,China)
Abstract:Aimingattheissuesofsmalltargets,vulnerabletointerferenceandlowrecognitionaccuracyoffloatingobjectsonthewatersur? face,ATD?CNNobjectdetectionmodelwasproposed.Combinedwiththeattentionmechanism,theattentionmodulewasembeddedintothe basicbackbonenetworkoftheFasterR?CNNimprovedmodel,andthelong?distancecorrelationcoefficientbetweenthefeaturepointsinthe featuremapwascalculatedtoeffectivelyenhancethesaliencyfeatures,soastoimprovetheabilityofthebasicbackbonenetworktoextract imagefeatures.BasedontheimagedatacollectedalongtheYellowRiverinNanbaotou,HuijiDistrict,ZhengzhouCity,HenanProvince,the detectioneffectivenessoftheATD?CNNmodelwasverified,andtheperformanceofthemodelwascomparedwiththeFasterR?CNNimproved modelandYOLOv5single?stageobjectdetectionmodel.TheresultsshowthatcomparingwiththeFasterR?CNNimprovedmodel,theATD? CNNmodelreducesthemisseddetectionrateoffloatingdebrisonthewatersurface,increasesitsmAPvalueby6.80%,andincreasesthe averageF1Scoreby2%.ComparingwithYOLOv5XandFasterR?CNNimprovedmodels,themAPvaluesofATD?CNNmodelincreaseby 2.91%and6.80%respectively,effectivelyimprovingtheaccuracyoffloatingobjectdetectiononthewatersurface.
Keywords:ConvolutionalNeuralNetwork;floatingobjectsonthewatersurface;objectdetection;attention;Zhengzhousectionofthe YellowRiver
黃河是人類文明的重要發源地,是我國重要的生態屏障[1-2]。近年來,黃河兩岸休閑娛樂項目增加,附近游客密度增大,導致水面漂浮物(垃圾)迅速增加。漂浮物無法自然溶解或稀釋,分布不均,直接影響了水體質量。此外,漂浮物會影響水中安放的監測設備以及行駛船只的正常運行,如拖船的螺旋槳很容易被漂浮物纏住[3]。當漂浮物在水庫壩前堆積時,還會影響水電站的發電效率[4]。水面漂浮物破壞了水體的生態平衡,威脅人類飲用水安全[5-6]。對此,相關學者提出了處理水面漂浮物的多項舉措[7-8],但成效不是特別顯著。如何快速有效對水面漂浮物進行檢測及處理,成為眾多學者關注的熱點[9]。
近年來,機器視覺在目標檢測方面發揮著越來越重要的作用[10]。機器視覺主要利用光學設備或者非接觸式傳感器接收圖像,再通過視覺算法進行處理,進而獲取信息以及控制機器人運動[11]。采用機器視覺技術對水面漂浮物進行檢測并提取有用信息,不僅能評價水體生態環境,而且能通過某些設備對水面漂浮物進行定期清理,從而為水體生態環境保護提供智能化方案[12],但是水面漂浮物感知目標小、易受干擾、識別精度低。為此,筆者基于FasterR-CNN改進模型,提出ATD-CNN目標檢測模型,將注意力模塊嵌入FasterR-CNN改進模型的基本主干網絡,通過計算特征圖內部特征點之間的長距離相關系數,對顯著性特征進行有效增強,以提升基本主干網絡對圖像特征的提取能力。
1 ATD-CNN模型構建
采用機器視覺進行目標檢測,主要包含兩個子任務:一是對檢測對象的類別進行判定,屬于分類任務;二是確定檢測目標具體位置,屬于定位任務。分類任務通過返回一個標簽來實現,定位任務通過返回一個矩形框來限定目標位置[13]。
卷積神經網絡(CNN)是機器學習算法中的一種,包括卷積、池化、下采樣、全連接等多種操作,能夠對輸入圖像的特征進行有效提取,具備較強的圖像識別性能[14-15]。但存在缺點如下:當采用較深層的網絡結構提取特征時,會產生梯度損失或者爆炸問題;難以體現特征點之間的長距離相關性,在處理遠距離信息傳遞方面存在局限性。
2015年Girshick提出FastR-CNN模型,用于訓練分類網絡和回歸網絡,使類別平均精確率(mAP)大大提高,但識別目標速度慢。2017年Ren等[16]提出端到端的FasterR-CNN改進模型,其最大特點是有區域候選網絡(RPN),能夠更加高效地選擇候選框?;贔asterR-CNN改進模型,通過引入注意力(Attention)機制,建立ATD-CNN模型,可有效提取輸入圖像的特征信息,捕捉不同特征點之間的長距離相關性,從而提高特征圖的表征能力。
1.1 FasterR-CNN改進模型
FasterR-CNN改進模型由基本主干網絡、RPN和ROIPooling層網絡構成,其目標檢測過程如下。
1)采用深層卷積神經網絡(如ResNet或VGG)對輸入圖像特征進行提取。卷積層的輸出包含輸入圖像的空間信息和語義信息。
2)RPN通過2個并行的全卷積層對每個錨框進行二分類(是否包含目標)和邊界框回歸(調整錨框位置)。RPN輸出為前景、背景分類得分以及邊界框偏移量。根據分類得分,選出最有可能包含目標的候選區域,去除冗余框。
3)ROIPooling層網絡通過網格單元對候選區域進行劃分,將不同區域統一為固定大小,以便輸入全連接層進一步處理。然后在網格上進行池化操作,構成尺寸一致的特征映射。
4)將特征映射輸入2個并行的全連接層,對候選區域進行分類,輸出每個類別的概率。通過邊界框回歸層調整候選區域的位置,輸出精確的邊界框坐標。
1.2 注意力機制

注意力機制應用流程如下:1)輸入初始特征圖,其大小為H×W×1024,其中:H、W分別為高、寬,1024為特征圖的通道數。此處HW構成二維矩陣,HW×1024構成三維矩陣。2)嵌入高斯變換獲得2個分支的輸入特征圖,大小均為H×W×512,經過變換,特征圖的通道數變小,同時計算參數減少。3)對其中一個三維矩陣HW×512進行轉置運算,再與另一個矩陣進行乘法運算,計算結果即為相似度矩陣,該矩陣反映特征圖中像素點間的關聯性。4)采用softmax函數計算不同位置像素點的相似度的加權平均值。5)運用卷積核進行上采樣,將特征圖恢復為原始通道個數,保持輸出的一致性。
1.3 注意力模塊嵌入基本主干網絡
基本主干網絡選用ResNet50,包含以下組件:1個 7×7的卷積層、1個最大池化層、4個卷積層組(conv2_x,conv3_x,conv4_x,conv5_x)、1個全局平均池化層、1個全連接層和1個softmax層。每個卷積層組包含多個殘差塊,在每個殘差塊中輸入與輸出直接相加,這種殘差連接使得梯度可以直接傳遞到上一層,有效解決深層網絡中梯度消失問題。這些組件使ResNet50能夠對深層網絡特征有效學習,顯著提高了圖像分類性能。引入注意力機制不會更改輸入和輸出特征圖之間的尺寸,因此在不改變原始結構的情況下,將注意力模塊與ResNet50進行有效融合。注意力模塊融合在最后三層conv3_x,conv4_x、conv5_x的高級特征提取階段,為特征圖每個通道動態分配權重,使模型能夠關注對實現當前任務最重要的通道。此外,模型整合了三層特征圖的全局信息,對于某些相隔較遠的通道,注意力機制通過計算特征點之間的長距離相關系數,能夠捕捉它們之間的潛在依賴關系,對顯著性特征進行有效增強以及信息整合。
注意力模塊嵌入基本主干網絡的具體實現流程為:首先,輸入層接收像素大小為64×56×56的圖像,先經過第1個卷積層conv1,使用64個1×1的濾波器處理,步長為1,輸出64×56×56的特征圖。其次,經過第2個卷積層conv2,使用64個3×3的濾波器處理,步長為1,輸出64×56×56的特征圖。再次,經過第3個卷積層conv3,使用256個大小為1×1的濾波器處理,步長為1,輸出256×56×56的特征圖。最后,引入注意力模塊,增強對重要特征的關注,輸出256×56×56的特征圖。
1.4 ATD-CNN模型運行流程
ATD-CNN模型運行流程見圖1。首先,將原始檢測圖像輸入基本主干網絡ResNet50,結合注意力機制,改變網絡內部結構,計算圖像內部特征點之間的長距離相關系數,獲得特征圖F′,有效解決卷積神經網絡生成的特征圖之間相關性較弱的問題。其次,RPN網絡接收特征圖,生成多個尺寸的錨框。再次,將這些錨框發送給ROIPooling層網絡,通過統一尺寸、最大池化等生成特征映射。最后,將特征映射輸入全連接層,輸出邊界框坐標。

2 模型訓練
2.1 數據來源和預處理
2.1.1 數據來源
研究區域為河南省鄭州市惠濟區南裹頭黃河沿岸,地理位置為北緯34°40′至34°52′,東經113°31′至113°43′。該區域氣候為暖溫帶半濕潤大陸性氣候,年降水比較充沛,主要集中在夏季,受季風和地形的影響,降水分布不均,可能導致洪澇災害,夏季防汛任務艱巨。
在相同實驗環境下驗證ATD-CNN模型的有效性。由于缺少研究區域黃河水面目標檢測開源數據集,因此采用輕小型大疆Phantom4RTK四旋翼可見光無人機自行采集數據。該無人機具有攜帶便捷、對場地要求低等特點。無人機內置RTK模塊與軟件,可實現三維坐標信息、飛行姿態等的快速獲取,能夠以厘米級的精確度確定位置,滿足高精度作業要求。將Phantom4Advanced相機搭載到無人機云臺上,同時安裝一臺大小為1英寸、像素為2000萬的影像傳感器進行航拍。拍攝影像包含紅綠藍波段,輸出圖像為RGB格式,共拍攝生成2000張漂浮物圖像,拍攝高度為50~100m,在同一個季節進行數據采集。為提高數據的多樣性,又通過網絡收集、手機拍攝河道水面漂浮物進一步獲取數據??紤]的典型應用場景主要為生活垃圾污染場景,對不同視角、不同光線照射的多目標進行采集,共采集圖像2400張,每個圖像包含1~4個檢測目標。檢測目標類別包括ball(球)、grass(野草)、bottle(塑料瓶)、branch(樹枝)、milk-box(牛奶盒)、plastic-bag(塑料袋)、plastic-garbage(塑料垃圾)、leaf(落葉),考慮到類別均衡性對實驗結果的影響,數據集中包含的8個檢測目標的圖像占比基本保持一致。此外,受硬件設備限制,首先將無人機拍攝的圖像進行裁剪處理,然后再輸入網絡結構,裁剪后圖像像素大小為256×256。
2.1.2 數據預處理

2)數據增強。訓練深度學習模型需要大量數據,但數據收集和標注成本過高,能夠標注訓練的樣本數量通常很小,在此情況下,會造成模型過擬合、泛化能力差[18]。本實驗僅收集到2400個樣本,雖然每個樣本的像素范圍很廣,但訓練樣本集卻很少。數據增強可以在不增加成本的情況下擴充數據集,不同的數據增強方法會影響模型最終性能。本文采用垂直翻轉、水平翻轉和90°旋轉進行數據增強,對每種增強方法以0.5的概率進行選擇。以水平翻轉為例,其增強效果見圖2。
3)樣本劃分。使用VOC作為數據集標注格式。 VOC數據集包含Annotations、ImageSets和JPEGImages三部分。Annotations存放標注生成的xml文件;JPEGImages存放原始2400張圖像;ImageSets存放train.txt、val.txt、test.txt文本文件,分別為訓練集、驗證集、測試集的圖像位置和名稱[19]。采用Labelme軟件標注數據集。為了評估模型性能,選取樣本數據的80%作為訓練集,10%作為驗證集,其余10%作為測試集[20]。
2.2 訓練環境與參數設置
實驗硬件環境如下:采用Intel(R)Xeon(R)W-2245CPU,實際運行頻率為3.91GHz,配備Nvidia4090高性能GPU,以滿足深度學習模型處理圖像的高要求。配置64G的大容量內存,以確保數據處理和模型訓練流暢。實驗軟件環境如下:操作系統為Windows10,深度學習框架為Pytorch,安裝CUDA10.1,以提高深度學習模型的訓練速度。
為提升模型訓練精度,采用梯度下降法(SGD)優化模型權重[21],設置權重衰減系數為0.0001,動量為0.9,初始學習率為0.02。
2.3 困難樣本挖掘
考慮到可能存在訓練樣本類別不均衡的問題,采用隨機困難樣本挖掘方法(RHEM)[22]在訓練過程中隨機選擇一部分樣本,從中挑選出最難識別的樣本進行重點學習。該方法相較于其他方法的計算復雜度低。具體流程如下:使用初始訓練數據集訓練模型,得到初步參數;在每個訓練批次中,隨機選擇一部分樣本進行訓練;對于所選樣本,使用當前模型計算每個樣本的損失值;根據損失值對樣本進行排序,選擇損失值較大的前n(通常是預先設定的超參數)個樣本作為困難樣本,基于困難樣本進行反向傳播和模型參數更新;重復上述步驟,直至達到訓練迭代次數或者滿足停止條件。

3 實驗結果分析
3.1 模型準確性
使用多個指標評估模型的準確性,分別為平衡F分數(F1Score)、查準率、查全率、平均精度(AP)和mAP。F1Score用來衡量模型精確度,可以看作模型查準率和查全率的加權平均,其最大值為1、最小值為0[23]。查準率是模型預測為正例的樣本中實際樣本為正例的占比,用來衡量模型在正類預測中的準確性。查全率是指實際為正例的樣本中被模型正確預測為正例樣本的比例,用來衡量模型對正例樣本的覆蓋能力。查全率提高時,查準率通常會降低;反之亦然。AP基于查準率—查全率關系曲線計算得到,反映模型在所有可能閾值的平均性能。mAP是各類別AP的平均值,表示模型的綜合性能。
ATD-CNN模型與FasterR-CNN改進模型的F1Score對比見圖3。對于各種類別,ATD-CNN模型在不同置信度的F1Score值均稍大于FasterR-CNN改進模型的,ATD-CNN模型的F1Score平均值比FasterR-CNN改進模型的提升了2%。

ATD-CNN模型與FasterR-CNN改進模型的查準率—查全率關系曲線見圖4。ATD-CNN模型的查準率—查全率關系曲線與坐標軸的包圍面積大于Faster R-CNN改進模型的,表明ATD-CNN模型檢測水面漂浮物時準確性更高。
YOLOv5由Ultralytics公司于2020年推出,是一種單階段目標檢測模型。根據網絡結構的深度和寬度,將其分為YOLOv5S、YOLOv5M、YOLOv5L和YOLOv5X,其中YOLOv5X深度和寬度最大,擁有最強的學習能力和最高的檢測精度,適用于對精度要求極高的場景。本文對比了ATD-CNN模型、FasterR-CNN改進模型、YOLOv5X模型的查全率、AP50(交并比為0.5時的平均精度),結果見表1。對于grass、branch、plastic-garbage、ball的檢測,ATD-CNN模型的AP50值大于YOLOv5X模型的。除檢測grass、ball外,ATD-CNN模型的AP50值均大于FasterR-CNN改進模型的。此外,計算可得ATD-CNN、YOLOv5X、FasterR-CNN改進模型的mAP值分別為0.515、0.500、0.480,與YOLOv5X、FasterR-CNN改進模型相比,ATD-CNN模型的mAP值分別提升了2.91%、6.80%,說明ATD-CNN模型的檢測較為全面。


3.2 模型在實際場景中的檢測效果
在實際場景中ATD-CNN模型與FasterR-CNN改進模型的目標檢測效果對比見圖5(篇幅有限,僅展示部分結果,圖中方框上方英文為檢測目標類別,數字為置信度),選取3張水面漂浮物局部原始圖像[見圖5(a)第1行],第2~4行分別為對照標簽、ATD-CNN模型檢測圖、FasterR-CNN改進模型檢測圖。第1行原始圖片中存在多個目標,而FasterR-CNN改進模型存在漏檢現象,只檢測到塑料瓶,對于最下方的牛奶盒沒有檢測出來。第2行圖像,FasterR-CNN改進模型未能正確檢測落葉。第3行圖像光照弱,拍攝對象比較模糊,兩種模型檢測效果相當,但ATD-CNN模型檢測置信度高于FasterR-CNN改進模型的。綜上,ATD-CNN模型對水面漂浮物的漏檢率明顯下降,尤其對于水面漂浮特征不明顯的樹枝也能有效識別,充分展示了模型融合注意力機制的優勢。

4 結束語
提出ATD-CNN模型對河南省鄭州市惠濟區南裹頭黃河沿岸水面漂浮物進行檢測,通過將注意力模塊嵌入基本主干網絡,計算特征圖內部特征點之間的長距離相關系數,對顯著性特征進行了有效增強。采用水平翻轉、垂直翻轉和90°旋轉方法對數據進行增強。應用情況表明,與FasterR-CNN改進模型相比,ATD-CNN模型的mAP值提升了6.80%,F1Score平均值提升了2%,即ATD-CNN模型檢測水面漂浮物的有效性和精度較高,可用于黃河水面漂浮物檢測。
參考文獻:
[1] 王軍,王超梁,趙雪專.黃河流域生態環境監測WSN路由優化方法研究[J].人民黃河,2021,43(6):159-162.
[2] 王軍.新一代信息技術促進黃河流域生態保護和高質量發展應用研究[J].人民黃河,2021,43(3):6-10.
[3] 李洪彬,許衛光,顧磊,等.城鄉河網清漂設備發展[J].機電設備,2010,27(6):29-33.
[4] 蔡瑩,唐祥甫,蔣文秀.河道漂浮物對工程影響及研究現狀[J].長江科學院院報,2013,30(8):84-89.
[5] 蔡瑩,李章浩,李利,等.河道型水庫漂浮物綜合治理措施探究[J].長江科學院院報,2010,27(12):31-35.
[6] 許立巍,郭德欽.漓江水面漂浮物情況調查及處理方式分析[J].輕工科技,2013,29(6):128-129.
[7] MOORECJ.SyntheticPolymersintheMarineEnvironment:ARapidlyIncreasing,Long?TermThreat[J].EnvironRes,2008,108(2):131-139.
[8] JUNGRT,SUNGHG,CHUNTB,etal.PracticalEngineer? ingApproachesandInfrastructuretoAddresstheProblemof MarineDebrisinKorea[J].MarPollutBull,2010,60(9):1523-1532.
[9] CHENCL,LIUTK.FilltheGap:DevelopingManagement StrategiestoControlGarbagePollutionfromShingVessels[J].MarinePolicy,2013,40:34-40.
[10] 劉世與.基于目標跟蹤的全方位視覺自引導車動態定位技術[D].天津:天津理工大學,2008:1-11.
[11] 劉偉.一種基于智能相機的機器視覺系統的設計[J].重慶工商大學學報(自然科學版),2013,30(11):66-69.
[12] 周俊鋒.基于機器視覺的水面垃圾自動監測算法的研究[J].廣西輕工業,2011,27(2):86,88.
[13] 項新建,翁云龍,謝建立,等.基于改進YOLOv5s的水面漂浮物檢測算法研究[J].人民黃河,2024,46(7):85-91.
[14] 王軍,崔云燁,張宇航.世界模型研究綜述[J].鄭州大學學報(理學版),2024,56(5):1-12.
[15] 王軍,高梓勛,朱永明.基于CNN-LSTM模型的黃河水質預測研究[J].人民黃河,2021,43(5):96-99,109.
[16] RENSQ,HEKM,ROSSG,etal.FasterR?Cnn:Towards Real?TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransPatternAnalMachIntell,2017,39(6):1137-1149.
[17] 王軍.黃河流域空天地一體化大數據平臺架構及關鍵技術研究[J].人民黃河,2021,43(4):6-12.
[18] 王軍,馬小越,張宇航,等.基于SSA-LSTM模型的黃河水位預測研究[J].人民黃河,2023,45(9):65-69.
[19] 項偉康,周全,崔景程,等.基于深度學習的弱監督語義分割方法綜述[J].中國圖象圖形學報,2024,29(5):1146-1168.
[20] 王軍,高梓勛,單春意.基于TCN-Attention模型的多變量黃河徑流量預測[J].人民黃河,2022,44(11):20-25.
[21] 張欣蕊.基于隱式隨機梯度下降法的研究[D].長春:吉林大學,2019:9-12.
[22] 郭璐,劉斌,李維剛,等.基于困難樣本對激勵的小樣本圖像分類方法[J].計算機輔助設計與圖形學學報,2024,36(6):895-903.
[23] 馮軍.基于注意力機制與多尺度殘差網絡結構的目標檢測算法研究[D].開封:河南大學,2020:23-35.
【責任編輯 栗 銘】