999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于區域感知的多尺度目標檢測算法

2023-12-16 10:29:52李澤平楊文幫
計算機工程 2023年12期
關鍵詞:表達能力特征區域

黃 路,李澤平,楊文幫,趙 勇,張 嫡

(1.貴州大學 計算機科學與技術學院 公共大數據國家重點實驗室,貴陽 550025;2.北京大學深圳研究生院 信息工程學院,廣東 深圳 518055)

0 概述

目標檢測[1-2]是計算機視覺領域1 個重要的研究和應用方向。基于深度學習的目標檢測一般分為兩級檢測器和一級檢測器。兩級檢測器首先生成候選區域,再基于分類和回歸對候選區域進行細化,實現目標的定位與識別。文獻[3]提出R-CNN,采用選擇搜索策略[4]生成候選區域,通過卷積網絡提取特征,最后進行分類和回歸。考慮到R-CNN 對候選區域提取特征會造成大量的冗余計算,一些研究人員不斷地優化并提出一系列算法,如Fast R-CNN[5]、Faster R-CNN[6]。

相比兩級檢測器,一級檢測器不須提取候選區域,有效提高檢測效率,但存在檢測精度低的問題。文獻[7]提出SSD,嘗試從多個尺度自上而下地預測類別和邊框。文獻[8]提出YOLO,從整張特征圖上預測目標的類別和邊框信息。在YOLO 基礎上,研究人員不斷地優化并提出一系列的YOLO 算法,例 如YOLOv2[9]、YOLOv3[10]、YOLOv4[11]和YOLOx[12]等。考慮到一階段檢測器普遍存在正負樣本不平衡、困難樣本問題,文獻[13]采用聚焦損失函數抑制正負樣本不平衡,同時挖掘困難樣本。此外,文獻[14]采用數據增強和增加淺層特征的方式提高模型的檢測能力,同時調整損失函數,避免出現梯度消失。考慮到不同尺度間感受野的差異,文獻[15]在淺層特征上引入多分支并行空洞卷積,提出一種基于多分支并行空洞卷積的多尺度目標檢測算法。

現有目標檢測網絡通常利用骨干網絡的主分支層提取高維特征信息,然而經過上采樣、卷積等操作后容易造成主分支層的特征信息丟失。為此,文獻[16]提出一種特征金字塔網絡,采用自頂向下的方式融合鄰接尺度間的特征。在文獻[16]的基礎上,文獻[17]提出PANet,增加1 個自底向上的路徑,融合各層特征間的語義信息和位置信息。考慮到直接融合不同尺度的特征會產生不平衡問題,文獻[18]提出自適應空間特征融合(Adaptively Spatial Feature Fusion,ASFF)方法,通過1×1 卷積計算各尺度特征的標量映射,學習尺度間的空間重要性權重,平衡不同尺度特征的表達能力。文獻[19]通過設計特征門控模塊和動態融合模塊,實現多尺度特征的動態融合。文獻[20]通過融合骨干網絡的多個主分支層,然后上采樣最后1 個主分支層,提出一種雙分支特征融合的檢測算法。

綜上所述,現有算法雖然取得一定的成效,但是主分支層的關鍵特征并沒有得到充分利用。此外,通過設計復雜的網絡結構融合不同尺度的特征,不僅增加模型復雜度,而且忽略不同尺度特征表達能力不平衡等問題。為此,本文提出一種基于區域感知的多尺度目標檢測算法CW-YOLO。在YOLOv5[21]的基礎上,采用數據增強、改進的邊框損失Beta-CIoU 和Alpha-DIoU-NMS,構 建1 個增強 的基線 模型。在主分支層上分別引入通道信息增強模塊(Channel Information Enhancement Module,CIEM),充分利用主分支層的關鍵特征,避免了主分支特征信息容易丟失的問題,并強化模型對重點區域的感知能力。同時,提出加權特征融合方法(Weighted Feature Fusion Method,WFFM),平衡不同尺度的輸入特征對輸出特征的表達能力,進而提高算法對多尺度目標的感知能力。最后,該算法在公開數據集Pascal VOC[22]、MS COCO[23]、Global Wheat[24]、Wider Face[25]和自制 數據集Motor Defect 上完成 了實驗驗證。

1 多尺度目標檢測算法

1.1 網絡結構

本文在YOLOv5 的基礎上,采用數據增強、Beta-CIoU 損失和Alpha-DIoU-NMS 方法構建1 個增強的基線模型,并提出一種基于區域感知的多尺度目標檢測算法CW-YOLO,網絡結構如圖1 所示。CW-YOLO 的整體網絡結構主要由骨干網絡、頸部網絡和YOLO 檢測頭組成,C1、C2、C3 表示3 種不同尺度的特征圖。首先,骨干網絡采用CSPDarkNet53[26]提取主分支層{C1,C2,C3}的特征信息,在此基礎上引入CIEM 作為額外的分支層,然后將CIEM 與經過自頂向下和自底向上的路徑聚合網絡融合,分別得到3 種融合不同語義信息和位置信息的特征圖M11、M22 和M33。使用WFFM 對不同尺度的特征圖{M11,M22,M33}進行2 次融合,得到3 種不同尺度的檢測頭{P1,P2,P3}。針對P1、P2 和P3,分別在特征圖M11、M22、M33 上引入平衡因子{d,e,f},平衡不同尺度的輸入特征對輸出特征的表達能力。最后將P1、P2 和P3 進行多尺度預測,實現目標的識別與定位。CIEM 通過提取每個主分支層的關鍵特征,有助于過濾背景信息的干擾特征,提高模型對重點區域的感知能力。WFFM 能夠平衡不同尺度的輸入特征對輸出特征的表達能力,強化各個檢測頭對多尺度目標的感知能力。

圖1 CW-YOLO 網絡結構Fig.1 Structure of CW-YOLO network

1.2 增強基線模型

YOLOv5 的網絡結構主要由CSPDarkNet53、PANet 和YOLO 檢測頭組成。在數據預處理階段,主要采用平移、旋轉、Mosaic、Mixup[27]等數據增強策略。Mosaic 數據增強是把不同的樣本經過隨機裁剪、隨機旋轉和隨機拼接組成;Mixup 數據增強是把2 張不同的樣本按照一定的比例融合,提高樣本的數據量,增強模型的魯棒性。

針對目標框的困難回歸問題,在預測框和真實框的交并比(Intersection over Union,IoU)上引入調節因子來增大模型對困難回歸框的損失和梯度。假設IoU 的期望和方差分別為μ和σ2,引入調節因子β后,IoU 的期望 和方差 分別變 為βμ和β2σ2。當β?(0,1)時,IoU 的方差變為原來的β2,能有效緩解預測框和真實框之間IoU 的離散程度,進而增大困難回歸框的信息量。此外,受Alpha-IoU[28]的啟發,以預測框與真實框中心點的歐氏距離和高寬比作為邊框損失的約束條件,在此基礎上引入調節因子并提出Beta-CIoU 邊框損失,其計算式如式(1)所示。通過改變調節因子,使得模型增大困難回歸框的損失和梯度,從而更關注困難回歸目標。在不增加任何代價的情況下,提高目標檢測的精確度。

其中:ρ(b,bgt)表示預測框b和真實框bgt中心點的歐氏距離;β表示調節因子;α默認為3;c表示最小外接框的對角線長度。γ和ν的計算式如式(2)所示:

在目標檢測的后處理階段,傳統的非極大值抑制(Non-Maximum Suppression,NMS)方法采用普通IoU 閾值作為候選框篩選的指標。然而,當同類別目標存在遮擋時,不同候選框之間的IoU 可能會超過篩選的閾值,會被誤認為是同1 個目標,從而過濾掉遮擋目標。因此,以不同候選框的中心點距離作為約束條件,在DIoU[29]的基礎上,將Alpha-IoU 推廣到NMS,提出Alpha-DIoU-NMS,減小與遮擋目標的IoU,使得模型能夠提取到豐富的目標框信息,計算式如式(3)所示:

1.3 通道信息增強模塊

在多尺度特征融合[30]中,淺層特征具有更多的位置信息,有利于小目標檢測。深層特征經過多次卷積、池化等操作后能夠提取豐富的語義信息,有利于大目標檢測。然而,現有的目標檢測算法采用自頂向下、自底向上等路徑聚合網絡融合多尺度信息,往往忽略了經過卷積、上下采樣等操作后容易造成主分支層特征信息丟失的問題。研究人員指出,直接融合不同尺度的特征會引入大量的背景信息,使得目標的邊界變得模糊,重點區域的特征不明顯,從而弱化模型對目標區域的關注。

針對上述問題,受SENet 注意力機制[31]的啟發,本文提出CIEM模塊,數學表達式如式(4)所示:

CIEM 模塊沿著主分支層的通道方向使用全局最大池化(Global Maximum Pooling,GMP)和全局平均池化(Global Average Pooling,GAP)提取重要的通道信息,采用1×1 卷積融合跨通道間的信息,然后通過Sigmoid 激活函數獲取非線性的權重矩陣,最后融合主分支層的特征,使得模型盡可能保留主分支層的關鍵特征,提高模型對重要區域的感知能力。

CIEM 模塊的網絡結構如圖1 所示。在主分支層{C1,C2,C3}上分別引入CIEM 作為額外的分支層,與經過自頂向下和自底向上的路徑聚合網絡融合,提取主分支層{C1,C2,C3}的關鍵特征和上下文信息,抑制背景信息的干擾,提高模型對重點區域的感知能力,使得模型更關注待測目標。考慮到小目標的像素信息少且對位置信息敏感的特性,移除中間層與最淺層特征的第1 次融合操作,使得淺層特征能獲取更豐富的位置信息,提高模型的檢測效果。

1.4 加權特征融合方法

在卷積神經網絡中,隨著網絡層數加深,模型越有利于大目標檢測,相反越淺層的特征對小目標的信息更加敏感。由于目標尺寸大小不一,因此容易造成不同尺度的特征表達能力不平衡。現有方法主要通過直接相加、通道拼接操作和設計復雜的網絡模塊等方式融合不同尺度的特征,不僅增加網絡模型的復雜度,而且忽略了不同尺度特征表達能力不平衡的問題。

針對以上問題,在原有特征融合的基礎上進行2 次融合,本文提出一種加權特征融合方法,平衡不同尺度的輸入特征對輸出特征的表達能力。通過給不同尺度的輸入特征{M11,M22,M33}引入1 個平衡因子,調整不同尺度的輸入特征對輸出特征的表達能力,提高不同尺度特征的有用信息,抑制背景信息的干擾,從而提高3 個檢測頭{P1,P2,P3}對不同大小目標的表達能力,增強模型對多尺度目標的感知能力。針對小、中、大3 種檢測頭,分別調整平衡因子dl、el和fl的大小來平衡不同尺度的輸入特征對輸出特征的表達能力,從而達到尺度平衡的目的,計算式如式(5)所示:

其中:xn→l表示從第n層到第l層的輸入特征;yl表示融合后的輸出特征。在特征融合前需要對不同的特征圖進行尺度變化,使其與融合后的特征在分辨率和通道上保持一致。此外,為了防止平衡因子的取值不穩定給模型訓練帶來的影響,規定如式(6)所示:

2 實驗驗證與分析

2.1 數據集

算法在公開數據集Pascal VOC、MS COCO、麥穗數據集Global Wheat、人臉檢測數據集Wider Face和自制數據集Motor Defect 上進行實驗驗證。Pascal VOC 數據集包含20 個類別,共有16 551 張訓練集圖片和4 952 張驗證集圖片;MS COCO 數據集包含80 個類別,共有118×103張訓練集圖片、5×103張驗證集圖片和20×103張測試集圖片;Global Wheat 數據集包含1 個類別,共有2 675 張訓練集圖片和747 張驗證集圖片;Wider Face 數據集包含1 個類別,共有12 876 張訓練集圖片和3 226 張驗證集圖片;Motor Defect數據集包含5 個類別,共有3 451 張訓練集圖片和645 張驗證集圖片。

2.2 實驗環境

本次實驗所采用的操作系統是Ubuntu20.04 LTS,顯卡型號為RTX 2080Ti 和RTX 3090,CUDA 版本為11.3,并在PyTorch框架下完成代碼編寫。本文實驗采用隨機梯度下降法優化模型,超參數設置如表1所示。

表1 超參數設置Table 1 Hyperparameter setting

2.3 評價指標

在目標檢測中,平均精度(Average Precision,AP)是衡量模型性能的1 個重要指標,通過模型的精確度(P)與召回率(R)所組成的線下曲線面積得到。AP50∶95表示步長為0.05,計算IoU 從0.50~0.95 的平均精度均值;AP50表示IoU 為0.5 的平均精度;AP75表示IoU 為0.75 的平均精度;APS表示小目標的平均精度,其目標區域小于322 個像素;APM表示中目標的平均精度,其目標區域在322~962 個像素之間;APL表示大目標的平均精度,其目標區域大于962 個像素。此外,根據參數量和計算量(FLOPs)衡量模型的復雜度。

2.4 消融實驗

本文在Pascal VOC 數據集上對CW-YOLO 的各個模塊進行論證和分析。采用默認的訓練協議和訓練參數 復現了 基線模 型(YOLOv5s)。在2 張GeForce RTX 2080Ti 上進行訓練和測試,并使用Pascal VOC 驗證集評估模型的性能指標。實驗主要圍 繞Beta-CIoU 損 失、Alpha-DIoU-NMS、CIEM 和WFFM 展開分析,實驗結果如表2 所示。

表2 添加各個模塊的實驗結果Table 2 Experimental results adding each module

從表2 可以看出,在YOLOv5s 基礎上,使用Beta-CIoU 損失、Alpha-DIoU-NMS、CIEM、WFFM 和Mixup 后,模型的評價指標AP50∶95從52.11%提高到57.59%,提升5.48 個百分點,AP50從77.64%提高到81.70%,提升4.06 個百分點,此外,精確度從62.57%提高到67.14%,提升4.57 個百分點,召回率從78.99%提高到82.95%,提升3.96 個百分點。

在Beta-CIoU 中,選取不同的調節因子完成6 組消融實驗,結果如表3 所示,參數量為7.1×106,FLOPs 為16.5×109。從表3 可以看出,與調節因子為1.0 相比,當調節因子為0.9 時,本文模型的評價指標AP50:95提高了0.06 個百分點,AP50提高0.3 個百分點,精確度提高了1.94 個百分點。此外,隨著調節因子減少,通過增大困難回歸框的損失和梯度,使得模型更關注困難回歸目標,提高模型的精確度。相比基線模型,僅須修改模型的損失函數,評價指標AP50:95提高2.41 個百分點,精確度提升4.81 個百分點。Beta-CIoU 邊框損失能有效提高算法的檢測性能。

表3 不同調節因子的實驗結果Table 3 Experimental results among different regulators

為驗證Alpha-DIoU-NMS 方法的有效性,在Beta-CIoU 損失的基礎上進行消融實驗。從表2 可以看出,與YOLOv5s+Beta-CIoU 相比,YOLOv5s+Beta-CIoU+Alpha-DloU-NMS 模型的 評價指 標AP50:95提高0.05 個百分點。圖2 所示為Alpha-DIoU-NMS和普通NMS 的可視化檢測效果圖。從圖2 可以看出,當2 個同類別目標存在遮擋情況時,2 個目標的重疊面積增大,普通NMS 方法直接過濾掉遮擋區域的目標,而Alpha-DIoU-NMS 方法通過弱化候選框的IoU,防止模型對同類別遮擋目標產生誤判,能夠有效地檢測出遮擋目標。

圖2 普通NMS 和Alpha-DIoU-NMS 的可視化檢測效果Fig.2 The visual detection effect of ordinary NMS and Alpha-DIoU-NMS

為驗證CIEM 的有效性,在增強基線模型的基礎上進行消融實驗。表2 顯示添加CIEM 模塊后,模型的評價指標AP50∶95從54.57% 提高到54.99%,提 高0.42 個百分點。圖3 所示為可視化增強的基線模型、添加CIEM 和引入WFFM 后的熱力圖(彩色效果見《計算機工程》官網HTML 版),紅色表示模型對目標區域的感知程度,藍色表示模型對背景信息的抑制程度。從圖3 可以看出,相比增強的基線模型,添加CIEM 后,模型能有效地抑制背景信息,使得目標區域的特征更加顯著,而且背景區域與目標的邊界更加清晰,從而減少背景信息給模型訓練帶來的負面影響。因此,CIEM 通過提取主分支層的關鍵特征,抑制背景信息的干擾,使得模型更關注目標區域,增強對重點區域的感知能力,有助于提高模型的檢測效果。

圖3 添加各個模塊后的熱力圖Fig.3 Heat map after adding each module

為驗證WFFM 的有效性,本文分別在Pascal VOC 數據集上做了5 組消融實驗,實驗結果如表4所 示,參數量 為11.8×106,FLOPs 為22.8×109。其 中P1、P2 和P3 分別表示檢測頭的淺層、中間層和深層特征。從表4 可以看出,與直接相加融合方法相比,對淺層特征P1 使用WFFM 方法,使得模型對小目標的評價指標APS從25.8%提高到30.3%,提升了4.5 個百分點;對中間層特征P2 使用WFFM 后,模型對中目標的評價指標APM從43.9%提高到44.1%,提升了0.2 個百分點;對深層特征P3 使用WFFM 后,模型對大目標的評價指標APL從61.2%提高到61.4%,提高了0.2 個百分點。此外,單獨對P2 層和P3 層使用WFFM,模型對不同尺度目標的檢測能力均有一定程度的提升。直接相加融合方法會限制各尺度特征的表達能力,從而表明不同尺度的輸入特征對輸出特征的表達能力是不平衡的。最后對P1、P2 和P3 同時使用WFFM,模型沒有增加任何的參數量和計算量,相比直接相加融合方法,評價指標AP50∶95提高0.57 個百分點,AP50提高0.24 個百分點,同時提高模型對多尺度目標的檢測效果,APS提高了1 個百分點,APM提高了1.2 個百分 點,APL提高了0.4 個百分點。此外,圖3 顯示添加WFFM 后,通過平衡不同尺度特征的表達能力,使得模型能夠抑制背景信息,增強對目標區域的感知能力。

表4 不同尺度的特征層使用WFFM 方法對模型性能的影響Table 4 The impact of using WFFM method on model performance for feature layers at different scales %

為驗證模型在實際應用場景的檢測能力,在麥穗數據集Global Wheat、人臉檢測數據集Wider Face和電機缺陷數據集Motor Defect 上做了3 組消融實驗,結果如表5 所示。

表5 不同模型在數據集上的檢測性能Table 5 Detection performance among different models on datasets %

在麥穗數據集Global Wheat 上,相比YOLOv5s,CW-YOLOS 模型的 精確度、AP50和AP50∶95分別提 高18.94、0.38、1.94 個百分點;在人臉檢測數據集Wider Face 上,CW-YOLOS 模型的 精確度、AP50、AP50∶95分別提高19.52、0.37 和0.70 個百分點;在自制數據集Motor Defect 上,CW-YOLOS 模型的 精確度、AP50、AP50∶95分別提 高15.00、1.29、1.95 個百分 點。因 此,CW-YOLO 算法通過增強目標區域的感知能力,有效提升目標檢測的精確度。

2.5 與先進的目標檢測算法比較

CW-YOLO 算法主要遵循YOLOv5 的模型縮放策略,得到了4 種不同規模的網絡結構(CWYOLOS、CW-YOLOM、CW-YOLOL、CW-YOLOX)。本文實驗主要是在2 張內存為24 GB 的GeForce RTX 3090 上完成MS COCO 數據集的訓練和測試任務。由于MS COCO 的測試集并未提供標簽文件,因此在MS COCO 官方服務器上完成測試和評估任務。

表6 所示為CW-YOLO 在COCO test-dev 測試集上與先進的目標檢測算法的性能對比,加粗表示最優值,“—”表示官方并未給出相應結果,“*”表示幀率是通過RTX 3090 測試得到。CW-YOLOS 相比YOLOv5s 的評價指標AP50∶95提 高3 個百分 點;CW-YOLOX 的評價指標AP50∶95達到了50.7%,比PP-YOLOv2 的最大模型提高0.4 個百分點,比YOLOv4 的最大模型提高7.2 個百分點,比Dynamic Head 的最大模型提高3 個百分點,比DW 的最大模型提高1.4 個百分點。CW-YOLOX 通過強化多尺度特征和重點區域的感知能力,提高模型對多尺度目標的檢測效果,使得評價指標APS、APM、APL分別為31.5%、55.5%、64%。實驗結果表明,與基線模型YOLOv5 的4 種網絡模型相比,CW-YOLOS、CW-YOLOM、CWYOLOL、CW-YOLOX 4 種網絡模型的AP50∶95分別提高了3.0、2.0、1.1 和0.3 個百分點。

表6 CW-YOLO 與其他目標檢測算法的性能對比Table 6 Performance comparison between CW-YOLO and other object detection algorithms

3 結束語

針對主分支層的特征信息容易丟失、不同尺度的特征表達能力不平衡等問題,本文提出一種基于區域感知的多尺度目標檢測算法CW-YOLO。該算法主要圍繞增強基線模型、通道信息增強模塊和加權特征融合方法展開和分析,進一步提高了算法對重點區域、多尺度目標的感知能力和檢測能力。在Pascal VOC、MS COCO 等5 個數據集上的實驗結果表明,該算法能有效提升目標檢測的精確度。下一步將優化網絡結構,減少模型的復雜度,提高算法的推理速度。

猜你喜歡
表達能力特征區域
創新寫作教學,培養表達能力
談學生口語表達能力的培養
甘肅教育(2020年20期)2020-04-13 08:05:22
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
加強聯想力和口語表達能力
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
學生口語表達能力的培養
主站蜘蛛池模板: 26uuu国产精品视频| 97视频在线精品国自产拍| 91蝌蚪视频在线观看| 日本黄色不卡视频| 波多野结衣一区二区三视频| 在线精品自拍| 国产成人免费| 青青青视频蜜桃一区二区| 亚洲成人一区二区| 亚洲国产成人精品一二区 | 亚洲无线观看| 激情综合网激情综合| 亚洲清纯自偷自拍另类专区| 国产精品自在拍首页视频8| m男亚洲一区中文字幕| 67194成是人免费无码| 久久久久久尹人网香蕉 | 国产成人精品一区二区秒拍1o| 中国精品自拍| 久久久久亚洲AV成人人电影软件 | 亚洲性视频网站| 国产精品偷伦视频免费观看国产| 国产无码性爱一区二区三区| 国产在线观看91精品亚瑟| 国产肉感大码AV无码| 午夜无码一区二区三区| 18黑白丝水手服自慰喷水网站| 免费全部高H视频无码无遮掩| 亚洲91在线精品| 国产精品太粉嫩高中在线观看| 亚洲区视频在线观看| 久久人人妻人人爽人人卡片av| 国产91小视频在线观看| 欧美精品aⅴ在线视频| 久草视频中文| 国产91成人| AV熟女乱| 色婷婷久久| 91精品视频播放| 国产精品一区在线观看你懂的| 欧美国产成人在线| 青青草原国产av福利网站| 日韩精品无码不卡无码| 啦啦啦网站在线观看a毛片| 久久永久免费人妻精品| 2024av在线无码中文最新| 国产黄在线观看| 九月婷婷亚洲综合在线| 亚洲国产天堂久久综合226114| 国产精品区视频中文字幕| 国产97色在线| 五月天久久综合国产一区二区| 99久久国产综合精品女同| 国产福利在线免费| www.91中文字幕| 99热这里只有成人精品国产| 欧美激情第一区| 中国一级毛片免费观看| 制服丝袜亚洲| 国产精品视频猛进猛出| 亚洲人成影视在线观看| 精品国产欧美精品v| 久久窝窝国产精品午夜看片| 亚洲久悠悠色悠在线播放| 欧美视频在线不卡| 中国国产A一级毛片| 乱系列中文字幕在线视频 | 久久视精品| 午夜欧美理论2019理论| 亚洲成人高清在线观看| 久视频免费精品6| 国产精品视频久| 美女高潮全身流白浆福利区| 亚洲美女久久| 日韩乱码免费一区二区三区| 亚洲人成影院在线观看| 国产欧美日韩综合在线第一| a毛片免费在线观看| 国产午夜福利亚洲第一| 亚洲乱伦视频| 老司机久久精品视频| 午夜免费小视频|