999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合注意力機制與C2f的行人檢測算法研究

2024-02-21 06:00:32王志新王如剛王媛媛郭乃宏
軟件導刊 2024年1期
關鍵詞:機制特征檢測

王志新,王如剛,王媛媛,周 鋒,郭乃宏

(1.鹽城工學院 信息工程學院,江蘇 鹽城 224051;2.鹽城雄鷹精密機械有限公司,江蘇 鹽城 224006)

0 引言

行人檢測技術已成為目標檢測領域的一個重要組成部分,它不僅有助于自動駕駛,還可以為智慧城市提供支持,因此受到了學術界的高度重視和廣泛關注[1-2]。行人是社會場景中最為重要的部分,隨著無人駕駛不斷發展和智慧城市加快構建,其對行人檢測的要求也有了進一步提高[3-5]。同時,因為行人的尺度變換、遮擋、密集等問題,行人檢測精度仍有提升需求。此外,行人檢測效率也是學術界高度關注的一個方面。

針對行人檢測時行人目標會出現漏檢、誤檢等問題,研究人員提出各種方法以解決這一問題。通常做法是在特征提取階段加以改進,既可以在Backbone 層利用淺層網絡和深層網絡的交互幫助淺層和深層網絡分別獲取細粒度特征和語義信息,進而提高特征提取能力,也可以在Neck 層通過融合不同層級的特征圖提高表征能力。2017年,Lin 等[6]設計出特征金字塔網絡,其采用自上而下的方式實現淺層和深層等各不同層次特征圖之間的信息流動,能夠確保每一層特征圖都有相應的語義信息和合適的分辨率。2018 年,Hu 等[7]為了提高檢測精度,通過引入注意力機制獲取周邊信息以幫助網絡識別檢測目標。2019 年,侯帥鵬等[8]開發出一種新型的Top-Down 融合單元,它能夠實現高層語義信息與低層細節信息的融合,從而提高了小尺度行人的檢測精度。此外,該技術還利用Mobile-NetV2 及深度可分離卷積,極大增強了識別的及時性。2020 年,王丹峰等[9]采用深度可分離卷積和Inception 網絡結構,將其融入到YOLOv3,實現檢測精確度和速率提升。2021 年,馮宇平等[10]通過融合通道注意力機制,引導網絡關注行人,實現檢測精度提升。2021 年,Yan 等[11]將SE Block 模塊嵌入至YOLOv5的Backbone 中,以突出特征圖中的重要特征,抑制不相關特征,使mAP 提升1.44%,從而提高網絡檢測性能。2021 年,許虞俊等[12]將ECA 和Ghost 技術引入YOLONano,以減小模型計算復雜度,同時針對原有算法檢測框定位出錯的問題,采取D-IoU loss 替換原有損失函數,從而實現輕量化和模型性能提升。2023 年,陳勇等[13]提出融合多個注意力機制,實現了小尺度行人檢測精度提升。

從現有研究成果看,通過融合注意力機制和不同層次特征圖可以有效提升精確度,并且采用各種輕量化卷積操作和改進網絡結構有效提升檢測速度。但是,由于在現實場景中背景信息復雜,行人目標的像素相對不足,且因為行人目標多會受到外界影響,例如出現遮擋、陰影覆蓋等狀況從而導致行人檢測出現漏檢、誤檢等情況[14-15]。以上方法都未能有效利用淺層特征圖中豐富的小尺度行人特征,故本文提出一種基于混合注意力機制和C2f(Client to Front)的YoloX 改進算法。通過交互淺層與深層行人特征信息,再以此進行特征增強可有效提升行人檢測精度并降低漏檢率,同時采用自注意力機制抑制背景信息對行人特征的干擾。此外,使用ECA 注意力機制解決因自注意力機制導致的中小尺度檢測精度降低的問題,且采用C2f 模塊與混合域注意力機制BAM 融合以實現行人目標檢測精度和運行效率提升。

1 算法設計結構

基于YoloX 算法改進后的模型如圖1 所示。該模型由4 個模塊構成,特征提取模塊提取淺層和深層包含不同特征信息的特征圖,相較于YoloX 原有的C3 模塊,C2f少了一層卷積的同時更多地使用跳層連接,可以獲取更為豐富的梯度流信息;特征金字塔模塊融合各層次的特征圖,通過淺層和深層特征圖之間的信息交互,以便利用不同特征層的特征信息,引入注意力機制和C2f模塊,提取豐富的行人特征,可以有效處理因網絡加深導致行人特征減少的問題;在YoloX 算法中設計一個特征增強模塊,通過特征融合策略促使不同層次的特征圖獲取其他特征圖的相同信息并引入注意力機制以增強行人特征;基于特征增強模塊設計一個檢測模塊以完成行人目標預測,獲取預測邊界框。

Fig.1 Model structure圖1 模型結構

1.1 特征提取模塊

YoloX 的特征提取模塊采用CSPDarknet 網絡實現特征提取,其主要由CBS 模塊、C3 模塊和SPP 模塊組成。首先通過Focus 模塊獲取沒有信息丟失的特征圖,然后依次通過4 個C3 模塊獲取不同分辨率的特征圖,最后加入空間金字塔池化(Spatial Pyramid Pooling,SPP),擴大網絡的感受野。本文改進之處是采用C2f 模塊替換原本的C3 模塊,并使用SPPF 模塊擴大網絡的感受野。圖2 中的(a)和(b)圖分別表示C3模塊和C2f模塊。

Fig.2 C3 module and C2f module圖2 C3模塊與C2f模塊

C2f模塊參考了C3 模塊和ELAN(Efficient Layer Aggregation Network)的設計思想,相對于原本的C3 模塊少了一層卷積,并且采用Split 進行特征分層,并使用了更多的跳層連接,以便在進行特征提取時保證輕量化并獲得更為豐富的梯度流信息。相對于SPP 模塊,SPPF 模塊采用了多個小尺寸池化核級聯,可以在擴大感受野的同時進一步提高運行速度,節省了計算成本。

1.2 特征金字塔模塊

特征金字塔是通過自上而下對特征信息進行多尺度融合,由于是單向傳遞特征信息,故容易在特征增強過程中丟失細節信息。因此,本模塊采用雙向特征金字塔通過淺層和深層特征圖之間的信息交互,針對淺層特征圖具有的豐富細節信息和深層特征圖具有的豐富語義信息這一特點,上采樣深層特征層{C4}與淺層特征層融合傳遞豐富語義信息的同時,下采樣淺層特征層{C2}與深層特征層融合以確保淺層特征層中豐富的細節信息能夠向深層特征層傳遞。這種方法盡可能地保留了行人信息,避免丟失細節信息,一定程度上解決了信息流單向傳遞的問題。

通過卷積神經網絡獲取的行人特征擁有兩個關鍵點:①行人特征主要留存在淺層特征圖,也即{C2,C3}特征圖含有相關的行人特征,雖然特征金字塔可以實現不同層次特征圖之間的信息流動,但依然會抑制一定的行人特征;②行人特征不明顯,特征圖中包含許多背景信息,因此如何增強行人特征,抑制無用特征尤為重要。

因此,為了實現行人檢測速度和精度提升,將雙向特征金字塔模塊中的C3 模塊替換為C2f-BAM 模塊。C2f-BAM 模塊通過引入注意力機制可以有效地增強行人特征以提升檢測效果,且由于采用了空洞卷積,故可以在不增加過多參數量的同時獲取更為豐富的感受野。C2f-BAM模塊如圖3所示。

Fig.3 C2f-BAM module圖3 C2f-BAM 模塊

1.2.1 C2f-BAM模塊

通過利用注意力機制,可以從特征圖中提取出有價值的信息,將注意力機制應用于行人檢測可以更好地突出行人特征。其中,空間注意力機制、通道注意力機制和混合域注意力機制[16-18]都具有多種優勢,因而被廣泛應用于各種目標檢測,尤其是在行人檢測中,它們的作用更加顯著。此外,由于混合域注意力機制融合了多種注意力機制,兼顧了不同注意力機制的優點,因而混合域注意力機制的使用范圍尤為廣泛,特別是在目標檢測中應用頗多。

相對于通道注意力,混合域注意力不僅僅對特征圖的各通道進行了權重提取,還考慮了空間各部分的權重參數和空間部分的特征信息。常見的混合域注意力機制主要是BAM 和CBAM,二者設計思路相似,不同之處在于BAM將通道注意力與空間注意力并聯,獲得的權重結果按元素相加的方式進行結合,而CBAM 則依次添加通道注意力和空間注意力[20]。

C2f-BAM 模塊通過C2f 模塊與通道注意力模塊(ACAM)和空間注意力模塊(MSAM)相結合。可以通過ACAM 抑制特征圖中的噪聲等無用信息,并且使用MSAM保留所需的行人信息。同時,采用并行結構,進一步提升了運行速度。BAM 模塊結構如圖4 所示,BAM 計算表達式如式(1)—式(3)所示。

Fig.4 BAM module圖4 BAM模塊

輸入的特征圖分別使用通道注意力與空間注意力加以處理。在通道注意力中,為了聚合特征圖的通道維度,采用全局平均池化;同時為了評估通道效果,使用一個多層感知(MLP),且在MLP 之后,增加BN 以調整規模和空間分支一樣的輸出。在空間注意力中,利用上下文信息選擇性增強或者抑制特征,同時采用空洞卷積,相對于普通卷積,空洞卷積可以更有效地增大感受野。

1.3 特征增強模塊

通過特征金字塔獲取的3 個特征圖,實現了行人特征部分增強,并抑制了背景信息等無效特征。此外,因為特征金字塔可以實現多層次特征圖的交互,導致行人特征與背景信息等無用特征相交互。因此,可以通過在特征金字塔和預測網絡中間插入一個特征增強模塊以實現行人特征增強[21]。特征增強模塊如圖5 所示,首先通過融合之前獲取到的不同層次的特征圖,使得特征圖獲取相互之間的共有信息,從而突破特征金字塔的層級結構,盡可能地保留淺層特征圖中的行人特征;然后,使用自注意力模塊獲取特征圖中特征點之間的關聯性,利用全局信息引導網絡關注行人特征,從而實現目標特征增強并抑制噪聲等無用特征的目的;再通過上采樣、最大池化、卷積操作將特征圖大小恢復到和原始特征圖一致后,再使用ECA 模塊獲取不同通道的權重系數,從而引導網絡關注行人目標;最后,使用3 個相同檢測模塊分別對實現特征增強效果的{P2'',P3'',P4''}3 個特征圖進行對應目標類別、回歸、位置等信息的預測。

1.3.1 特征融合

通過融合不同層次的特征圖,使得各特征圖可以獲取其他不同分辨率的特征圖中的共有信息。將獲取的特征圖{P2,P4}大小進行處理以便與特征圖{P3}保持一致,從而實現特征融合。特征融合策略的計算表達式如式(4)所示。

其中,Fm、Fu和Conv 分別是最大池化、上采樣和卷積操作,作用是調整特征金字塔輸出特征圖的分辨率以保持一致,并通過卷積操作調整特征圖的通道數,以進行特征融合從而獲取一個新的特征圖。

1.3.2 自注意力機制

利用卷積神經網絡進行特征提取時,采用卷積層和池化層進行特征提取并擴大感受野,從而導致提取行人特征時會忽略全局信息。自注意力模塊可以通過對像素之間建立相互關系從而獲得較為密集的全局信息。其模塊結構如圖6所示。

Fig.6 Self-attention module圖6 自注意力模塊

首先,使用自注意力模塊將先前獲取的兼具淺層特征圖中豐富細節信息和深層特征圖中豐富空間信息的特征圖的大小建立為C×HW;接著,使用1×1 卷積對{Pm}特征圖進行線性映射操作,獲取g(Pm),θ(Pm),?(Pm);然后,對進行矩陣相乘,從而獲得特征圖空間關聯性矩陣;最后,對上一步獲取的空間關聯性矩陣進行歸一化處理,再與初始的映射矩陣相乘,獲取自注意力響應,其表達式為:

其中,W?、Wg、Wθ分別是1×1 卷積核中的可學習參數,利用1×1 卷積實現特征圖的線性映射。其計算可用式(10)表示。

其中,Wz表示1×1卷積核中的可學習參數。

1.3.3 ECA注意力機制

神經網絡通常通過標注的全局信息獲取行人特征,但如果行人被遮擋,且因為被遮擋部分對于預測值的計算十分重要,導致提取的特征與預測的不匹配,從而出現漏檢情況。為了解決該問題,可以添加通道注意力機制,對通道權重進行重標以減緩遮擋問題對行人檢測的干擾,從而確保網絡關注行人目標。SENet(Squeeze-and-Excitation Networks)通道注意力機制[22]可以建立特征圖中的空間相關性,但是SENet 因為采用降維操作會降低獲取依賴關系效率,從而導致預測通道注意力方面產生不足。因為卷積具有良好的跨通道信息獲取能力,WANG 等[23]通過在SENet 中使用一維卷積替換掉全連接層FC,從而成功地避免了降維,并且有效地獲取了跨通道交互的信息,在提升性能的同時減少了計算量,實現了一種輕量級的高效通道注意力模塊(Efficient Channel Attention Module,ECA)設計。ECA 結構如圖7 所示,首先將特征圖通過全局平均池化,將其維度從C·H·W 壓縮到1×1×C 的規格;然后使用1×1 卷積,通過通道特征學習從而獲取相對應的權重系數,此時輸出維度為1×1×C[24];最后,將處理后的特征圖與原始的特征圖逐通道相乘,獲取結合了通道注意力的特征圖。

Fig.7 ECA module圖7 ECA模塊

k與C的關系如式(11)所示。

其中,C表示通道數,k表示1×1 卷積的卷積核數,表示距離最近的奇數,γ和b分別設為2和1。

1.4 預測模塊

最后的預測網絡分為3 個部分,通過類別預測、位置預測、回歸預測這3 個部分獲取預測邊界框。位置預測和類別預測采用交叉熵損失為損失函數,回歸部分的損失函數采用IoU 損失。類別部分的損失函數計算如式(12)所示,位置部分的損失函數計算如式(13)所示,回歸部分的損失函數計算如式(14)所示,IoU的計算如式(15)所示。

其中,N、M、Z依次為類別、位置、回歸部分的樣本總數;gti和gtj依次為類別、位置和部分真實框的類;pi是類別部分的特征點類別預測結果,pj為位置部分的特征點是否包含物體的預測結果;(xl,xt,xr,xb)和則是預測框和真實框左上角與右下角的坐標。最終損失函數公式由類別、位置、回歸這3 個損失函數以不同的權重系數組合而成,如式(20)表示。

其中,θ為網絡學習參數,λc為權重因子,參照文獻[25]設置為5。

2 實驗與結果分析

2.1 實驗數據與評價指標

實驗所用數據集為CrowdHuman,該數據集是由曠世提供的一個用于行人檢測的數據集,包含訓練集15 000張,測試集5 000 張,驗證集4 370 張,每張圖片大約包含23個人,同時這些圖片包含了各種情況下的行人圖,例如遮擋、小目標等狀況[23]。該數據集下行人所處的環境多種多樣,面臨的挑戰較多,能夠很好地檢驗模型性能。評價指標采用平均準確率(Average Precision,AP)和幀率(Frames Per Second,FPS),可以更加清晰地反映出實驗模型在識別行人時的精確程度和效果。AP 和FPS 的提升將有助于提升系統整體效果,從而更有效地完成任務。其中,AP 值越高表示實驗模型檢測行人目標的性能越好;FPS 值越高表示實驗模型的運行速度越快。本文依據COCO 數據集對不同尺度目標的劃分標準如表1所示。

Table 1 Criteria for dividing targets at different scales表1 不同尺度目標的劃分標準

本文實驗使用Pytorch 深度學習框架進行模型改進,硬件配置為Intel(R)Core(TM)i7-12700H CPU,NVIDIA Ge-Force RTX3090 和64GB 內存。軟件環境為Python3.6、Cuda10.1、Pytorch3.6和Numpy 1.17.0。

2.2 實驗結果與分析

2.2.1 實驗設置

在訓練階段,將CrowdHuman 數據集圖片分辨率設置為640×640,每個訓練批次大小設置為4 張圖,迭代次數設置為150。通過色域扭曲、翻轉圖像、縮放圖像等操作隨機預處理輸入圖像,使用自適應片矩估計(Adaptive Moment Estimation,Adam)優化器,初始學習率為0.000 1。

2.2.1 實驗比較

為了驗證改進模型的效果,將改進后的模型分別與Yolov4[26]、RetinaNet[27]、CenterNet[29]、YoloX、YoloX-SA-SE等5 種模型進行對比。實驗結果如表2 所示,檢測效果比較如圖8所示。

Table 2 Comparison of the experimental results表2 實驗結果比較(%)

Fig.8 Comparison of experimental results圖8 實驗結果比較

從表2 可以看出,改進后的模型在IoU 閾值為0.5 時(對應AP50),檢測準確率達73.2%,提升了1.5%。此外,小尺度行人檢測準確率提升了3.1%,中尺度行人檢測準確率提升了2.6%,大尺度行人檢測準確率提升了2.2%。與幾種常用目標檢測算法(RetinaNet,Yolov4 和CenterNet)相比,檢測精度分別提高了13%、9%、3.2%。相較于最新的一種基于YoloX 改進的YoloX-SA-SE 行人檢測算法,檢測精度也提高了0.5%。可以看出,YoloX 算法相比一些經典算法,無論是何種尺度的行人目標,其檢測精度都有所提升。其中,最新的一個YoloX-SA-SE 的改進算法利用CSP模塊和雙向特征金字塔網絡以及注意力機制保留淺層特征信息,利用殘差結構、信息流動避免行人信息缺失從而實現了檢測精度提升。本文模型相較于對比算法,性能均有一定提升。一方面,特征金字塔模塊與特征增強模塊通過淺層與深層之間的信息流動,有效地融合不同尺度特征層地的語義信息,避免了網絡深度造成的信息缺失或特征變弱問題,實現了特征增強的目標;另一方面,C2f 模塊與混合域注意力機制融合,可以借由BAM 提取豐富的行人特征,同時利用C2f 模塊的跳層結構可以有效地獲取更加豐富的梯度流信息,并實現了一定的輕量化目標。

2.2.2 模塊驗證實驗

依次引入不同的模塊進行實驗,模塊驗證結果如表3所示。從實驗結果可以看出,在YoloX 算法引入特征增強模塊可以有效地提升模型檢測精度。①特征增強模塊可以通過特征融合有效利用淺層特征層中的小尺度行人特征,避免小尺度行人特征因網絡加深而丟失的問題;②自注意力機制通過提取特征的上下文信息獲取密集的全局信息,從而抑制背景信息對行人檢測的干擾,但這一操作也會抑制中小尺度行人特征;③針對自注意力機制在抑制背景信息的同時也會抑制小尺度行人特征,采用ECA 注意力機制通過通道關聯性的非線性建模增強行人特征。C2f-BAM 模塊也可以基于C2f模塊采用更多的跳層連接以獲取更加豐富的梯度流信息,并通過減少卷積層和采用Split 分層實現檢測速度提升。此外,通過C2f 模塊與混合域注意力機制BAM 結合,可以保存更多的行人特征從而提升行人檢測精度。綜上,各模塊有效提升了行人檢測精度。實驗結果表明,當IoU 閾值設置為0.5 時,相對于原本算法,改進模型的檢測精度分別提升了0.5%和1.5%,說明本文模型各模塊能夠提升行人檢測精度。

Table 3 Verification results of modules表3 模塊驗證結果(%)

2.2.3 運行效率

為了測試本文模型運行效率,在CrowdHuman 數據集上進行相關實驗。評價指標采用FPS 指標,FPS 值表示算法每秒鐘處理的圖片數量。FPS 值不僅與算法模型有關,還與硬件配置有關,FPS 值越大,意味著模型運行速度越快,效率越高。本文選取Yolov4、Faster R-CNN[30]、YoloXSA-SE 這3 種對比算法,實驗結果如表4 所示。可以看出,本文算法模型的檢測速度為24.3 FPS(幀/s),本文模型的檢測速度相較于其他相關算法具有一定優勢。

Table 4 Operational efficiency results表4 運行效率結果

3 結語

為了提高行人檢測精確度,降低其誤檢率、漏檢率等,本文提出了一種基于混合注意力機制和C2f的行人檢測算法。在YoloX 算法基礎上,設計了一個特征增強模塊,并且引入了注意力機制和C2f模塊。通過在特征提取模塊引入C2f 模塊,可以獲取豐富的梯度流信息并實現一定的輕量化;在特征金字塔模塊采用C2f 模塊融合BAM 注意力機制可以有效地保留行人特征;通過設計特征增強模塊,可以通過特征融合策略盡可能保留足夠的中小尺度行人特征,同時引入自注意力機制結合特征的上下文信息以增強行人特征并抑制背景細節信息。此外,通過ECA 注意力機制引導網絡關注行人目標,解決因為自注意力機制導致的中小尺度行人特征被抑制的問題。本文通過設計一個特征增強模塊并采用C2f 模塊與混合域注意力機制BAM 相結合可以有效增強行人特征,并抑制背景信息等無用特征,從而實現提升行人目標檢測準確度和檢測速度的目的。下一步將對行人檢測遮擋問題進行研究,進一步提升模型性能。

猜你喜歡
機制特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 综1合AV在线播放| 日韩av电影一区二区三区四区| 亚洲性一区| 精品视频在线一区| 91成人试看福利体验区| 亚洲精品国产日韩无码AV永久免费网| 亚洲一本大道在线| 在线观看免费AV网| 精品一区二区三区无码视频无码| 亚洲第一黄片大全| 国产成人综合久久| 99久久国产综合精品2020| 国产高清在线精品一区二区三区| 天堂中文在线资源| 四虎影视8848永久精品| 久久久91人妻无码精品蜜桃HD| 91系列在线观看| 精品无码国产一区二区三区AV| 午夜福利无码一区二区| 九九这里只有精品视频| 国产性精品| 伊人大杳蕉中文无码| 亚洲无码高清免费视频亚洲| 在线精品视频成人网| 成人午夜天| 人妻21p大胆| 高清免费毛片| AV在线天堂进入| 国产一在线观看| av色爱 天堂网| 欧美一级大片在线观看| 国产精品亚洲一区二区三区z| 久久这里只精品国产99热8| 亚洲国产精品美女| 亚洲日韩精品综合在线一区二区| 日韩精品高清自在线| 国产第四页| 成人中文在线| 久久久久久久久久国产精品| 精品欧美日韩国产日漫一区不卡| 久久人搡人人玩人妻精品一| 国产无码网站在线观看| 亚洲精品国产综合99| 毛片久久久| 亚洲国产成人综合精品2020| 成人福利在线观看| 婷婷色婷婷| 日韩欧美国产另类| 国产女人18水真多毛片18精品| 999国产精品| 亚洲三级片在线看| 国产乱子伦手机在线| 午夜国产理论| 国产伦精品一区二区三区视频优播| 国产一区二区精品高清在线观看| 亚洲欧美不卡| 亚洲高清无在码在线无弹窗| 五月婷婷导航| 3p叠罗汉国产精品久久| 亚洲高清国产拍精品26u| 亚洲日韩在线满18点击进入| 最新国产高清在线| a级免费视频| 亚洲日本中文字幕天堂网| 亚洲中文精品人人永久免费| 日韩成人免费网站| 999精品视频在线| 国产91小视频| 一级毛片无毒不卡直接观看| 欧美色香蕉| a级毛片一区二区免费视频| 亚洲视频免费播放| 免费看黄片一区二区三区| 97av视频在线观看| 日韩毛片基地| 国产哺乳奶水91在线播放| WWW丫丫国产成人精品| 久久精品国产国语对白| 国产一级在线观看www色| 亚洲精品无码在线播放网站| 夜夜操国产| 精品国产aⅴ一区二区三区|