
















摘" 要: 目前,建筑場所上仍存在因建筑護欄缺失或建筑護欄安全性降低而導致的建筑工人高空墜亡事件。針對該問題,提出一種基于改進YOLOv5s的建筑護欄檢測算法。首先,針對建筑護欄普遍存在的安全隱患,收集影響護欄安全性較大的情況的圖像,例如:建筑護欄欄板的存在圖像、建筑護欄欄板的缺失圖像、護欄網圖像、護欄欄板銜接錯位圖像和護欄欄板銜接正確圖像等,并且制作成訓練數據集。為提升YOLOv5s在復雜環境下多目標檢測任務和區分任務結果的準確率,將新型的Biformer注意力機制與SE注意力機制相結合,嵌入到原模型的特征提取網絡中,并利用CBAMC3取代原特征提取網絡的C3模塊。最后,使用CLAHE算法較大程度地解決部分圖像亮度偏暗,影響檢測精度的問題。實驗結果表明,所提檢測算法的mAP50值和召回率分別達到了79.6%和83%,相比于原YOLOv5s算法分別提高了3.7%和6.8%。
關鍵詞: 目標檢測; 建筑護欄; 改進YOLOv5s; Biformer注意力機制; CBAMC3; CLAHE算法
中圖分類號: TN911.73?34; TP391.4" " " " " " " " " "文獻標識碼: A" " " " " " " " 文章編號: 1004?373X(2024)14?0135?07
Building guardrail object detection based on improved YOLOv5s algorithm
YU Kai1, HONG Tao1, LI Xun2
(1. College of Quality and Safety Engineering, China Jiliang University, Hangzhou 310018, China;
2. Zhejiang Provincial Yijian Construction Group LTD., Hangzhou 310018, China)
Abstract: There are many incidents of construction workers falling from heights on construction sites due to the reduced safety of building guardrails. On this basis, a building guardrail detection algorithm based on improved YOLOv5s is proposed. In allusion to the safety hazards that are prevalent in building guardrails, images that have an impact on guardrail safety, such as images of the presence of building guardrails, images of missing building guardrails, images of guardrail nets, images of misaligned guardrail panel connections, and images of correct guardrail panel connections are collected, and these images are created for a training dataset. In order to improve the accuracy of YOLOv5s detection results when performing multi?target detection and discrimination tasks in complex environments, a novel Biformer attention mechanism combined with SE attention mechanism is embedded into the feature extraction network of the original model, and CBAMC3 is used to replace the C3 module of the original feature extraction network. The use of CLAHE algorithm can largely solve the problem of dim brightness in some images, which affects detection accuracy. The experimental results show that the mAP50 value and recall of the proposed detection algorithm can reach 79.6% and 83%, respectively, which are 3.7% and 6.8% higher than those of the original YOLOv5s algorithm.
Keywords: object detection; building guardrail; improved YOLOv5s; Biformer attention mechanism; CBAMC3; CLAHE algorithm
0" 引" 言
建筑護欄作為一種重要的非結構建筑組成部分,其安全性和耐久性會直接影響到建筑工地工人的生命安全[1],若建筑護欄失效或缺失,將會發生不少建筑工地高處墜亡事件。一種能檢測建筑護欄安全隱患問題的方法成為了建筑工地實現現代安全管理必不可少的需求之一。經過實地調研和分析,目前建筑護欄普遍存在的安全隱患問題如下:護欄欄板缺失以及由于護欄欄板錯誤安裝造成護欄欄板銜接錯位。然而,利用傳統人力檢測這類隱患問題將導致額外的人力和時間消耗,且該方式無法和現代建設安全管理相匹配。
目前計算機視覺技術作為非人工目標檢測方法,擁有提取特征(顏色、形狀和紋理)的能力[2],因此,建筑護欄的目標檢測得以實現。隨著近年來深度學習技術的發展,利用基于深度學習的神經網絡技術可有效提高特征提取能力[3]。這同時也成為了通過建筑護欄圖像發現建筑護欄安全隱患問題,提升隱患問題檢測效率并且解決上述問題的高適應性方法。因此,使用基于深度學習的建筑護欄安全隱患檢測方法十分必要。
基于神經網絡的建筑安全目標檢測研究較多,如張錦等提出一種改進的YOLOv5方法[4],利用K?Means++算法聚類目標框尺寸,并且將多光譜通道注意力(Multispectral Channel Attention, MCA)模塊引入特征提取網絡中,以此強化反背景干擾能力。然而該方法使得算法的參數量較大且檢測速率有所降低。黃志清等人提出了一種嵌入自校準多尺度特征融合模塊的改進YOLOv4算法,以檢測室內工人的安全帽[5]。這種方法提高了監控圖像中模糊和微小物體的檢測準確率,然而實際復雜環境的影響會使得該算法產生誤檢。
對此,本研究則通過對建筑護欄存在的安全隱患形式進行研究,提出了一種改進型的YOLOv5s檢測模型算法,在降低計算量的同時提高了復雜環境下目標檢測識別能力、準確性和效率。
1" YOLOv5s算法原理
本研究所使用的建筑護欄檢測方法的初始核心模型為YOLOv5s,其結構總體分成四部分:第一部分是Input,即輸入端,該端將圖像預先調整方式和錨框自適應鎖定計算方式皆具體應用于輸入圖像中;第二部分是Backbone,即主干網絡,該部分實現了圖像特征的提取,且包含卷積層、C3模塊和計算速度較快的SPPF模塊,其中C3模塊對于特征的提取和學習起到主要作用;第三部分是Neck網絡,即PANet組合網絡,主要作用是融合來自Backbone的不同尺度的特征,其路徑采取自頂向下和自底向上;第四部分是Prediction,即輸出端,主要作用是檢測,其具體形式是將錨定框的功能實現在Neck網絡輸出的特征圖上,最終輸出有效的預測類別[6]。
2" YOLOv5s建筑護欄檢測模型改進
2.1" 特征提取能力強化
單張建筑護欄圖像包含多個目標,且目標位置不固定。此外,由于獲取圖像時的拍攝角度不同,同一目標的外觀存在差異,不同類別的目標導致其在一張圖像中所占的面積差異較大,因此圖像檢測算法在完成圖像檢測后,需要用矩形框精確定位檢測目標。考慮到YOLOv5s的主干網絡在圖形特征提取任務中起到重要的作用[7],本研究利用CBAMC3(Convolutional Block Attention Module C3)模塊取代原主干網絡的C3模塊,因為CBAMC3模塊將通道注意力機制引入內部,使得其能夠對每個通道的特征圖進行加權,同時該模塊擁有C3模塊的全部功能特點。之后,將SE(Squeeze?and?Excitation)注意力機制模塊置于SPPF模塊之后,以幫助YOLOv5s算法更好地專注于重要的特征通道,并提升模型性能[8]。SE和CBAMC3注意力機制模塊的結構分別如圖1和圖2所示。
2.2" 引入Biformer注意力機制
為了使改進的YOLOv5s算法的檢測精度和準確度得到進一步強化,本研究設計在主干網絡的首個CBAMC3模塊和首個卷積模塊之間引入一種新式的注意力機制,即Biformer注意力機制[9]。該設計旨在優化主干網絡靠前部分的計算復雜度,以及提升模型總體的檢測準確度。
傳統的注意力機制在運行過程中不僅計算量大而且內存占用空間大;而本研究的Biformer注意力機制模塊擁有雙層路由,其用于實現計算的有效分配的方式源自動態和查詢(query)感知的方式。因此Biformer注意力機制計算分配具有內容感知且更加靈活,以此避免上述問題,同時其在圖像處理方面有更好的效果。
Biformer注意力機制的整體框架如圖3所示。
通過注意力機制復雜度計算可評估Biformer注意力機制的計算成本,該指標以浮點運算數(Floating Point Operations)的值進行判斷。首先將輸入該注意力機制且尺寸和通道數參數整體為H×W×C的特征圖劃分為n×n個完全無交互的區域。該操作使得每個區域獲得數量為[H?Wn2]的特征向量,最終完整計算公式如下所示:
[FLOPs=FLOPsLP+FLOPsRT+FLOPsTA] (1)
式中:FLOPs為浮點運算數;FLOPsLP為線性投影(Linear Projection);FLOPsRT為Region?to?region Routing;FLOPsTA為Token?to?Token注意力(Token?to?Token Attention)。結合以上特征圖區域劃分后相關參數,可將式(1)進一步拓展為:
[FLOPsTP=3?H?W?C2FLOPsRT=2?(n?n)2?CFLOPsTA=2?H?W?k?H?Wn2?C] (2)
式中參數k為預測任務的結果中可能性最大且從高到低排序靠前的結果數量。將式(2)的各項相加,最后可得到:
[FLOPs≥3?H?W?C2+3?C?k23?214?H?W43] (3)
由式(3)可得,Biformer注意力機制的復雜度為[OH?W43],屬于較低值。
綜上所述,將Biformer注意力機制引入YOLOv5s進行主干網絡特征提取部分的操作,意為以Biformer注意力機制較好的特征提取能力強化特征提取網絡對特征信息的辨識能力,并且可為接下來的特征融合操作步驟提供更精準的特征信息。
此外,Biformer注意力機制相對較低的復雜度,使得建筑護欄目標檢測算法擁有更高的計算效率,同時降低過擬合帶來的影響。改進后的YOLOv5s結構見圖4。
2.3" 優化圖像檢測
本研究所需的建筑護欄皆位于室外,因此在獲取某些圖像的過程中會由于陰暗天氣或樹蔭遮蔽而使得受光照偏少,導致獲取的數據集圖像亮度不足,進而影響到圖像檢測的準確率。為了防止數據集圖像的亮度過暗而導致本研究所用的圖像檢測算法準確度低,使用CLAHE算法解決上述問題[10]。CLAHE算法可有效提升偏暗圖像的亮度,以避免本研究的圖像檢測算法對低亮度圖像的檢測失誤,同時該算法引入改進的YOLOv5s的方式,如圖5所示。輸入的待檢測圖像經過CLAHE算法處理后再輸入到已應用了訓練后參數和權重數據的Prediction模塊中,最后輸出檢測后的圖像。
CLAHE算法在處理圖像時,利用累計分布函數來減小圖像失真率,同時降低其計算復雜度。最終,經CLAHE算法處理前后的圖像對比結果圖如圖6所示。從對比中可明顯發現,CLAHE算法對偏暗的安全建筑護欄圖像有較好的亮度提升作用。
3" 實驗結果與分析
3.1" 實驗數據集
本研究實驗所采集的數據來源于施工現場,并利用無人機對較高樓層處的護欄圖像進行采集。所獲得的數據包括視頻和圖像,其中對視頻進行逐幀查看,提取有用的圖像。最后將這些數據用Labelimg進行標注[11],且標注的內容包括需檢測對象與其相對應的標簽。其中,檢測目標分作五類,分別是護欄欄板完整、護欄欄板缺失、護欄網、欄板銜接正確、欄板銜接錯位。為應對實際環境的復雜情況,數據集中的檢測目標具體背景情況包括:單一目標、多數量同種目標、多數量不同種目標、亮光環境下的目標和偏暗環境下的目標。隨之將采集得到的數據通過8∶1∶1的比例劃分成訓練集、驗證集和測試集。其中,訓練集數據通過名為Mosaic的數據增強方式擴充數據集[12],最終數據集數量為5 670幅。本數據集圖像在訓練前的尺寸統一重新調整為合適訓練且不增顯卡內存壓力的值,取為256×256。
3.2" 實驗環境與訓練
本實驗操作平臺配置如表1所示。其中,Pytorch框架包含了建筑護欄圖像檢測模型的搭建、訓練和結果測試的全套流程,擁有較高版本的硬件顯卡并且提高了模型運算效率。
本實驗的模型訓練參數設置如表2所示。
在表2的參數基礎上,本次實驗置入預訓練權重文件yolov5s.pt于模型訓練階段,并且利用K?means聚類算法將訓練集的目標框進行重聚類,使之適應建筑護欄目標檢測五個類別的目標檢測需求。在優化模型性能方面,本實驗采用AdamW優化器進行模型優化。在模型訓練階段,迭代次數epoch為1時開始采用學習率熱身,并且將初始學習率倍數設置為0.1,在之后每5個迭代進行一次學習率熱身。學習率從初始的0.001開始,在余弦退火算法的處理下逐漸增加到最大值0.1;同時,為了使模型的穩定性能夠穩固,學習率會在訓練的進行階段逐漸減小,降至最小值0.000 01。
在建筑護欄目標檢測算法的訓練過程中,生成的模型結構損失函數(Loss)對模型的性能評價起著重要作用,損失函數值越小代表模型的性能越好,優化效果越好[13]。本實驗得到的算法改進方法訓練后損失函數曲線變化圖如圖7所示。
3.3" 評價指標
為了評估建筑護欄目標檢測算法訓練階段的性能強度,本實驗采用目標檢測算法指標[14],即交并比閾值為50%的平均精度均值(mean Average Precision at 50%, mAP50)、精度(Precision, P)和召回率(Recall, R)。將模型預測正確的正類樣本個數、預測錯誤的正類樣本個數、預測正確的負類樣本個數和預測錯誤的負類樣本個數[15]分別設為A1、A2、B1和B2。在已知檢測類別數量為x以及平均精度為AP的基礎上,可利用這四類參數得到上述三類指標的具體計算公式,如下所示:
[P=A1A1+A2] (4)
[R=A1A1+B2] (5)
[AP=A1+B1A1+B1+A2mAP=y=1xAPyx] (6)
3.4" 實驗結果分析
為了探索三種注意力機制模塊對初始YOLOv5s的影響,本研究通過消融實驗對結果進行了驗證,結果如表3所示。由表3可知,增加Biformer、CBAMC3和SE模塊組合對整個算法的性能提升最大。
本實驗所使用的建筑護欄目標檢測算法簡稱為YOLOv5s?BCS。為了驗證改進算法的實際效果,本研究利用YOLOv5s?BCS和初始YOLOv5s的訓練曲線進行比較。訓練曲線以epoch為x軸,以第3.3節中的三類指標為y軸。對比結果如圖8~圖10所示。由圖8~圖10可以看出,YOLOv5s?BCS的曲線收斂速度比初始YOLOv5s的曲線快,而且在最后一個epoch,YOLOv5s?BCS的所有mAP值均高于初始YOLOv5s的值。
在相同的數據集和配置條件下,本研究使用通用率較高的深度學習目標檢測網絡,如三重尺度訓練的YOLOv5s(將訓練圖像大小分別重置為64×64、96×96和128×128,然后隨機輸入訓練網絡)、具有CBAMC3注意力機制的YOLOv5s、具有SE注意力機制的YOLOv5s、具有Biformer注意力機制的YOLOv5s以及同為輕量級網絡的YOLOv5n,對實驗結果進行綜合比較。數字編號 1~5分別代表有護欄板、無護欄板、護欄網、護欄欄板銜接正確和護欄板銜接錯位。實驗的具體結果如表4所示。其中,YOLOv5s?BCS的mAP50值最高,最能勝任建筑護欄的目標檢測算法。使用YOLOv5s?BCS模型結合 CLAHE算法檢測圖像的最終結果如圖11所示。
從圖11中可以看出,YOLOv5s?BCS 的檢測算法結合CLAHE算法,最終可以在建筑護欄的五種目標檢測中,將全部檢測目標鎖定在矩形框內部。綜上所述,本實驗中YOLOv5s的改進算法在多目標情況下,對建筑護欄目標檢測的五類目標的檢測效果較好。
4" 結" 語
本研究提出了一種改進型YOLOv5s建筑護欄檢測算法。首先,收集相關圖像數據,建立數據集;然后,利用CBAMC3模塊替代Backbone的C3模塊,并在初始 YOLOv5s的特征提取網絡中加入了Biformer和SE注意力機制,以提高檢測模型的檢測能力和區分能力;最后,利用CLAHE算法解決了部分圖像亮度較暗,對檢測精度影響較大的問題。經過對比實驗,顯示本研究改進的算法在綜合方面呈現出更好的檢測效果。由于實際存在目標檢測任務中目標數量多、目標區分任務中目標外形相似度高的情況,使得置信度還有上升空間。未來的研究方向則是進一步提升網絡模型在包含其他建材的復雜環境下的多目標檢測精度。
注:本文通訊作者為洪濤。
參考文獻
[1] 樊莉昌,蘇中華,劉中明,等.建筑用玻璃與金屬護欄實驗室檢測設備研究[J].中國測試,2020,46(z1):100?104.
[2] 郭陽陽,洪文浩,丁屹,等.基于坐標注意力機制和YOLOv5s模型的山羊臉部檢測方法[J].農業機械學報,2023,54(7):313?321.
[3] 李廣博,查文文,陳成鵬,等.基于改進YOLOv5s的豬臉識別檢測方法[J].西南農業學報,2023,36(6):1346?1356.
[4] 張錦,屈佩琪,孫程,等.基于改進YOLOv5的安全帽佩戴檢測算法[J].計算機應用,2022,42(4):1292?1300.
[5] 黃志清,張煜森,張嚴心,等.基于改進型Yolov4的室內安全帽佩戴狀態檢測算法[J].天津大學學報(自然科學與工程技術版),2023,56(1):64?72.
[6] LIN H, JIANG F, JIANG Y, et al. A model for helmet?wearing detection of non?motor drivers based on YOLOv5s [J]. Computers, materials amp; continua, 2023, 75(3): 5321?5336.
[7] WANG S, ZHU J, LI Z, et al. Coal gangue target detection based on improved YOLOv5s [J]. Applied sciences, 2023, 13(20): 11220.
[8] 周彥,孟江南,王冬麗,等.基于多尺度輕量化注意力的鋼材缺陷檢測[J].控制與決策,2024,39(3):901?909.
[9] ZHU L, WANG X, KE Z, et al. BiFormer: vision transformer with Bi?level routing attention [EB/OL]. [2023?09?18]. http://arxiv.org/abs/2303.08810.
[10] 金豪.基于深度學習的公路護欄目標檢測方法研究[D].重慶:重慶交通大學,2022.
[11] 劉閃亮,吳仁彪,屈景怡,等.基于A?YOLOv5s的機場小目標檢測方法[J].安全與環境學報,2023,23(8):2742?2749.
[12] FANG C, XIANG H, LENG C, et al. Research on real?time detection of safety harness wearing of workshop personnel based on YOLOv5 and OpenPose [J]. Sustainability, 2022, 14(10): 5872.
[13] TANG X, RU X, SU J, et al. A transmission and transformation fault detection algorithm based on improved YOLOv5 [J]. Computers, materials amp; continua, 2023, 76(3): 2997?3011.
[14] QIAN Y, WANG B. A new method for safety helmet detection based on convolutional neural network [J]. PLOS ONE, 2023, 18(10): e0292970.
[15] WANG L, ZHANG X, YANG H. Safety helmet wearing detection model based on improved YOLO?M [J]. IEEE access, 2023, 11: 26247?26257.