










摘 要:采用人工智能技術對采掘工作面工人工作行為進行實時識別,確保采掘過程安全,并減少因不安全行為導致的事故,對保障安全采掘生產具有重大意義。本文提出了一種基于改進YoloV5和SlowFast的采掘工作人員不安全行為檢測算法。針對井下黑暗、灰霾的情況,通過融合CLAHE(對比度限制自適應直方圖均衡化)和雙邊濾波方法,對導入視頻進行光照增強和去噪處理。對YoloV5目標檢測模型的骨干和頭部網絡進行輕量化改進,以提高模型推理速度,并融合Detectron2算法對工作環境進行語義分割,實現對工作人員的跟蹤鎖定與精確識別,降低了環境干擾。通過改進的SlowFast網絡分析人體骨骼關鍵點的動態變化,實現對不安全行為的有效識別。實驗結果表明:該算法對攀爬、躺倒、玩手機、無人監管4種不安全行為的識別平均準確率達到92.3%,為采掘工作安全管理提供了有力的技術支持。
關鍵詞:計算機視覺;采掘安全;目標檢測;姿態估計;行為識別
中圖分類號:TD76"""""" 文獻標識碼:A""""""" 文章編號:2095-9699(2024)06-0032-08
當前,礦山采掘工作的智能化和無人化水平仍較低,導致人員傷亡事故時有發生[1]。盡管采掘技術和安全保護措施都在不斷提升,采掘工作人員的不安全行為仍然是引發事故的重要原因之一[2-3]。在較惡劣的礦井采掘工作環境下,仍然未對采掘工人不安全行為進行有效的預警、監測和分析,給事故發生埋下了安全隱患。
隨著科技的不斷發展,降低煤礦生產安全隱患,推進智慧礦山建設已經迫在眉睫。在此背景下,人工智能技術在礦井人員行為識別中得到逐步應用[4-5]。通過對3D-Attention行為識別算法的改進,李占利等[6]完成了對煤礦井下工人的跑、跳等不安全行為的識別,但其檢測行為較為簡單且單一。劉浩等
[7]采用OpenPose神經網絡提取人體骨骼關鍵點,并將提取的骨骼信息輸入時空圖卷積網絡(ST-GCN)以實現行為識別,從而檢測出多種井下工人的不安全行為,然而在不安全行為的分類和說明上存在不足。溫廷新等[8]提出基于遷移學習和深度殘差網絡的圖像識別方法用于煤礦工人不安全行為的分類和識別,但對復雜動作的識別率較低。
綜上所述可知,圖像特征的行為識別方法在礦山采掘場景中得到了應用,但仍面臨以下挑戰:①環境因素:礦山場景復雜多變,塵埃與黑暗等因素對不安全行為識別造成干擾;②算法限制:常見算法實時性低,檢測精度不夠,無法及時準確識別和預警不安全行為[9-10]。
針對上述問題,本文基于YoloV5[11]和SlowFast網絡對采掘工作人員不安全行為檢測算法進行了改進,綜合考慮了工作人員的姿態與時序特征。首先,對輸入的視頻進行光照增強和去噪處理,以緩解塵埃和光照帶來的問題;接著,改進YoloV5的骨干和頭部網絡以實現輕量化,從而提高模型推理速度和實時性;然后,融合Detectron2[12]算法對工作環境進行語義分割,確保對采掘工作人員的精確跟蹤和人體骨架特征的識別,以降低環境干擾;最后,改進SlowFast網絡分析人體骨骼關鍵點的動態變化,實現對采掘工作人員不安全行為的有效識別,并進行實驗研究。
1 采掘工作人員不安全行為識別框架
在采掘工作期間,工作人員經常出現攀爬、躺倒、玩手機和無人監管等不安全行為[1-3]。這些行為給采掘工作帶來了較大的安全隱患,容易引發礦業安全與環保問題。因此,本文主要針對這四種不安全行為進行識別和分析。
圖1為采掘工作人員不安全行為識別流程圖。首先,通過攝像頭實時攝錄采掘工作人員工作環境,并對視頻進行光照增加和降噪處理,以獲得清晰的視頻數據;接下來,利用YoloV5算法進行對象識別,包括識別采掘工作人員、工作環境及其狀態;在YoloV5算法檢測的基礎上,再利用Detectron2算法提升檢測精度,以應對惡劣環境的挑戰,Detectron2還用于對每個人體目標進行姿態估計,精確定位每個人的人體骨骼關鍵節點,確保這些信息滿足行為識別網絡的質量要求;最后,應用SlowFast行為識別算法,對采掘工作人員動作進行識別,并將其分類判別,當檢測到不安全行為時,系統將發出警告提醒,以減少安全事故的發生。
2 采掘工作人員不安全行為識別方法
2.1 利用CLAHE和雙邊濾波改善圖像質量
對比度限制自適應直方圖均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)[13]和雙邊濾波(Bilateral Filtering)[14]是兩種用于改善圖像質量的技術,各有其獨特的特點。CLAHE通過對比度受限的自適應直方圖均衡化來增強圖像的局部對比度。CLAHE將圖像劃分為多個小塊(tiles),并在每個小塊內應用直方圖均衡化,同時對直方圖的峰值進行裁剪(clip limit),從而避免過度增強噪聲。然后,采用雙線性插值方法平滑小塊之間的邊界,確保圖像的整體一致性。這種方法能夠有效提升圖像細節和視覺效果,使得圖像在亮度和對比度上更加均衡。
雙邊濾波不僅考慮像素之間的空間距離,還考慮像素值的差異,從而解決高斯濾波造成的邊緣模糊問題。通過這種雙重加權的方式,使雙邊濾波在去除噪聲的同時,保留了圖像細節和邊緣信息。它對相似顏色的像素進行加權平均,減少噪聲,且不會模糊圖像中的重要結構。
通過將CLAHE和雙邊濾波結合使用,可以充分發揮兩者的優勢,實現圖像的光照增強和降噪。首先,通過CLAHE對圖像進行處理,增強局部對比度,使得圖像在亮度和細節上更加清晰,該方法能夠顯著改善圖像的視覺效果,尤其是在光照條件不理想的情況下;然后,應用雙邊濾波對增強后的圖像進行降噪處理,這樣可以有效去除由于CLAHE增強過程可能帶來的噪聲,同時保留圖像的邊緣細節,顯著降低黑暗、塵埃等環境因素對人員不安全行為檢測的影響。
2.2 基于YoloV5和Detectron2融合的實時檢測模型
通過融合YoloV5的快速檢測和Detectron2的精細分割,可以在評估過程中獲得更全面的性能指標,適用于需要高精度的應用場景。圖2展示了YoloV5與Detectron2融合后的對象檢測模型架構。
上半部分為YoloV5模型架構,其包括三個主要部分:首先,骨干網絡(Backbone)負責從輸入圖像中提取特征,它通常由多個卷積層(Conv)和殘差塊(C3)組成,這些層和塊能夠逐層提取并融合圖像中的特征信息;其次,頸部網絡(Neck)采用特征金字塔網絡(FPN)結構,通過上采樣(upsample)和連接操作將來自不同層次的特征圖組合在一起,這樣可以形成具有豐富語義信息的特征圖,從而增強模型對多尺度對象的檢測能力;最后,檢測頭(Head)部分由一系列卷積層和特征融合操作組成,最終輸出三個不同尺度(80×80,40×40,20×20)的特征圖,這些特征圖用于預測不同大小對象的邊界框和類別信息。此外,在檢測過程中引入了空間金字塔池化(SPPF)模塊,通過多尺度池化操作進一步增強對多尺度對象的檢測能力。
下半部分為Detectron2的模型架構,其是一個模塊化系統,包括多個關鍵組件:首先是特征提取的主干(Backbone),負責從輸入圖像中提取高層次特征并輸出特征P2、P3、P4、P5、P6;然后是用于生成候選區域的RPN(Region Proposal Network),它在主干Backbone的特征圖上滑動窗口,通過分類和回歸預測每個窗口是否包含物體及其邊界框;隨后是處理候選區域的ROIHeads。ROIHeads包含多個分支:BoxHead(邊界框回歸和分類),負責對每個ROI進行分類,并精確調整邊界框位置,其中分類(class)指預測每個ROI所包含的對象類別,邊界框回歸(bbox)指對每個ROI進行邊界框位置回歸,精細調整其邊界框坐標;MaskHead(實例分割)用于實例分割任務,它對每個ROI 生成像素級的分割掩碼;分割掩碼預測(Mask)指對于每個ROI,生成分割掩碼,表示對象在該區域內的像素位置。KeypointHead(關鍵點檢測)用于關鍵點檢測任務,對每個ROI 生成關鍵點的坐標;關鍵點預測(Keypoint)指對每個ROI預測多個關鍵點的位置,通常用于姿態估計等任務。
2.3 人體骨骼關鍵點提取
人體骨骼關鍵點檢測是通過人體姿態估計算法,從輸入圖像中提取骨骼關鍵點的坐標位置信息來實現的。如圖3所示,COCO(Common Objects in Context)數據集定義的人體的17個骨骼關鍵點及其對應位置名稱。人體姿態估計算法主要分為兩種,即自底向上和自頂向下,其各有優缺點。自底向上方法直接檢測圖像中的所有骨骼關鍵點,通過聚類將同一人體的骨骼關鍵點關聯起來,生成每個人體目標的骨架,由于無需先檢測人體目標,因此檢測速度較快,但準確性不如自頂向下方法。自頂向下方法首先檢測圖像中的人體目標,確定每個人的位置,然后再進行姿態估計,以定位其骨骼關鍵點位置,故該方法檢測速度會受到一定影響,但具有較高的檢測準確性。為了達到更高的準確性,本文采用自頂向下的姿態估計算法,首先通過YoloV5算法檢測采掘工作面環境和目標,然后通過Detectron2算法加強檢測結果,并精確定位每個人的位置坐標,接著對每個人體目標進行姿態估計,準確定位其骨骼關鍵點位置,從而提高人體骨骼關鍵點檢測的精度,更好地滿足行為識別網絡對人體骨骼關鍵點質量的要求。
2.4 利用SlowFast模型進行行為識別分類
圖4所示,為改進后SlowFast模型架構圖,SlowFast網絡主要由兩個相對獨立的網絡分支組成:低幀速率和低時間分辨率運行的慢路徑(Slow Path)和高幀速率和高時間分辨率運行的快速路徑(Fast Path)。這兩個路徑分別處理視頻的不同時間尺度,從而有效地捕捉視頻中的慢速和快速變化。
Slow Path處理的是低幀率的視頻輸入,它的主要目的是捕捉視頻中的慢速動態變化,因此它使用較高的空間分辨率和較深的網絡層,以確保能夠提取到豐富的空間和時間特征。輸出生成高層次的特征表示,用于進一步的動作識別。
Fast Path處理的是高幀率的視頻輸入。它的主要目的是捕捉視頻中的快速動態變化,因此它使用較低的空間分辨率和較淺的網絡層,以快速處理高幀率數據,輸出生成時間分辨率較高的特征表示,捕捉快速運動信息。快速路徑的時間分辨率是α(α通常是8)倍慢路徑,但通道數是β(β通常是1/16)慢路徑,最后將兩條路徑橫向連接,實現快慢路徑的融合,以整合不同時間尺度的信息。
以站立行為為例,用SlowFast模型完成行為檢測的過程如下:導入實時站立行為視頻數據,首先對輸入視頻進行幀抽取,從視頻片段中按一定的間隔抽取幀,然后按要求分別導入至慢路徑和快路徑中,通過這兩種路徑提取視頻特征信息,接著再將不同特征信息進行融合,根據提取的特征進行動作分類,輸出預測結果,最后將輸出的動作結果可視化,顯示在視頻上。
3 實驗結果與分析
3.1 圖像處理結果分析
PSNR(Peak Signal-to-Noise Ratio)為峰值信噪比,是衡量圖像重建質量的指標,表示原始圖像與壓縮或處理后圖像之間的信噪比。SSIM(Structural Similarity Index)為結構相似性指數,是衡量兩幅圖像相似度的指標,旨在更好地模擬人眼對圖像質量的感知。兩者數值越高表示圖像重建質量越好。由表1可以看出,經不同圖像處理技術后,得到不同的圖像影響數據。其中,雙邊濾波和CLAHE技術的結合顯著提升了圖像質量,PSNR達到45.87 dB,SSIM達到0.988 3。
3.2 人員檢測模型性能分析
為了有效評估模型性能,采用常見評價指標mAP(mean Average Precision)對模型進行評估,具體計算方式如公式1,其中,m是類別數,APi是第i個類別的平均精度。其中mAP@0.5表示IOU(Intersection over Union,交并比)設為0.5時,計算每一類所有照片的精度,然后求平均,而mAP@0.5:0.95表示在不同IOU閾值(從0.5到0.95,步長0.05)上的平均精度。其數值越高,則表明模型越好。
mAP=∑Mi=1APiM(1)
為了驗證改進的YoloV5-Detectron2模型融合的優勢,筆者基于公開數據集COCO進行對比實驗,并與原YoloV5模型進行比較。如圖5所示,前20次迭代呈震蕩態勢,但經過20次迭代后,模型精確率穩步上升。YoloV5-Detectron2模型的mAP@0.5最終穩定在0.615附近,且mAP@0.5:mAP@0.95最終穩定在0.390附近。與原YoloV5模型對比,經融合改進后,該模型在性能上顯著優于原YoloV5,并且提升幅度較大。
3.3 人員檢測模型消融實驗分析
為評估該YoloV5-Detectron2模型融合后的性能,對該模型進行消融實驗,數據如表2所示。結果表明,融合后的模型得到了顯著優化,mAP@0.5有所提高,同時推理速度有所提升,兼具了兩種算法的優點。
3.4 不安全行為檢測模型性能分析
使用公開行為識別數據集Kinetics-600對改進后的SlowFast模型進行了評估。Kinetics-600數據集是一個大規模且高質量的行為識別數據集,其涵蓋了600個人類動作類別,每個動作類別至少有600個視頻片段,單個視頻片段持續時間約為10 s,并標有單個動作類別標簽,總計達480 000個視頻片段,專門用于視頻中人體動作識別。本文采用的不安全行為檢測模型性能測試結果如表3所示。結果表明,該不安全行為檢測模型的精確率達92.3%,處于較高水平。
4 實際應用場景實例
為驗證檢測效果,本研究選取懸臂式掘進機工作面為實驗背景,對工人行為進行識別和檢測,具體檢測行為如表4所示,其中,站立和行走為安全行為,攀爬、躺倒、玩手機及無人監管為不安全行為。
按照表4中所列行為類別順序,分別驗證其在正常光照條件和黑暗條件下的檢測情況,工人不安全行為檢測效果如圖6所示。結果表明,該算法能在正常光照條件下,準確識別工人行為,即使在黑暗條件下,檢測精度稍有下降,但仍能對工人行為進行識別,完成既定任務。
5 總結
(1)通過融合CLAHE和雙邊濾波兩種圖像處理技術,顯著改善了視頻圖像的視覺效果,使其在黑暗和塵埃環境下的檢測能力得到提升。
(2)對YoloV5算法進行改進,并融合了Detectron2算法,提高了人體關鍵節點檢測的精度,在原有基礎上提升了3個百分點。
(3)在正常光照條件和黑暗條件下的行為識別實驗結果表明,基于YoloV5和SlowFast融合后的檢測算法可對攀爬、躺倒、玩手機和無人監管四種不安全行為進行識別,平均識別精確率達92.3%。
參考文獻:
[1]黃輝,張雪. 煤礦員工不安全行為研究綜述[J]. 煤炭工程,2018,50(6):123-127.
[2]丁恩杰,俞嘯,夏冰,等.礦山信息化發展及以數字孿生為核心的智慧礦山關鍵技術[J]. 煤炭學報,2022,47(1):564-578.
[3]李國清,王浩,侯杰,等.地下金屬礦山智能化技術進展[J].金屬礦山,2021(11):1-12.
[4]吳愛祥,王勇,張敏哲,等.金屬礦山地下開采關鍵技術新進展與展望[J].金屬礦山,2021(1):1-13.
[5]沈銘華,馬昆,楊洋,等. AI智能視頻識別技術在煤礦智慧礦山中的應用[J]. 煤炭工程,2023,55(4):92-97.
[6]李占利,權錦成,靳紅梅. 基于3D-Attention與多尺度的礦井人員行為識別算法[J]. 國外電子測量技術,2023,42(7):95-104.
[7]劉浩,劉海濱,孫宇,等. 煤礦井下員工不安全行為智能識別系統[J]. 煤炭學報,2021,46(增刊2):1159-1169.
[8]溫廷新,王貴通,孔祥博,等. 基于遷移學習與殘差網絡的礦工不安全行為識別[J]. 中國安全科學學報,2020,30(3):41-46.
[9]王宇,于春華,陳曉青,等.基于多模態特征融合的井下人員不安全行為識別[J].工礦自動化,2023,49(11):138-144.
[10]韓康,李敬兆,陶榮穎.基于改進YOLOv7和ByteTrack的煤礦關鍵崗位人員不安全行為識別[J].工礦自動化,2024,50(3):82-91.
[11]Qiu S, Li Y, Zhao H, et al. Foxtail Millet Ear Detection Method Based on Attention Mechanism and Improved YOLOv5[J]. Sensors, 2022, 22(21): 8206-8206.
[12]Singh R, Shetty S, Patil G, et al. Helmet Detection Using Detectron2 and EfficientDet[C] //2021 12th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2021: 1-5.
[13]Chakraverti S, Agarwal P, Pattanayak HS, et al. De-noising the image using DBST-LCM-CLAHE: A deep learning approach[J]. Multimedia Tools and Applications, 2024, 83(4): 11017-11042.
[14]Lv H, Shan P, Shi H, et al. An adaptive bilateral filtering method based on improved convolution kernel used for infrared image enhancement[J]. Signal, Image and Video Processing, 2022, 16(8): 2231-2237.
責任編輯:肖祖銘
Design and Integration of Algorithm for Detecting Unsafe Behaviors of Mining Workers
XU Jichan1,2, LI Jiayuan2
(1Cooperative Innovation Center for Intelligent Mining Technology and Equipment, Anhui University of Science and Technology, Huainan 232001, China;
2School of Mechatronic Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract:Using artificial intelligence technology to identify workers' unsafe behaviors in mining workfaces in real-time can ensure the safety of mining operations and reduce safety accidents caused by workers' unsafe behaviors. It has great significance for ensuring safe mining production. This paper proposes an unsafe behavior detection algorithm for mining workers based on the improved YoloV5 and SlowFast. To deal with the dark and hazy conditions in underground mines, the proposed algorithm fuses the CLAHE and bilateral filtering methods to enhance the lighting and noise reduction of the input video. The YoloV5 object detection model skeleton and head network are lightweight optimized, improving the model inference speed. The Detectron2 algorithm is fused to perform semantic segmentation of the work environment, achieving tracking and locking of workers, and accurately identifying the human skeleton features, reducing environmental interference. Through the improved SlowFast network, the dynamic changes of the key points of human skeleton are analyzed to realize the effective identification of unsafe behaviors. The experimental results show that the algorithm has an average accuracy of 92.3% for the identification of four unsafe behaviors of climbing, lying down, playing with mobile phones and unsupervised, which provides strong technical support for the safety management of mining operation.
Keywords: computer vision; mining safety; target detection; attitude estimation; behavior recognition
基金項目:安徽理工大學礦山智能技術與裝備省部共建協同創新中心開放基金項目( CICJMITE202205)
作者簡介:許吉禪(1988—),男,安徽岳西人,副教授,博士,主要從事機電一體化系統設計研究。