


【摘要】? ? 煤礦井下監控視頻圖像目標檢測對于井下工人的安全生產具有重要的意義。為了解決人工監控目標任務量巨大且效率低下的問題,本文針對四種較為先進的深度學習網絡(YOLOv3,Faster R-CNN,SSD,EfficientDet)的網絡結構進行研究,最后通過在自建的井下視頻圖像數據集上進行模型的訓練和測試。分析結果顯示,四種深度學習模型都取得了比較好的平均精度。
【關鍵詞】? ? YOLOv3? ?Faster R-CNN? ? SSD? ? EfficientDet
引言:
我國是煤炭產業大國,由于煤礦井下復雜環境的影響,以及井下工人的錯誤和違規操作等導致的安全事故時有發生。使用視頻監控對井下的工作進行實時監控,特別是對于礦工的識別與監測,對于確保生產安全有著重大意義。目前關于運動目標檢測和跟蹤的算法很多[1-5],但各種算法的局限性比較多,隨著深度學習在圖像處理中的廣泛應用,越來越多的學者關注使用深度學習網絡解決井下復雜環境的視頻圖像的目標檢測的問題。
石永恒[6]等對自建安全帽數據集的預處理后,采用YOLO來對礦井下圖像中的安全帽佩戴進行檢測。李偉山[7]等提出了一種改進的Faster RCNN 煤礦井下行人檢測方法,應用在井下行人檢測中。周晨暉[8]采用改進SSD網絡實現煤礦副井上、下井口場景的人員檢測。
本文將針對深度學習目標檢測領域較為先進的四種網絡——YOLOv3,Faster R-CNN,SSD,EfficientDet進行研究,并結合自建煤礦井下圖像數據集進行實驗,對比四種網絡進行目標檢測的效果。
一、四種深度神經網絡介紹
1.1 YOLOv3
YOLOv3是YOLO (You Only Look Once)系列目標檢測算法中的第三版,是由華盛頓大學的Joseph Redmon在2018年提出的,該網絡以較好的識別小目標物體,并能夠預測出物體類別和位置。在井下監控視頻中,大多數情況下,人員只占整個視頻圖像的較小部分,因此使用YOLOv3可以很好的解決井下視頻中人員難以識別檢測的問題。
YOLOv3是一個單階段的完全卷積網絡,僅用75個卷基層組成,其使用殘差網絡Darknet53作為主干特征提取網絡,檢測層由三級特征層融合使用多標簽分類,用多個獨立的邏輯分類器替換softmax函數。相比于 YOLO v2網絡,YOLOv3在識別速度保持不變的情況下,提升了預測精度,并且加強識別小目標的能力。但YOLOv3也存在不足,主要是識別物體的位置準確性不高。
1.2 Faster RCNN
Faster RCNN是Shaoqing Ren等在2016年提出的一種兩階段網絡結構,是對Fast RCNN的改進版本。該網絡將將整張圖片作為輸入,特征提取使用CNN實現,用區域候選網絡(RPN)生成建議窗口,再把窗口映射到CNN的最后一層卷積的特征圖上,隨后通過池化層生成了固定尺寸的特征圖,輸入后續的全連接層判定目標類別,最終進行回歸獲得檢測框的精確位置。Faster RCNN對小目標物體有較好的檢測結果。Faster RCNN缺點是對于遮擋的目標會有漏檢情況發生,而且兩階段網絡相比于單階段網絡實時性略差。
1.3 SSD網絡
SSD網絡是Wei Liu于2016年提出的一種單階段目標檢測網絡結構,它融合了YOLO和Faster RCNN的優點。該網絡使用VGG16作為主網絡架構,并將VGG16最后的兩個全連接層改成卷積層,在此基礎上又新增4個卷積層構造出整體網絡結構。SSD直接融合了不同卷積層上的多尺度特征圖,根據融合的特征圖采用特征金字塔方式提取檢測結果。采用端對端的方式,對于分辨率較小的圖片也能較好的進行處理。SSD網絡的缺點在于對小尺寸的目標識別不如Faster RCNN網絡。
1.4 EfficientDet
EfficientDet 是由google公司的Mingxing Tan于2019提出的,其亮點在于使用雙向特征金字塔網絡以及一種復合尺度縮放方法。EfficientDet主要由主干網絡、特征網絡、預測網絡三個部分組成。其中主干網是基于google的EfficientNet網絡,特征網絡采用雙向特征金字塔網絡,預測網絡由類別預測網絡和邊界框預測網絡兩部分組成,兩個網絡共享特征網絡的權重。EfficientDet在網絡變大時效果提升明顯,精度上限也同步提升。
二、井下圖像目標檢測評估指標
本文召回率、和精確率和均值平均精度mAP(mean Average Precision)作為井下圖像目標檢測的評估指標[10],計算公式如下:
式中,P是精準率,R是召回率,TP(True Positives)指預測正確的正樣本數量,TN(True Negatives)指預測正確的負樣本數量,FP(False Positives)指預測錯誤的正樣本數量。FN(False Negatives)是預測錯誤的負樣本數量。
三、實驗結果及分析
本文在Pytorch上搭建運行四種網絡,使用由煤礦監控視頻獲得的井下視頻圖像數據集進行實驗,數據集中包含3086張圖片。實驗的軟件環境:Pytorch1.2.0深度學習框架。用于訓練和測試的計算機硬件配置:Windows10操作系統,NVIDIA GeForce GTX 1060顯卡,Intel(R)Core(TM) i7-4790K CPU @4.00GHz處理器,內存容量8GB(8GB×1) DDR4 2666MHz。
圖1所示了四種不同深度學習算法下的井下圖像的目標檢測效果。可以看出四種網絡對圖像中的目標有著較高的置信度,均超過0.8。
為了驗證本文所用的四種深度網絡的有效性,使用了自建的井下圖像集作為測試集分別對四種模型進行評估,并計算了準確率,召回率以及mAP值,評估結果如表 1 所示。
測試結果表明,SSD算法對測試集的mAP值達到了99.15%,精確率Precision達到了97.10%。通過對比發現,SSD算法對井下圖像目標檢測的精確率、mAP 值均高于 Yolov3、SSD、EfficientDet三種算法,對于井下的圖像擁有較好的目標檢測精確度。
四、結束語
本文實現了基于四種不同深度學習模型的井下目標檢測算法,并對不同算法的平均精度mAP等指標進行了對比。結果表明,在四種模型中SSD算法能較為精準的對井下的圖像進行目標檢測,為后續的煤礦井下圖像的目標檢測提供了研究和發展的方向。
參? 考? 文? 獻
[1]劉毅翟,貴盛.基于井下移動圖像采集的目標識別與精確定位方法[J].工礦自動化,2021,47(5): 65-70.
[2]朱光澤. 基于目標檢測與跟蹤算法的煤礦井下視頻監控系統研究[D]. 遼寧工程技術大學, 2017.
[3]張辰. 井下環境中運動目標檢測與跟蹤研究[D]. 中國礦業大學, 2014.
[4]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society conference on computer vision and pattern recognition (CVPR05). Ieee, 2005, 1: 886-893.
[5]Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
[6] 石永恒,楊超宇.基于深度學習的礦井下作業人員安全帽佩戴檢測[J]. 綏化學院學報,2021(09):148-152.
[7] 李偉山,衛晨,王琳. 改進的Faster RCNN煤礦井下行人檢測算法[J]. 計算機工程與應用,2019,55(4): 200-207.
[8] 周晨暉.基于深度學習的煤礦復雜場景人員檢測與統計分析方法研究[D].中國礦業大學.2018.
[9] 許風志.煤礦井下視頻運動目標的檢測與識別研究[D].西安科技大學.2019.
[10] 吳守鵬.基于機器視覺的運煤皮帶異物識別方法研究[D].中國礦業大學.2019.
楊光耀(1984-),男,漢族,陜西神木人,工程師(機電),學士學位,主要從事煤礦機電及智能化礦井建設工作。