劉 鋒,白金牛
(1.內蒙古科技大學 信息工程學院,內蒙古 包頭 010400;2.國能神東煤炭集團有限公司,陜西 榆林 719315,3.內蒙古科技大學 包頭醫學院,內蒙古 包頭 010400)
膠帶輸送機(簡稱膠帶機)具有輸送能力強、運送距離長,工作穩定、可靠性高、結構簡單易維護等特點,廣泛應用于煤炭企業中。由于工礦企業中膠帶輸送機實際運行環境差、帶面上有水,給料不均勻等因素均會導致輸送機出現打滑、堆煤、跑偏等故障。并且大型膠帶機帶面跨度大、距離長,導致崗位司機在巡視時耗時長,勞動強度大,不能第一時間發現故障。為了及時發現設備故障、降低故障造成的損失、保證設備正常運行,企業都會安裝膠帶機保護裝置。常見的膠帶機保護功能有急停、拉繩、防撕裂、跑偏、失速、堵塞、逆止裝置、煙霧報警及超溫灑水等,這些傳統的保護裝置現場檢修維護工作量大,保護誤動作率高。因此采用成本低、效率高的非接觸式檢測方法逐漸成為近年來機器視覺領域的熱門課題[1]。
近年來,隨著人工智能、大數據、云計算和工業互聯網等科學技術的飛速發展,中國煤炭行業智能化建設如火如荼。基于視覺技術的膠帶機煤量檢測方法具有精度更高、速度更快、可嵌入性強等特點,國內外學者針對這一問題已開展了部分基礎性研究。韓濤等[1]基于多任務卷積神經網絡(MT-CNN)實現帶式輸送機輸煤量和跑偏檢測。曾飛等[2]利用物料三維激光點云數據,進而提前物料輪廓,建立數學模型計算物料流量。楊光耀等[3]采用HALCON算法庫搭建實驗系統,進行煤流截面計算。董征等[4]利用OpenCV計算機視覺庫,從原始圖像獲取感興趣區域,清晰化處理,對比像素距離與物料距離計算出截面積,建立數學公式求出一定時間內煤流量。劉新龍等[5]通過激光紅外線掃描技術獲取煤量截面對礦井帶式輸送機煤流量進行檢測。呂劍鐸等[6]使用激光雷達建立煤量檢測計算模型。關丙火[7]基于 Ohta顏色空間提取輪廓,進而計算煤量。王星[8]采用改進的Canny邊緣檢測算法提取帶面邊緣特征,用來判斷是否跑偏。彭利澤[9]采用YOLOv4、YOLACT算法對傳輸帶堆煤的檢測。陶偉忠[10]利用視頻圖像處理技術提取時域特征和頻域特征,獲取煤流區域面積,研究調速算法,建立自動調速控制系統。薛紅偉等[11]利用深度學習模型 YOLOv3和基于歷史高斯統計模型分別實現帶寬檢測、異物檢測和裂痕檢測。王軍等[12]將采集的視頻圖像預處理獲取煤流區域面積計算煤量,并建立自適應變頻調速系統。陳小霞等[13]通過圖像預處理、圖像分割、建立煤量計算公式得出載煤量。康樹強[14]通過圖像處理技術得出煤量占空比,進而估算煤量。馬剛等[15]利用超聲波傳感器檢測煤量高度,結合其它參數進行積分運算計算煤量。成彥穎等[16]用邊緣結構相似算法判斷膠帶機起停狀態,并結合YOLOv3判斷是否空載。王桂梅等[17]提出一種基于 VGG16改進的 FF-CNN網絡,并利用該網絡實現煤量的檢測分類。
上述方法有些需要在特定的環境中運行,適應范圍不廣,有的設備較為昂貴,考慮到工業應用中對于模型所占計算資源和運行時間有更高的要求,選擇YOLO系列最新的算法YOLOv5s,YOLOv5s是YOLOv5 4個版本中速度最快、網絡深度和寬度最小的版本,以此為基礎模型進行改進,并通過消融實驗與對比實驗證明改進的效果。
首先將制作好的數據集送入煤量檢測模型進行訓練,訓練完畢后將生成權重文件。利用生成的權重文件進行離線測試,測試完畢后的模型將在實際生產系統中進行在線檢測,觀察檢測效果。
YOLOv5共有4個版本,分別是Yolov5s、Yolov5m、Yolov5l、Yolov5x,它們的模型配置文件都一樣,區別在于層深和寬度控制不一樣。YOLOv5s是其中最簡潔的一個模型,網絡模型尺寸小,部署成本低,靈活性高,檢測速度高,AP精度相對較低,更適合工業應用[18]。YOLOv5s模型主要由 Input、Backbone、Neck和Output組成,如圖1所示。

圖1 Yolov5s網絡結構Fig.1 Yolov5s network structure
其中Input為輸入端,采用 Mosaic數據增強、自適應錨框計算、自適應圖片縮放對輸入圖像進行處理。數據增強方法豐富了數據集,也增強了網絡的魯棒性。
Backbone主要由Focus、CSP、SPP結構組成[19]。Focus結構的關鍵作用是在圖像進入主干之前對其進行切片,減少模型層數,提高運行速度。CSP跨階段局部網絡,先將基礎層的特征映射劃分為2部分,然后通過跨階段層次結構將它們合并,在保證準確率的同時降低計算量。YOLOv5使用了2個CSP結構(CSP1_X和CSP2_X),一個用于骨干網,另一個用于頸網。SPP空間金字塔池化模塊[20],主要功能是融合局部特征和全局特征,與簡單使用k×k最大池化相比,它有效地拓寬了骨干特征的接收范圍,并顯著分離了最關鍵的上下文特征。
Neck包含 FPN(Feature Pyramid Networks,特征金字塔網絡)[21]、PAN(Path Aggregation Network,路徑聚合網絡)[22]。FPN通過從上到下的上采樣來傳輸和組合高級特征信息,傳遞強語義信息,但可能會丟失一些定位特征。PAN是一個自下而上的特征金字塔,加入了自底向上的路線,彌補并加強了定位信息。兩者同時使用可以全面提高模型的魯棒性和學習性能。
Output通過 Conv輸出不同尺度的檢測結果,使用CIOU_Loss做Bounding box的損失函數。
隨著計算機視覺技術不斷發展,卷積神經網絡模型也在不斷推陳出新,從一開始的LeNet到后來的AlexNet[23]、GoogLeNet[24]、VGGNet[25]、ResNet[26],每一種神經網絡模型都有其創新的點,越來越復雜的結構伴隨著模型體積不斷增大,對于硬件要求更高,部分神經網絡模型只能在高算力的服務器上運行。2018年,Google團隊在MobileNet v1的基礎上改進提出了MobileNet v2網絡[27]。與傳統的CNN相比,該模型計算工作量更少,模型體積更小,運行速度更快,上述優點使其適合用于移動設備、嵌入式設計等資源有限的環境中[28-31]。
MobileNet v2具有如下特點:①深度可分離卷積與常規卷積都用來提取特征,深度可分離卷積包括深度卷積Depthwise(DW)卷積與點Pointwise(PW)卷積2個過程。相比常規卷積,其參數量和運算成本較低;②提出反向殘差結構(Inverted Residuals),殘差網絡結構與傳統ResNet結構不同的地方是ResNet先降維、卷積、再升維恢復原大小,而MobileNet V2先進行了1x1的點卷積升維,目的在于獲得更多特征,然后用3×3的深度卷積,最后再用點卷積對深度卷積的輸出特征進行線性組合同時降維。MobileNetV2核心思想是升維再降維,參數量更少,增強了梯度跨層傳播能力,特征表達能力;③線性瓶頸結構(Linear Bottlenecks),針對反向殘差結構中,最后一層的卷積層,刪除原有的ReLU激活函數,取而代之的是線性激活函數。Relu對于負的輸入、輸出全為零,為了減少信息的丟失,這里不選用Relu激活函數。
基于 MobileNetV2與YOLOv5s模型的基本思想,為了進一步減少YOLOv5s的計算量,同時提升檢測速度,本文提出了MobileNetV2_YOLOv5s模型,網絡整體框架如圖2所示。 MobileNetV2_YOLOv5s模型將原始YOLOv5s的特征提取網絡替換為MobileNetV2。用深度可分離卷積替換YOLOv5s中的CSP-Darknet53標準卷積結構,參數量大大降低。

圖2 MobileNetV2_YOLOv5s網絡結構Fig.2 MobileNetV2_YOLOv5s network structure
注意力機制最先被用在NLP領域,Attention就是為了讓模型認識到數據中哪一部分是最重要的,為它分配更大的權重,獲得更多的注意力在一些特征上,讓模型表現更好。目前在物體檢測中常用的注意力模塊有CBAM和SENet[32]。CBAM包含2個獨立的子模塊,通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spartial Attention Module,SAM),除了考慮目標的通道特征外,還應重點關注目標的位置信息[33],分別進行通道與空間上的Attention。
在煤量檢測數據集圖像中,目標與背景對比度較低,變化不明顯,因此,為了增強模型的特征表達能力,在骨干網絡之后引入CBAM進行改進。如圖3所示,SPP是骨干網的最后一個單元,它提取不同尺度的特征,并輸入到CBAM模塊中,CBAM模塊關注的是通道特征和位置信息,它們對最終的預測起著決定性的作用。CBAM加強關注的重要特征,抑制一般特征,增強骨干網對特征的表達,提高模型的預測精度。

圖3 CBAM結構Fig.3 CBAM structure
為了保證煤量檢測任務的實時性,在 Neck中引入 BiFPN結構[34]。將原有的特征提取網絡PANet改進為BiFPN(雙向特征金字塔網絡)網絡結構,該網絡可以增強信息挖掘的深度,進一步提高模型的特征提取能力。BiFPN和PANet的結構對比如圖4所示,對比發現BiFPN刪除了虛框內的2個節點,因為這2個節點只有一個輸入邊的對融合不同特征貢獻相對更小;BiFPN在相同級別的輸入輸出節點上增加一條額外的邊,可以融合更多的特征,如圖 4(b)中的所示;BiFPN網絡在處理路徑上加強了更高層次的特征融合,將每一條雙向路徑(自上而下和自下而上)作為一個特征網絡層進行處理,并在同一層中多次重復該過程。通過加權特征融合,學習不同輸入特征的重要性,并對不同特征進行差分融合。

圖4 BiFPN和PANet結構對比Fig.4 Structural comparison of BiFPN and PANet
卷積神經網絡訓練過程中,樣本數量與學習權重直接影響訓練結果,文中數據集相對較小,分類較少。遷移學習的意義在于可以利用以前從其他任務中獲得的知識,并將知識應用到新任務中,以更快更有效地方法解決類似新問題。可以彌補數據集質量不高的問題。因此采用YOLOv5s在COCO數據集中的預訓練權重,可優化模型的初始化權重參數,快速完成網絡模型的訓練,并將其部署到本研究任務中。
由于煤量檢測沒有公開的數據集,故構建一個煤量檢測數據集。利用安裝在膠帶機機上的高清攝像機采集現場視頻圖像,用Python-Opencv庫實現視頻連續逐幀截圖自動生成圖片,平均像素大小約為1 920×1 080,剔除不清晰、無用的圖像,從中選取保留無煤量、少煤量、中煤量、多煤量圖像各 500張。對選取的圖片進行降噪、裁剪等預處理,用LabelImg標注軟件對數據集進行標注,根據實驗需要,按8∶2隨機分為訓練集和測試集。
實驗平臺電腦配置如下:CPU為Intel Core I7-8565U,礦用本安型紅外球型云臺攝像儀KBA12(A)。Python版本為3.9.7,深度學習框架及版本為Pytorch 1.8.0,模型優化器選擇Adam。
模型訓練參數設置:輸入圖像大小為640×640,迭代次數為 150,批次大小為 16,每批次訓練圖像 16張。初始學習率為 0.1。評估模型的性能指標有查準率 P(Precision)、查全率R(Recall),各均值平均精度 mAP(mean Average Precision)值。具體計算方式見式(1)~(3)。
(1)
(2)
(3)
式中,TP為被正確檢測出的煤量;FN為沒有被檢測出的煤量;FP為誤檢的煤量;TN為沒有被誤檢的煤量。
3.4.1 消融實驗
通過消融實驗直觀地觀察不同的改進對模型性能的影響。在消融實驗中,測試模型改進前后的mAP值作為衡量指標,首先將原始YOLOv5s的特征提取網絡替換為MobileNetV2,然后引入BiFPN網絡結構,加入通道和空間注意力機制,最后利用遷移學習優化模型的初始化權重參數。
實驗結果見表1。其中,使用MobileNetV2替換原始主干網絡后使模型的運行速度有所提升,但是mAP下降了3.2%。加入通道和空間注意力之后mAP值提高2.3%,檢測速度有所提升,加入BiFPN后,模型的運行速度也有所提升,同時使網絡的mAP值提高2.1%。使用遷移學習訓練后,模型準確率提升為98.9%。

表1 消融實驗結果Table 1 Results of ablation experiment
3.4.2 對比實驗
為了測試模型的效果,選取當下常見的模型Faster RCNN、R-CNN、SSD、YOLOv3、YOLOv5、YO-LOv5s、Improved YOLOv5s在自建數據集上進行測試。測試結果見表2,可以看出Faster RCNN、R-CNN、SSD、YOLOv3、YOLOv5、YOLOv5s在自建數據集上的表現都不如改進后的模型。Faster RCNN、R-CNN和YOLOv3的檢測速度分不能滿足高效識別的要求。SSD和YOLOv5s檢測精度較改進后的模型低,mAP50分別比改進后的YOLOv5s低4.4%和4.2%。在工業應用中識別煤量,對準確性與高效性都有較高的要求。因此,改進后的算法優于YOLOv5s算法。總體而言,通過對mAP50和FPS的比較,可以看出改進后的YOLOv5s模型檢測精度更高、速度更快。

表2 對比實驗結果Table 2 Comparison of experimental results
煤量檢測是保障膠帶機輸送機安全運行的重要手段,是實現膠帶機輸送機自動調速的前提,對于工礦企業安全管理及節能降耗有重要意義。基于YOLOv5s網絡模型對膠帶機煤量進行檢測,通過替換原YOLOv5s主干網絡,增加CBAM模塊,Neck部分引入BiFPN結構,采用遷移學習優化模型的初始化參數,改進后的YOLOv5s檢測速度為32幀/s,mAP50為98.9%。分別較原模型提升了18%和4.2%。提出的改進方法能夠快速、準確地識別膠帶機輸送機的煤量,可以為提高膠帶輸送機安全管理水平和智能化建設提供參考。