郭永存, 童佳樂, 王爽
(1. 安徽理工大學 深部煤礦采動響應與災害防控國家重點實驗室,安徽 淮南 232001;2. 安徽理工大學 礦山智能裝備與技術安徽省重點實驗室,安徽 淮南 232001;3. 礦山智能技術與裝備省部共建協同創新中心,安徽 淮南 232001;4. 安徽理工大學 機械工程學院,安徽 淮南 232001)
煤炭作為能源的重要組成部分,是我國經濟持續發展的重要基礎[1-2]。目前,我國正著力發展智能礦用機械,以提高煤礦智能化發展水平,為煤炭工業高質量發展提供核心技術支撐[3-4]。煤礦井下有軌電機車是一種煤礦輔助運輸設備,承擔著運輸井下煤炭、矸石、設備和人員等任務,具有運行頻繁、運輸量大、運行距離長等特點。現階段,我國煤礦井下有軌電機車均采用人工駕駛方式,由于井下巷道狹窄、光照不充分、司機疲勞駕駛和技術保障手段缺乏等原因,存在電機車超速、闖紅燈、追尾、碰撞行人等安全問題[5-6]。研究煤礦輔助運輸電機車無人駕駛技術,可減少井下作業人員數量,降低煤礦安全事故發生概率,對保障煤礦安全高效生產具有重要意義[7]。
近年來,快速發展的計算機技術為目標智能檢測識別提供了堅實的軟硬件基礎,基于機器視覺的障礙物識別技術得到了廣泛關注和應用。卷積神經網絡(Convolutional Neural Network,CNN)為基于深度學習的智能目標檢測算法提供了技術支撐,已被應用于自動駕駛、行人檢測等諸多場景?;谏疃葘W習的智能目標檢測方法分為單階段目標檢測和雙階段目標檢測2類:① 單階段目標檢測方法以YOLO(You Only Look Once)[8]、單階段多框檢測器(Single Shot MultiBox Detector,SSD)[9]為代表,直接對輸入圖像進行檢測,輸出目標類別及邊界框。該類方法檢測速度較快,但對小目標物體的檢測精度較低,無法識別出軌道中的石塊及其他小型障礙物,且對于重疊目標,易造成漏檢,無法滿足電機車無人駕駛需求。② 雙階段目標檢測方法以區域CNN(R-CNN)[10]、快速R-CNN(Fast R-CNN)[11]、更快速R-CNN(Faster R-CNN)[12]、掩碼R-CNN(Mask R-CNN)[13]為代表,通過感興趣區域(Region of Interest,RoI)提取候選框,針對每個候選框進行獨立預測輸出。該類方法檢測精度高,但檢測速度較慢。
在軌道交通檢測領域,由于軌道目標在圖像中所占比例較大且檢測出的軌道邊界框與軌道掩碼之間存在一定間隙,通過邊界框重疊與否不能準確判定目標是否為障礙物。因此,為獲取軌道掩碼,有效判定目標是否為障礙物,可采用實例分割方法在目標檢測的同時獲得目標掩碼。Mask R-CNN模型在Faster R-CNN的基礎上增加掩碼預測并行分支,可在實現目標識別分類的同時,分割出同一類目標的不同實例。此外,Mask R-CNN采用感興趣區域對齊網絡(RoI Align)層代替Faster R-CNN中的RoI Pooling(感興趣區域池化)層,利用雙線性插值代替量化操作,解決了區域像素不匹配的問題,具有更高的識別與分割精度[14]。但Mask R-CNN模型仍存在檢測速度較慢、小目標檢測精度低等問題。針對該問題,本文提出一種基于Mask R-CNN的改進模型-SE-HDC-Mask R-CNN,該模型通過壓縮-激勵(Squeezeand-Excitation,SE)模塊和混合空洞卷積(Hybrid Dilated Convolution,HDC)提升目標檢測速度、小目標檢測精度及掩碼分割精度,可在目標檢測的同時進行像素級分割,提取軌道及其他目標掩碼,為后續確定目標障礙物提供基礎。
Mask R-CNN模型架構如圖1所示,主要由4個部分組成:① 骨干網絡 (Backbone):包括主干特征提取網絡ResNet50/101和特征金字塔網絡(Feature Pyramid Networks,FPN),結合2個網絡對輸入圖像進行特征提取,生成特征圖(Feature Maps)。② 候選框區域生成網絡(Region Proposal Network,RPN):通過滑動窗口掃描特征圖,尋找目標所在區域,經前景、背景分類和邊框回歸生成候選區域(Proposals)。③ RoI Align:候選區域在RoI Align中進行匹配,完成特征圖特征聚集并池化為固定大小。④ 三分支預測網絡(Three Branches):將目標分類信息、邊界框回歸信息及語義信息相融合,得到目標類別、定位邊界框和掩碼分割圖像。

圖1 Mask R-CNN模型架構Fig. 1 Architecture of Mask R-CNN model
SE-HDC-Mask R-CNN模型對Mask R-CNN模型的主干特征提取網絡ResNet進行2點改進:① 在ResNet網絡中嵌入SE模塊。② 將ResNet中的標準卷積替換成HDC。
ResNet采用殘差結構使模型具備較好的特征提取能力,但在特征提取時未能充分利用圖像信息,尤其是圖像通道信息。SE模塊可增強模型對特征的選擇和捕獲能力,通過學習各個通道的重要程度和相互聯系,對重要特征信息賦予較大權重,對次要特征信息賦予較小權重,從而提高特征提取效果,加快網絡訓練速度[15]。
SE模塊包括3個部分:① Squeeze操作:通過全局平均池化(Global Average Pooling)操作將電機車運行特征圖維度H×W×C(高×寬×通道數)壓縮成1×1× C。② Excitation操作:通過第1個全連接層(Fully Connected)將特征圖的通道數壓縮為C/S(S為縮放參數,本文取S=16),并通過ReLU函數激活;再經過1個全連接層后由Sigmoid函數激活,將通道數恢復到原大小,得到不同特征通道的權重。③ Reweight操作:將各通道權重與對應的特征圖通過Scale尺度化操作相乘,在通道維度上實現對初始特征權重的重標定,抑制對當前任務作用不大的特征通道信息,突出有用的特征通道信息。
在圖像分割領域,圖像特征提取常采用池化層與上采樣層相結合的方式,先減小圖像尺寸,增大感受野,再通過上采樣恢復至原始圖像大小進行預測。在圖像尺寸減小、增大過程中損失了許多細節信息,使得一些細節信息無法重建??斩淳矸e可在一定程度上避免細節信息丟失現象[16]。但空洞卷積存在以下問題:① 疊加多個相同擴張率的空洞卷積時會導致感受野中許多像素未利用,出現大量空洞,即網格效應。② 空洞卷積的設計目的是獲得較大感受野,提升模型對大目標物體的分割能力,但小目標物體本身不需要較大的感受野,不適合采用具有較大擴張率的空洞卷積。針對上述問題,本文提出能兼顧大目標和小目標檢測需求的HDC。
應用HDC時應滿足以下要求:① 疊加卷積的擴張率不能有大于1的公約數,否則仍會出現網格效應。② 擴張率應設計成鋸齒狀結構,如[1,2,5,1,2,5],以便同時滿足小目標和大目標的檢測分割要求。③ 2個非零像素之間的最大距離Mi需滿足以下條件:

式中:ri為空洞卷積第i層的擴張率;n為空洞卷積的總層數。
假設卷積核尺寸為K×K,則式(1)的設計目標是M2≤K。
為提高模型對特征的利用率,提高對小目標物體的檢測精度,擴大特征圖感受野,增強信息關聯性,在ResNet內的每個殘差塊Conv block和Identity block中嵌入1個SE模塊,并將其3×3的標準卷積替換成擴張率為[1,2,5,1,2,5]的HDC。優化后的Conv block結構如圖2所示,Identity block與Conv block結構類似,僅缺少Shortcut塊。
改進ResNet網絡結構如圖3所示,包括5個階段(Stage1-Stage5),除Stage1外,其余4個階段均包含殘差塊。

圖3 改進ResNet網絡結構Fig. 3 Structure of improved ResNet network
井下無人駕駛電機車多目標檢測技術構架如圖4所示。首先,通過電機車車載相機獲取前方巷道視頻信息,利用OpenCV將視頻分幀并輸入SEHDC-Mask R-CNN模型中。然后,模型輸出目標掩碼及標定目標類別,通過掩碼是否重疊判斷目標是否為障礙物,并計算障礙物距離。最后,對電機車發出鳴笛、減速和剎車等指令??紤]到井下電機車行駛速度較慢,且視頻中每幀圖像之間具有信息連續性[17],采用視頻分幀的方式提取圖像,該方法可在一定程度上滿足實時檢測需要,提高目標檢測效率。

圖4 井下無人駕駛電機車多目標檢測技術構架Fig. 4 Multi-object detection technology framework for underground unmanned electric locomotive
井下無人駕駛電機車多目標檢測實驗硬件參數見表1。主要軟件環境為python3.6,tensorflowgpu1.10.1,keras=2.2.0,CUDA9.0 with cudnns,實驗類別包含軌道、電機車、信號燈、行人、石塊及背景6類,設置學習率為0.001,權重衰減系數為0.000 1,動量為0.9。

表1 井下無人駕駛電機車多目標檢測實驗硬件參數Table 1 Experimental hardware parameters of multi-object detection of underground unmanned electric locomotive
實驗數據來源于安徽省某煤礦井下電機車運行環境的實地拍攝,通過防爆相機等設備采集360張電機車多場景運行圖像(不同光照條件、不同拍攝角度、不同目標種類及數量),圖像像素大小為1 080×1 920。通過改變圖像的亮度、色度、銳度、對比度及旋轉、平移和拉伸等方法對數據樣本進行擴充。數據樣本擴充后,共有1 600張電機車運行圖像,按7∶2∶1比例劃分訓練集、驗證集和測試集,得到訓練集圖像1 120張、驗證集圖像320張、測試集圖像160張。使用圖像標注工具VIA對數據集中的目標進行標注并創建目標區域,得到相應json文件。
本文設置的檢測目標包括軌道、電機車、信號燈、行人及石塊,為全面、客觀評價網絡模型對設定目標的檢測性能和分割效果,選擇平均準確率(Average Precision,AP)、平均準確率均值(mean Average Precision,mAP)、交并比(Intersection over Union,IoU)作為評價指標,其中IoU包含邊界框交并比IoUbox和掩碼交并比IoUmask。
AP為預測單個目標類別的平均準確率,等于準確率和召回率曲線(P-R曲線)與坐標軸所圍面積,即P-R曲線的積分。準確率是指模型分類為正樣本的集合中分類正確的比例。召回率是指分類正確的樣本數占所有正樣本數的比例。mAP等于所有類別AP的平均值。準確率P和召回率R的計算公式分別為

式中:TP為被正確識別成目標的正樣本個數;FP為被錯誤識別成目標的負樣本個數;FN為目標未被正確識別的樣本個數。
計算AP時需設定IoU閾值,本文設IoU=0.5,當IoU>0.5時設定測試樣本為正樣本。
采用IoUmask評價掩碼分割質量,如圖5所示,左側真實區域A表示目標真實掩碼,右側預測區域B表示目標預測掩碼。將區域A與區域B之間的交集與并集的比值作為掩碼質量高低的評價標準,從而衡量目標掩碼的定位精度。IoUmask計算公式為

圖5 掩碼分割質量評價Fig. 5 Evaluation of mask segmentation quality

式中YA,YB分別為目標真實掩碼和預測掩碼。
目前Mask R-CNN主流的主干特征提取網絡有ResNet50和ResNet101兩種,其主要區別體現在網絡深度不同。網絡深度越大,則網絡復雜程度越高,網絡計算量越大。因此,為平衡網絡模型的訓練效果和訓練時長,需要選擇合適的網絡深度。在訓練集和驗證集中對采用ResNet50和ResNet101的Mask R-CNN模型進行訓練,結果如圖6所示。定性分析結果見表2,其中mIoUmask和mIoUbox分別為平均掩碼交并比和平均邊界框交并比。

圖6 ResNet50/101網絡下的模型損失Fig. 6 Model loss under ResNet50/101 network

表2 ResNet50/101網絡下的定性分析Table 2 Qualitative analysis under ResNet50/101 network
由圖6可知,訓練至140次左右時模型達到擬合狀態,且2種主干特征提取網絡下模型的訓練集損失和驗證集損失最終相差不大,但ResNet101相較于ResNet50具有更低的損失值,故ResNet101作為主干特征提取網絡時模型的性能較好。由表2可知,ResNet101作為主干特征提取網絡時模型的mAP、mIoUmask和mIoUmask這3個指標表現較好,但采用ResNet50時模型的性能指標和其相近,且幀率更高,意味著其檢測速度更快。綜合考慮網絡模型的訓練效果、模型復雜度及檢測速度,選擇ResNet50作為Mask R-CNN模型主干特征提取網絡。視頻分幀時,每秒讀取6幀圖像輸入網絡模型。
為驗證SE-HDC-Mask R-CNN模型的可行性及有效性,利用原始數據集對其進行訓練,模型參數與Mask R-CNN模型一致,對比分析結果見表3。由表3可知:與Mask R-CNN模型相比,SE-HDC-Mask R-CNN模型對軌道和行人(大目標)的檢測精度及掩碼分割精度略低,但也具有較高精度;對信號燈和石塊(小目標)的檢測精度分別提升了0.7%和4.1%,IoUbox分別提升了0.3%和2.4%,對石塊的掩碼分割精度提升了3.0%。

表3 SE-HDC-Mask R-CNN模型與Mask R-CNN50模型對比結果Table 3 Comparison results between SE-HDC-Mask R-CNN model and Mask R-CNN50 model %
SE-HDC-Mask R-CNN模 型 及 YOLOV2,YOLOV3-Tiny,SSD,Faster R-CNN,Mask R-CNN等模型在同一數據集下的目標識別結果綜合評價見表4。由表4可知:相較于YOLOV2,YOLOV3-Tiny,SSD,Faster R-CNN等模型,SE-HDC-Mask R-CNN模型的mAP和mIoUbox均有較大提升;相較于Mask R-CNN模型,mAP,mIoUmask,mIoUbox均提升了0.5%。

表4 不同網絡模型的評價結果Table 4 Evaluation results of different network models %
采用不同網絡模型進行目標檢測及分割,結果如圖7所示。由圖7(a)-圖7(c)可明顯看出,SE-HDC-Mask R-CNN50模型可有效檢測出短軌道且目標掩碼更接近于原始掩碼。由圖7(b)-圖7(e)、圖7(g)可看出,SE-HDC-Mask R-CNN模型對石塊和遠處信號燈的檢測準確度高于其他模型。由圖7(f)可知,YOLOV3-Tiny模型雖能識別石塊和信號燈等小目標,但檢測精度低于SE-HDC-Mask R-CNN模型。
結合表4及圖7可知,與其他模型相比,SE-HDCMask R-CNN模型能對井下軌道、石塊及其他小型障礙物進行檢測,有效解決小目標漏檢問題,且提取的目標掩碼更接近于原始掩碼。

圖7 井下電機車行駛場景中不同網絡模型的目標檢測及分割結果Fig. 7 Object detection and segmentation results of different network models in underground electric locomotive driving scene
考慮到煤礦井下巷道環境惡劣,為驗證模型能否適應電機車行駛的不同場景,在煤巷直軌、彎軌、黑暗環境、多目標重疊等不同場景下進行模型測試,結果如圖8所示。由圖8可知,SE-HDC-Mask R-CNN模型在多種場景下均可有效實現目標檢測。

圖8 SE-HDC-Mask R-CNN模型在不同場景下的目標檢測結果Fig. 8 Object detection results of SE-HDC-Mask R-CNN model in different scenarios
綜上,雖然煤礦井下巷道環境惡劣,但SE-HDCMask R-CNN模型可有效檢測前方目標,可為后續目標障礙物的識別奠定基礎,該模型具有一定泛化能力及較高魯棒性,基本滿足電機車無人駕駛障礙物檢測需求。
(1) 嵌有SE模塊和HDC的主干特征提取網絡可提高Mask R-CNN模型對特征的利用率,增強信息關聯性,提高對小目標物體的檢測精度。視頻間隔分幀方式可在一定程度上滿足煤礦巷道中電機車的實時檢測需求。
(2) SE-HDC-Mask R-CNN模型可有效識別井下電機車行駛場景中的目標,降低目標漏檢、誤檢概率,提高掩碼分割精度。改進后的模型具有較高目標識別精度,與Mask R-CNN模型相比,mAP,mIoUmask,mIoUbox均提升了0.5%,綜合性能優于YOLOV2,YOLOV3-Tiny,SSD,Faster R-CNN等模型。
(3) 不同場景下的測試結果表明,SE-HDCMask R-CNN模型在煤巷直軌、彎軌、黑暗環境、多目標重疊等場景下均可有效實現目標檢測,具有一定的泛化能力及較高的魯棒性,基本滿足電機車無人駕駛障礙物檢測需求。