陳智羽,閔 鋒
武漢工程大學計算機科學與工程學院,湖北 武漢430205
隨著科技的發(fā)展,我國鐵路里程數已經一躍成為世界第一,高鐵營業(yè)里程已達2.9×104km,超過世界高鐵總里程的2/3,成為世界上高鐵里程最長、運輸密度最高、成網運營場景最復雜的國家。在這種情況下,鐵路的安全維護便成為了一個難題。現階段,我國對于鐵路接觸網的維護和檢修,是依靠接觸網懸掛狀態(tài)檢測監(jiān)測裝置(4C)車[1]對支柱桿進行拍攝,然后通過大量人工對每張圖像進行查看,進行故障的排查。4C系統(tǒng)采集的圖像均為高分辨率圖像,需要人工對圖像進行多次縮放操作查看,這樣的檢測方式受限于技術人員的個人經驗水平、注意力的集中程度等諸多不可控因素,且存在故障篩查時間長、漏檢風險高等問題。對于我國鐵路的里程數來說,人工的方式是無法及時發(fā)現故障,保證鐵路安全的。
隨著深度學習技術的不斷發(fā)展[2],各種基于深度學習的目標檢測[3-4]和目標跟蹤算法[5]被提出。深度卷積神經網絡可以通過收集大量目標物體的圖像樣本,進行訓練,得到目標物體的檢測模型,所以神經網絡被運用在各個領域中,如:人臉識別[6]、視網膜血管分割[7]等。而目前廣泛使用的目標檢測算法分為雙步目標檢測算法和單步目標檢測算法兩種。雙步目標檢測算法常用的有:快速的區(qū)域卷積神經網絡(fast region-based convolutional neural networks,Fast R-CNN)[8],加速的區(qū)域卷積神經網絡(faster region-based convolutional neural networks,Faster R-CNN)[9],分割掩模的區(qū)域卷積神經網絡(mask region-based convolutional neural networks,Mask R-CNN)[10]等,該類算法是先生成一系列樣本的候選框,再通過卷積神經網絡在這些候選框中進行樣本分類,以此完成對目標的檢測和識別。而單步目標檢測算法則不用產生候選框,直接將目標邊框定位的問題轉化為回歸問題處理,因此檢測速度較快。該類算法常用的有:單點多盒探測(single shot multi box detector,SSD)[11],統(tǒng)一的實時目標檢測(you only look once:unified,real-time object detection,YOLO)[12],第三代統(tǒng)一的實時目標檢測算法(you only look once:unified,real-time object detection V3,YOLO V3)[13]等。考慮到我國鐵路接觸網的里程長度,所需要檢測的樣本數量巨大,選用更加迅速的單步目標檢測算法。YOLO是最先使用回歸的方法,直接從一張圖像中檢測物體的邊界框坐標與類別,采用視覺幾何組16(visual geometry group 16,VGG16)作為基礎網絡的,其速度是Faster R-CNN的3倍,但由于YOLO[14]采用網格劃分的思想,對每個單元格都預測其中包含物體的置信度及其類別分數,造成YOLO的檢測精度偏低,對小物體及較密集的物體檢測效果較差。YOLO V3具有較快的檢測速度和較高的檢測精度,所以本文選擇YOLO V3對接觸網絕緣子進行檢測。
目前,對于絕緣子的研究集中在輸電線上的絕緣子,對于鐵路接觸網的絕緣子研究較少。可以借鑒輸電線路中絕緣子的研究方法,對鐵路接觸網中絕緣子檢測作指導。由于輸電線路上沒有4C巡檢車,所以輸電線路的方法多是基于航拍的圖像中的絕緣子進行研究,文獻[15-16]為解決絕緣子的錯檢、漏檢等問題,將絕緣子分解成多個存在交集的可變型部件,并對其進行檢測。在保證子目標檢測精度與速度的前提下,利用各部件之間相交區(qū)域的特征及含義,對其進行聚合并重新定義,使檢測到的目標區(qū)域更準確。由于鐵路上有4C車對接觸網進行拍攝,相較于無人機拍攝圖像距離更近,設備更穩(wěn)定,成像更清晰,獲取更方便。所以在已有4C圖像的情況下,直接以4C圖像作為數據集進行訓練是一種更好的選擇。
由于目前對接觸網絕緣子研究較少,沒有公共數據集,需自己制作數據集。4C車拍攝鐵路接觸網圖像如圖1所示,從圖1可以看到鐵路接觸網分為單桿和雙桿,單桿較為簡單,而雙桿相對來說較為復雜。接觸網上面比較重要的部件,有雙耳套筒、抱箍、絕緣子和底座等。使用LABELIMG程序,對圖像中的重要部件進行框選、分類、制作,用5 258張鐵路接觸網圖像作為訓練數據集,另外選取500張圖像作為測試數據集。

圖1接觸網圖像:(a)單桿,(b)雙桿Fig.1 Catenary image:(a)single rod,(b)double rods
為了能清楚的表現各個部件的狀態(tài)細節(jié),4C拍攝的單張圖像大小一般為6 576像素×4 384像素。而雙耳套筒和絕緣子底座在圖像中的像素只有不到500像素×500像素的大小,只占整個圖像的0.9%不到。YOLO V3是以回歸思想作為算法的基礎,好處是計算速度快,但對小目標的檢測準確率不夠高。同時,YOLO V3在檢測時,會出現重定位現象,如圖2所示,接觸網底座位置出現了多個檢測框。

圖2 YOLO V3檢測結果圖Fig.2 Detection result image of YOLO V3
YOLO V3采用的是53層的特征提取(Darknet-53)[14]網絡結構,該網絡主要是由一系列的1×1和3×3的卷積層(convolutional layers,CL)組成,因為此網絡中有53個CL,所以叫做Darknet-53(53層網絡不包括Residual層)。
Darknet-53借鑒了殘差網絡(residual network,RN)的想法,由5個殘差塊(residual block,RB)組成,每個殘差塊又是由多個殘差單元(resnet unit,RU)組成。而上述結構是以輸入圖像為256像素×256像素進行檢測的,更為常用的圖像為416像素×416像素,均為32的倍數。輸入416像素×416像素的結構檢測的3個特征層大小分別為52×52,26×26,13×13。
其中13×13層負責檢測大型目標,26×26層負責檢測中型目標,52×52層負責檢測小型目標。因此,需要針對小目標檢測,對網絡的結構進行修改。在Darknet-53的第2個殘差塊到第3個殘差塊之間增加一層殘差塊,利用這個4倍降采樣的特征融合目標檢測層對小目標進行訓練,提高對小目標檢測的準確率。增加殘差塊的網絡結構如圖3所示。

圖3增加殘差塊的網絡結構Fig.3 Network structure of added rsidual block
圖3中,前面的數字4表示4倍降采樣,128,256表示卷積過慮器的數量,1×1和3×3表示卷積的大小,52×52表示輸出特征圖的大小。
針對重定位現象,采用定位框去重算法。即在檢測時對定位框進行判斷,如果該定位框與其他定位框的標簽一樣,且重疊區(qū)域超過一定的閾值,便尋找兩個定位框的最大外接矩形,讓最大外接矩形作為新的定位框,代替原本的兩個定位框,使得兩個定位框進行融合。實驗時,閾值取自身區(qū)域的80%,由于拍攝角度原因,在拍雙桿的時候,可能存在同一部件相互遮擋的問題,故閾值不能設置過低。
因同一路段的鐵路接觸網具有同質性,所以在同一路段下拍攝的4C的圖像就具有相似性,絕緣子部件的位置大體相同。所以對于相似圖像,可以用上一張圖像的檢測結果,作為下一張圖像的檢測候選區(qū)域,只需要在候選區(qū)域附近搜索,而不需要全圖搜索,可以極大的提高檢測速度。判斷兩張圖像的相似性,采用感知哈希算法。該算法給每張圖像生成一個“指紋”,兩張“指紋”字符串漢明距離越小,說明兩張圖像越相似。通過指紋的相似度,可對圖像進行分類。當判斷兩張圖像屬于同一類時,將第一張圖像定位區(qū)域作為后一張圖像的檢測候選區(qū)域,只在候選區(qū)域掃描,避免了全圖大范圍掃描,從而實現對檢測算法的加速。
YOLO V3算法對輸入的圖像,都會被放縮為416像素×416像素大小,然后進行訓練。在416像素×416像素的訓練之后,采用多尺度檢測,檢測結果顯示,與訓練大小保持一致,即在416像素×416像素的尺度下,檢測效果最好。
改進后的算法流程如圖4所示:首先用LABELIMG程序制作訓練所需的數據集,另選取500張圖像用作測試;然后用改進后的算法對制作的數據集進行訓練,得到訓練后的模型;之后檢測圖像,檢測前計算圖像的哈希碼,通過哈希碼判斷該圖像的相似性。如果相似則采用候選區(qū)域掃描策略進行檢測,否則采用全圖掃描策略進行檢測;初步檢測完成后,進行檢測框的去重;最后完成檢測,輸出檢測后的圖像。

圖4絕緣子檢測流程圖Fig.4 Flow chart of insulator detection
使用5 258張4C接觸網圖像進行訓練,并在416像素×416像素的尺度下檢測。然后與YOLO V3,FAST R-CNN的檢測結果進行對比。測試結果如表1所示,由于3種方法都不存在誤識別,故不進行統(tǒng)計。
通過表1可以看出,對比FAST R-CNN,無論是YOLO V3還是改進后的算法,準確率都有很大提升,耗時也有大幅度的下降。改進后YOLO V3的漏檢數有明顯下降,準確率有較大的提升,絕緣子檢測的準確率從93.6%提升至99.2%,證明增加一個對小目標友好的4倍降采樣的殘差塊,提高了算法對于小目標檢測的準確率。

表1絕緣子檢測結果統(tǒng)計表Tab.1 Statistical table of insulator detection results
使用感知哈希的加速效果依賴于圖像中待檢區(qū)域的個數,當待檢區(qū)域數量較少時,其候選區(qū)域少,加速效果更加明顯。單桿圖像平均耗時由1.32 s減少到0.53 s,雙桿圖像平均耗時由1.32 s減少到0.9 s。使用同一相機在同一條線路中連續(xù)拍攝的200張圖像作為測試樣本,測試結果如表2所示,使用全圖掃描策略約耗時264 s,使用候選區(qū)域掃描約耗時143 s,其中146張利用了候選區(qū)域掃描。通過感知哈希算法分類圖像,對同類圖像采用候選區(qū)域掃描策略加速,速度提升46%,如果連續(xù)處理的圖像數量越多其速度提升越明顯。

表2加速效果統(tǒng)計表Tab.2 Statistical table of time efficiency analysis
改進YOLO算法檢測結果如圖5所示。從圖5可以看出,改進后的算法不僅對小目標的檢出率很高,而且置信度保持在很高的分數。在圖5(a)中,接觸網的上方,有一個與絕緣子一樣的部件,但此部件并不在檢測范圍內,為干擾項。由于與絕緣子的角度不同,因此被算法排除;圖5(b)中,有許多桿間支撐裝置,與雙耳套筒使用了相同的零件,該零件并不在檢測范圍內,為干擾項。由于此部件有彎折,因此被算法排除;圖5(c)為雙桿接觸網圖像,外部的支撐桿對內部桿上的抱箍造成了遮擋,使其像素信息不全,但該算法依然將其檢出。通過這些例子可以看出,在復雜情況下,算法取得了較好的檢測結果,表明改進后的算法有良好的檢測能力與抗干擾能力。

圖5檢測結果圖:(a)絕緣子干擾圖,(b)雙耳套筒干擾圖,(c)抱箍遮擋圖Fig.5 Test results of images:(a)insulator blocked image,(b)clevis end holder for tuble blocked image,(c)holt hoop iron blocked image
綜上所述,本文提出了一種基于改進YOLO V3的絕緣子檢測方法,實驗結果表明,該方法可以檢測出鐵路接觸網上的絕緣子部件,不僅檢出率高,而且速度快,抗干擾能力強,適用于大多數環(huán)境,基本滿足鐵路接觸網檢測要求的準確性和快速性。下一步工作將在絕緣子檢測定位的基礎上,對絕緣子的缺陷檢測展開研究。