李海培
(中鐵第一勘察設計院集團有限公司,西安 710043)
2020年3月城軌交通協會發布《中國城市軌道交通智慧城軌發展綱要》,其中設立2025年智能基礎設施監測/檢測覆蓋率目標為60%以上,2035年達到85%以上?;谠摫尘?,發展智能軌道狀態壽命及維護評估系統勢在必行。鋼軌表面是軌道最薄弱的環節,容易產生裂紋、魚鱗破損、擦傷、剝離等缺陷,嚴重影響行車安全[1]。此外,城軌列車運行高速化和高密度的發展趨勢,對鋼軌質量和鋼軌表面缺陷檢測技術的要求也在逐步提高。為此,許多專家學者針對鋼軌表面缺陷檢測問題進行了大量的研究。
文獻[2]結合均值和標準差分布曲線定位軌面區域,選取自適應均值窗口,基于模糊模型對圖像進行差分完成缺陷的分割,但該方法容易受到復雜環境和惡劣天氣的影響。文獻[3]提出了一種非接觸式診斷方法,通過激勵聲波和雷達獲取自由軌震蕩頻率特征識別鋼軌缺陷信息。文獻[4]通過分析圖像的灰度和梯度特征設計出平滑濾波器,根據背景圖像和原圖像的差分閾值分割結果,由連通區域標記法實現軌面缺陷檢測。文獻[5]采用高斯-中值濾波對圖像進行預處理,結合圖像處理技術及卷積神經網絡對預處理后圖像進行了缺陷檢測,但整體檢測算法速度慢,耗時長,實用價值較低。文獻[6]完成了Faster R-CNN網絡對輸電線路缺陷識別檢測,基于傳統的Faster R-CNN網絡對缺陷識別的檢測時間有待提高。
首先對采集到的圖像進行預處理,基于灰度垂直投影法提取鋼軌表面區域,根據缺陷圖像特點對Faster R-CNN網絡進行改進,鋼軌表面缺陷檢測由特征提取、候選區域生成和分類識別3個子模塊共同完成,提出鋼軌表面缺陷檢測算法整體框架,如圖1所示。

圖1 鋼軌表面缺陷檢測算法整體框架
為了更好地提取圖像特征,并減少一部分后續處理計算量,需要對圖像進行預處理,包括圖像的灰度化,圖像高斯濾波,直方圖均衡化3個步驟對鋼軌檢測原圖進行處理[7-9]。圖像灰度化采用加權平均值法進行計算。高斯濾波離散化窗口卷積方式,高斯核函數[10]公式為

(1)
式中,σ為高斯分布標準差。
濾波后的圖像抑制了噪聲的同時,也造成了部分圖像細節的丟失,比如軌面缺陷處的邊緣細節特征會發生改變等,因此,需要對前一步處理后的圖像進行增強。采用直方圖均衡化[11]使得處理后的圖像成為均勻分布的直方,理想情況下各個灰度值對應的像素點個數相同。采用自適應直方圖均衡化,變化方法為

(2)
式中,xi,j為變換前后的像素值,ni,j為像素平均灰度值,H為對xi,j的變換函數,k為權重系數。
通過觀察采集的大量現場鋼軌缺陷檢測圖像發現,由于材質原因軌面區域和非軌面的線路區域灰度值差異化大,除此,軌檢系統攝像機連續移動采集圖像中軌面區域和非軌面區域位置相對固定。基于以上兩點,采用基于灰度投影的區域定位法[12]。具體算法流程如圖2所示。

圖2 基于灰度投影的鋼軌表面定位法流程
圖2中,Fmax為第i列曲線值f(pi)的最大值,圖像像素大小為a×b,令圖像每列灰度值為I(i,x),其投影函數為

(3)
計算連續m列投影曲線函數值之和為

(4)
由式(4)可得,當f(p)=Fmax時,該列即為待定位的軌面圖像列,投影函數值之和的集合為F={f(1),f(2),…,f(i+m-1)}。通過對坐標的裁剪,即可得到軌面區域。
在Matlab 2016(a)軟件仿真平臺中,對上述算法進行仿真,直方圖均衡化系數k=0.5。預處理部分結果如圖3所示,預處理前后的直方圖如圖4所示。

圖4 預處理前后直方圖對比
圖3預處理后圖像信息量明顯減少,且均衡化后圖像能增強濾波造成邊緣細節模糊的問題。定位前后的鋼軌表面圖像如圖5所示。投影曲線函數值與圖像列數的函數曲線如圖6所示。

圖5 軌面圖像定位前后結果

圖6 投影曲線結果
由圖5、圖6可以看出,矩形框標記部分的投影曲線函數值明顯高于其他部分,鋼軌表面也被完整定位出來,可見本方法具備可行性。
深度學習通過深層次神經網絡自動提取特征,相比傳統機器克服了其需要人工設計特征以及復雜環境下算法結果不佳的問題[13-15]。采用Faster R-CNN算法,可以滿足缺陷識別對實時性的較高要求。
Faster R-CNN目標檢測模型是在R-CNN、Fast R-CNN的基礎上改進,通過生成的一種優化目標檢測模型,用區域建議生成網絡RPN代替了原有傳統的Selective Search、edge box等方法,傳統的Selective Search等方法生成區域建議需2 s,而RPN網絡僅需10 ms,在實時性方面有了大幅度的提升[16-17]。Faster R-CNN網絡結構如圖7所示。

圖7 Faster R-CNN網絡結構
具體實施時,Faster R-CNN算法首先利用卷積網絡表示高層語義信息的特征圖,然后根據RPN網絡產生多種不同長寬比的候選區域,選擇ROI區域后形成分類回歸網絡,并根據特征進行識別輸出。后面會對各個子網絡進行介紹。
特征提取網絡作為Faster R-CNN的基礎網絡,用于提取輸入圖片的語義信息,特征提取的效果會影響到后續一系列操作的結果,對于鋼軌表面缺陷識別檢測,選擇一個合適的基層特征提取網絡表現得尤為重要。Faster R-CNN網絡最常見的特征提取網絡有ZF、VGG16、ResNet三種類型,除全連接層外,各具有5層、13層和15層及以上的特征提取層數。對于小目標檢測來說,較淺網絡提取的特征圖可以包含更多細節特征,更適合于軌面缺陷檢測這種小目標定位,故選擇ZF網絡作為基層特征提取子網絡。ZF特征提取網絡結構如圖8所示。

圖8 ZF特征提取網絡結構
網絡共包含5層卷積層,其中第1、2層均包含了conv、pool、norm及Relu操作,第3~5層均包含conv和Relu操作。
RPN網絡是Faster R-CNN網絡中用于提取目標區域建議框的結構,其結構示意如圖9所示。通過利用3×3滑窗提取卷積特征得到多個候選區域,并將此特征圖分別送入分類和回歸層,每個窗口對應x個目標候選區域,參考建議框anchors的長度和比例各不相同,用anchor鋪設原圖尋找目標的方法計算量小。輸入256維向量,輸出網絡層包括分類層和回歸層,前景置信度表示軌面缺陷的概率,位移偏移量為anchors的平移縮放量。

圖9 候選區生成網絡結構
對分類層中對每一個anchor進行前景置信度的計算,結合非極大抑制思想,以IOU(Intersection over union,簡稱交并比)作為指標,即模型預測候選框和任意一個標記候選框的交疊率,其計算公式為

(5)
式中,SanchorBox表示預測的候選框;SgroundTruth表示標記候選框。若IOU指標>0.7,則標記可能包含前景物體候選框的正樣本,IOU指標<0.3,則標記為非目標物體的負樣本。
回歸層輸出的anchors平移縮放量,用(Δx,Δy,Δw,Δh)分別表示預測邊框的中心坐標(x,y)、矩形框寬度w及高度h的偏移量值,根據偏移量值進行區域邊框位置回歸,其計算公式為

(6)
式中,x、xa、x*分別表示預測邊框、錨點、真實區域邊框的x坐標,y、w、h同理。
分類回歸網絡輸入ZF網絡輸出的特征圖和RPN網絡輸出的候選區域,輸出置信度和修正參數用以修正候選區域,其網絡結構如圖10所示。

圖10 分類回歸網絡結構
分類回歸網絡包含一個pool13池化層,fc6、fc7、fc/cls和fc/bbox四個全連接層以及一個softmax層。pool13池化層先將輸入的候選區域池化成長度、比例相同的特征圖,然后通過fc6、fc7進行特征映射,接著fc/cls、fc/bbox輸出各候選區域對應的系數和修正參數,最后由softmax計算系數得到置信度。
Faster R-CNN在通用目標檢測領域表現優異,但是由于缺陷部分占圖像整體部分比例較小,對小比例目標的檢測效果不太理想,會出現誤檢和漏檢情況,結合鋼軌表面缺陷檢測需求,對Faster R-CNN網絡一些關鍵部分加以改進,提高Faster R-CNN網絡對鋼軌表面缺陷檢測的準確率。主要包括對ZF網絡結構的改進(卷積核的選擇和基于級聯的特征融合策略),以及對網絡訓練策略的設計,基于改進后的鋼軌表面缺陷檢測算法網絡結構如圖11所示。

圖11 改進后的鋼軌表面缺陷檢測算法網絡結構
RPN網絡根據提取到的卷積特征圖生成缺陷的建議區域,也稱為ROI(Region of Interest,感興趣區域),如圖11中紅色框標注部分,然后將ROI區域映射回特征提取網絡提取的特征圖中,得到不同尺寸特征圖,ROI池化對不同尺度特征圖采樣,生成相同尺寸的特征張量,分類及回歸子網根據張量特征進行分類回歸。
傳統ZF網絡采用的卷積核尺寸選擇7×7、5×5等具有較大感受野尺寸的卷積核,可以提取深層次的語義信息,其特征圖相對分辨率較小,這對于大尺度目標的檢測是有效的,但這些深層次分辨率對較小的特征圖結果表現不理想,如對象鋼軌表面缺陷檢測?;诖耍槍鹘y的ZF特征提取網絡進行了以下2方面的改進。
(1)卷積核的選擇
將ZF中卷積核尺寸由原來7×7的卷積核替換為三層3×3卷積核,原來conv1改進為conv1_1、conv1_2及conv1_3,兩層3×3卷積核代替原來5×5的卷積核,這樣可以減少參數量和網絡規模大小,使網絡有更強的非線性映射能力,優化網絡性能。
(2)基于級聯的特征融合
如圖8所示,傳統的ZF網絡為單層卷積層和池化層的交替使用結構,但Faster R-CNN網絡中僅將特征提取網絡的最后一層卷積特征圖作為后續操作輸入,最后一層卷積特征圖中每個點都融合了大量的周圍信息,所包含細節信息對于檢測鋼軌表面缺陷是不夠的。選擇一種基于級聯的特征融合策略對單層交替使用的卷積層結構進行改進,融合淺層特征和深層特征,提高網絡對小車號區域的定位性能。改進后ZF網絡卷積層結構如圖12所示。

圖12 改進后ZF網絡卷積層結構
圖12中,每一層卷積層卷積后,圖像的尺寸在減小,但是前期卷積神經網絡學習的是低維特征,往后學習的是高維特征。因此輸出的是小尺寸高維度的特征圖。融合cov1_3和cov2_2淺層特征圖C1,特征融合一般有元素求和或計算點積2種方式,卷積神經網絡得到特征圖相當于x深度的二維矩陣。矩陣元素求和或計算點積要求矩陣維度相同,cov1_3層特征圖和cov2_2層特征圖通道數不同,需將96通道的cov1_3特征圖升維成256通道,和cov2_2層進行特征融合。淺層特征C1與cov4層特征圖輸出的深層次特征需進行融合,其通道數是384,為解決通道數不一致的問題,在與C1特征融合之前,加入一層256通道的反卷積層,將384通道的深層特征降維成256通道的淺層特征,并與C1進行特征融合得到C2,最后與第8卷積層特征融合輸出最終結果。
為了驗證改進算法在鋼軌表面缺陷檢測中的有效性,在顯卡為NVIDIA Geforce 920M,顯存為12GB的PC機上安裝Ubuntu16.04LTS 64位操作系統,使用的網絡訓練框架為Caffe。
參考路面、橋梁裂紋檢測等通用評價標準,比較算法改進的有效性,引入召回率Rec、準確率Acc作為評價標準[18-20]。一般來說,準確率越高召回率就越低,為了均衡準確率和召回率對模型評價造成的影響,設定K為分類精度系數,用以全面客觀地評價分類結果,其計算公式為

(7)
實驗數據集由西安市軌道交通集團有限公司運營分公司提供,GJ-2型軌檢車采集的60 kg/m及50 kg/m型鋼軌表面圖像數據,總共1 592張圖片,包含裂紋、魚鱗破損、擦傷、剝離以及非缺陷五類圖像。為了擴充樣本集,采用裁剪、旋轉、添加噪聲、調節圖像明暗度等變換后,總共得到25 472張圖片,其中訓練集22 000張圖片,測試集3 472張鋼軌表面缺陷圖片。部分樣本庫圖像如圖13所示。

圖13 部分樣本庫圖像
實際鋼軌表面缺陷圖像復雜多變,為得到識別準確性高的分類器,需要讓分類識別網絡學習到更全面的缺陷特征,建立了5 000張實際環境豐富、干擾因素多的非軌面缺陷圖像擴充樣本集,部分圖像如圖14所示。

圖14 部分干擾圖像
數據集測試實驗分2組進行,實驗1將原樣本集分別輸入改進前后的Faster R-CNN模型進行訓練;實驗2將擴充樣本集分別輸入改進前后的Faster R-CNN模型進行訓練。得出分類精度與迭代次數的關系曲線對比,如圖15所示。

圖15 分類準確率實驗結果對比
由圖15可以看出,改進后的Faster R-CNN模型對樣本集數據和干擾集數據的識別準確率皆高于傳統模型,實驗1中高出1.9%,實驗2中高出2.8%,將上述4次實驗的準確率、召回率和分類精度系數指標的平均值進行比較,結果見表1。
從表1可以看出,改進后模型準確率高于傳統模型,2次實驗準確率分別提高了6.47%和4.19%,分類精度系數K實驗1中提高了0.94%,實驗2中提高了1.07%。由此看出,提出改進Faster R-CNN模型對鋼軌表面缺陷檢測是有效的。

表1 不同方法缺陷檢測精度對比結果 %
學習率尺度影響最終的分類識別精度,其值過大,分類精度低;其值過小,訓練時間過長,容易產生局部最優的情況。調整模型中學習率,分別取0.01、0.007、0.003和0.001進行實驗,其迭代次數和精度關系曲線對比如圖16所示。
由圖16可以看出,當學習率為0.001時對應的分類精度最高,迭代次數在2 000次附近收斂達到94.7%。
將本文方法與文獻[5]中的CNN網絡模型缺陷檢測法和文獻[6]中的傳統Faster R-CNN網絡模型缺陷檢測算法進行對比,各類缺陷檢測準確率結果見表2,各類缺陷檢測時間見表3。

圖16 學習率實驗結果對比

表2 不同方法缺陷檢測準確率對比結果 %

表3 不同方法缺陷檢測時間對比結果 s
從表2和表3可以看出,改進方法對鋼軌表面四類缺陷檢測的準確率和實時性都優于另2種方法。
(1)為響應《中國城市軌道交通智慧城軌發展綱要》中提出的發展智能軌道狀態壽命及維護評估系統的目標,提出一種基于改進Faster R-CNN的鋼軌表面缺陷檢測方法,在樣本庫圖像中驗證該方法對鋼軌表面常見4種缺陷檢測平均準確率達到94.7%。
(2)對Faster R-CNN網絡的卷積核結構和ZF網絡卷積層結構進行改進,與改進前模型進行對比實驗,改進后模型比傳統模型缺陷檢測準確率提高1.85%,平均檢測時間快0.51 s。結果表明,改進后檢測方法實際可行,在軌道狀態壽命及維護中有較大的應用價值。