胡雪霏,李丞鵬,陳俊海,劉書浩,宋曉敏
(1.交通運輸部科學研究院,北京 100029;2.城市軌道交通運營安全管理技術及裝備交通運輸行業研發中心,北京 100029;3.北京中天路通智控科技有限公司,北京 100036)
近年來,南寧、深圳、成都等多個城市地鐵保護區陸續發生鉆機施工擊穿隧道的險性事件[1],造成隧道及列車受損、司機受傷、運營延誤等嚴重后果,給乘客人身安全帶來了重大隱患。據不完全統計,僅2021 年,我國就發生了6 起因外部勘探等施工作業打穿地鐵隧道的事件。為加強地鐵保護區管理,《城市軌道交通運營管理規定》(中華人民共和國交通運輸部令2018 年第8 號)以及各城市軌道交通管理規定中均對地鐵保護區的作業和巡查提出了要求。然而目前各城市地鐵保護區巡查主要依靠人工[2],工作量大、投入較高且效率較低,不僅難以覆蓋所有區域,而且巡查效果受人員自身素質、專業素養等因素影響較大。因此,單純的人工巡查無法解決地鐵保護區面臨的安全隱患[3]。
圖像識別技術的發展為地鐵保護區管理提供了新思路,如:Lablack等[4]通過監控攝像機分析乘客的停止、移動和觀看等行為,以判斷其對物體的興趣;Ko[5]提出了可疑人類行為檢測方法,將基于行為分析的視頻監控應用于公共安全領域;Hu等[6]結合空間、距離和類型的特征,對交通監控視頻中的典型和異常行為進行了識別。我國各大城市也在探索利用新型監測技術手段提升地鐵保護區的安全管理水平,如:武漢地鐵針對武漢市的特殊地質條件,研究了地鐵保護區變形安全監測的方案設計、實施及控制指標,梳理出了主要安全風險因素[7];南京地鐵[8]結合移動互聯網、地理信息系統(Geographic Information System,GIS)與全球衛星導航系統(Global Navigation Satellite System,GNSS)定位技術,研發了軌道交通保護區信息化巡查執法智能管理系統及配套手持終端,提出了巡查結果動態查詢、歷史項目和案件回溯及數據智能分析算法,以加強地鐵保護區巡查執法管理;北京地鐵通過保護區既有部分地質、水文、管線、設施等基礎數據融合技術、北斗衛星遙感、保護區電子圍欄、地面線視頻監控、無人機自動巡查、自動化監測等關鍵技術研究,搭建了保護區管理平臺[9]。
綜上所述,國外關于圖像識別技術在地鐵中的應用研究主要集中在乘客行為分析和監測方面,國內大部分地鐵保護區的研究側重于施工管理過程中的變形監測[10-13],以及施工管理全過程的信息化平臺研發[14-15],對于智能監測和巡查手段的準確率和有效性研究相對不足。為此,本文擬針對地鐵保護區施工鉆機的圖像特點,開展基于智能圖像識別的地鐵保護區內鉆機作業監測方法研究,從圖像識別準確率、識別速度、功能參數影響等方面進行對比分析,評價深度學習方法在地鐵保護區鉆機圖像識別中的應用性能,旨在為增強地鐵保護區內鉆機施工識別的及時性和準確性提供支撐。
圖像識別主要是通過對圖像特征的提取和分析,實現對信息的處理和識別。由于普通的機器學習模型無法對物體大小、形狀、狀態等多樣性進行有效識別,21 世紀前的圖像識別方法僅處于實驗室水平。深度學習[16]是基于深度神經網絡的機器學習,更適合解碼復雜的、高維的、隱秘的特征。2010 年以來,隨著深度學習的普及,關于圖像識別的研究蓬勃發展,R-CNN(Regionbased Convolution Neural Networks)系 列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等基于人工神經網絡的圖像識別算法應運而生。Faster R-CNN[17-18]是R-CNN 系列的最新成果,它是目前準確率最高的圖像識別算法之一,但識別速度相對較慢。SSD[19]同時借鑒了YOLO 和Faster R-CNN,既有YOLO 速度快的優點,又有Faster R-CNN 識別準的優點,但調試過程較多依賴經驗。YOLO[20]是基于CNN 的深度學習模型在圖像識別中的典型應用,通過不斷改進和迭代成為YOLOv4 模型,其在網絡結構、訓練策略等方面都有了較大變化,能夠同時保證準確率和檢測速率,具有較好的檢測效果。各種算法的優劣勢比較和適用場景如表1所示。

表1 圖像識別算法適用性比較
結合表1 中3 種算法的優劣勢和適用場景,考慮到地鐵保護區的鉆機識別對于速度和時間的要求較高,且鉆機本身目標相對較大,YOLOv4算法的成熟度和適用性更高,因此本文選擇采用YOLOv4算法構建鉆機識別模型。
YOLOv4 算法是在YOLO 目標檢測架構的基礎上,對數據處理、主干網絡、網絡訓練、激活函數、損失函數等多方面進行了優化。YOLOv4網絡主要分為Input,Backbone,Neck 和Head 共4層,其中:Input 層負責輸入圖片用于訓練,即輸入層;Backbone層負責特征提取,利用Mish 激活函數提高網絡性能;Neck 層負責對提取到的信息進行池化以及特征融合操作;Head層負責輸出檢測結果。同時,考慮到地鐵保護區的鉆機具有圖像隱蔽、不易識別的特點,在YOLOv4 模型訓練過程中應用了馬賽克(Mosaic)數據增強和學習率余弦退火算法,以進一步提升模型的性能。
在訓練過程中,首先從總數據集中取出一定批量數據,每次從中隨機選取4 張圖片,進行隨機位置的裁剪拼接,合成1張新圖片,重復N次,最后得到N個經過馬賽克數據增強后的圖片數據集,再反饋給神經網絡進行訓練,如圖1所示。
深層神經網絡訓練難度高主要是因為學習過程容易陷入局部最優,模型無法進一步更新參數。學習率退火算法可在每個批量數據訓練后將學習率減小一點,當減小到規定值后馬上增大到初始值,然后循環這一過程。余弦退火可以通過余弦函數來降低學習率。在余弦函數中,隨著自變量x的增大,余弦值先緩慢減小,然后加速減小,之后再次緩慢減小。學習率與余弦退火的結合,將獲得較好的學習效果(如圖2所示)。
權重衰減也稱L2正則化,其目的是讓權重衰減到更小的值,在一定程度上減少模型過擬合的問題。其表達式為在損失函數后面再加上一個正則化項,如式(1)所示。
式(1)中:C為正則化后的損失函數;C0為原始的損失函數;λ為權重衰減系數;w為權值;n為訓練集大小。
權重衰減使得權值w更小,根據奧卡姆剃刀原理,一般情況下網絡的復雜度越低,模型對數據的擬合越好。
本次地鐵保護區鉆機實驗中共使用1 682 張圖片進行測試。在打好標簽后,將其中的90%,即1 514 張圖片劃為訓練集參與測試,10%即168張圖片劃為測試集。在1 514 張訓練圖片中,選取10%即151 張圖片用于驗證計算損失,最后基于168張測試圖片計算模型的各項評價指標。
鉆機識別模型的評價指標包括精確率P(Precision)、召回率R(Recall)、調和平均數F1、平均準確率AP(Average Precision)及幀率FPS(Frame per Second):
(1)精確率P,也稱查準率,是針對預測結果而言的,即預測為正的結果占總預測樣本的百分比,如式(2)所示:
式(2)中:TP 為預測為正的樣本數;FP 為預測為負的樣本數。
(2)召回率R,也稱查全率,是針對原樣本而言的,即在全部為正的樣本中被預測為正樣本的概率,如式(3)所示:
式(3)中:FN表示實際為正但未被預測出的樣本數。
(3)調和平均數F1。由于在某些極端情況下,P和R是矛盾的,需要以犧牲其中一個指標為代價來最大化另一個指標。為使結果更加均衡和客觀,取F1為綜合評價指標,即精確率和召回率的調和平均數,如式(4)所示:
(4)平均準確率AP。AP是P -R曲線中P對R的積分,本質上是P關于R的加權平均數,它可以更準確地衡量模型的整體精確率,如式(5)所示:
(5)幀率FPS。FPS 是衡量模型速度的一個指標,它表示模型每秒能夠處理的圖片數量。
3.3.1 YOLOv4模型結果分析
實驗結果中,鉆機標簽的精確率和召回率關于置信度閾值的曲線如圖3 所示。其中,橫坐標為置信度閾值,高于該閾值判為正例(含有鉆機),反之則為負例。
從圖3 中可以看到,精確率P隨置信度閾值的增大而增大,即判定標準越嚴格,精確率越高;而召回率R正好相反,隨置信度閾值的增大而減小,即判定標準越嚴格,召回率越低。當閾值取0.5 時,模型的精確率P和召回率R分別為91.43%和92.75%,均處于較高水平。
鉆機標簽的P-R曲線如圖4所示。
調和平均數F1關于置信度閾值的曲線如圖5所示。經計算,模型中鉆機標簽在測試集中的平均準確率為94.03%,并且F1在置信度閾值為0.854 5時達到最大值。
實驗中構建的鉆機識別模型對鉆機圖片的識別效果如圖6所示。
3.3.2 參數敏感性分析
(1)功能疊加對平均準確率的影響
為了對比不同的技術功能參數對識別結果的影響,通過調節YOLOv4 算法模型,分別疊加Mosaic 數據增強、學習率余弦退火算法兩種功能,最終得到的平均準確率如表2所示。

表2 不同算法功能組合對平均準確率的影響
從表2 可以看出,Mosaic 數據增強和學習率余弦退火算法均對提升模型的平均準確率有明顯作用,其中單獨使用Mosaic 數據增強功能可以將平均準確率提升2.06%,單獨使用學習率余弦退火算法可以將平均準確率提升1.22%,二者同時使用時平均準確率最高,為94.03%,提升了3.79%。
(2)權重衰減系數對平均準確率的影響
為得出平均準確率的最優值,在上述效果最好的功能組合的基礎上,改變權重衰減系數λ,觀察對比不同λ對平均準確率的影響,結果如圖7所示。
由圖7 可以看出,總體上,當權重衰減系數處于低值區間時,權重衰減系數越高,平均準確率越高;當權重衰減系數處于較高值區間時,權重衰減系數越高,平均準確率反而越低。這是因為合理的權重衰減系數可以減小參數,避免過擬合,提高模型在測試集上的準確率;當權重衰減系數過高時,參數變得過小,訓練對參數幾乎沒有影響,平均準確率就會降低。計算結果顯示,當權重衰減系數取0.000 1 時,平均準確率最高,達到98.23%。
3.3.3 不同模型的結果對比
為了驗證YOLOv4 模型對于地鐵保護區中鉆機識別的適應性,另外選取了Faster R-CNN,SSD,YOLOv3 這3 種常見的圖像識別算法模型,對4 種模型的精確率、召回率、F1值、平均準確率和識別速度進行對比,結果如圖8 所示。從圖8 可以看出,YOLOv4 模型在精確率、召回率、F1值、平均準確率以及幀率5 個指標方面均優于Faster R-CNN,SSD 和YOLOv3 模型,說明YOLOv4模型對于鉆機識別的適用性較好。
采用基于圖像識別技術的智能監測方法,可協助對地鐵保護區沿線安全狀態的全天候、全方位監測,實現事件信息采集的精確化、信息傳遞過程的網絡化、監督管理過程的實時化,是加強地鐵保護區安全管理工作的有效技術手段之一。本文基于深度學習的圖像識別技術,結合鉆機圖像的識別特點,構建了地鐵保護區鉆機檢測方法,并通過實驗驗證了不同參數設置對模型性能的影響,分析了常見的4 種模型對于鉆機識別的精確率、召回率、F1值、平均準確率和幀率的實驗結果。實驗結果顯示,YOLOv4 模型的識別效果較為理想,可作為地鐵保護區鉆機識別的模型之一。本文主要針對地鐵保護區施工常見的鉆機識別進行研究和驗證,模型的樣本量相對較小,適用范圍較為單一。未來在實驗條件允許的情況下,可增加安全帽、反光背心、頭盔等更多地鐵保護區施工作業常見的工具進行多模型的識別對比,以擴大模型的適用范圍,更好地為地鐵保護區監測提供技術支撐。