王嬌嬌,王 瑞,包 云,李亞群
(中國鐵道科學研究院集團有限公司 電子計算技術研究所 100081)
截止2017年底,我國高速鐵路運營里程已超過2.5萬km,為保障列車安全運行,已開通的高速鐵路均同步建設了高速鐵路自然災害及異物侵限監測系統(簡稱“災害監測系統”),實現對鐵路沿線風、雨、雪、地震及異物侵限的實時監測,同時具備報警、預警及聯動觸發功能[1-2]。系統為列車的安全運行發揮了重要的安全技術保障作用,但是,系統在長期運用過程中也逐漸暴露了一些問題,其中現場監測設備脫離監控便是其中的一個主要問題。針對災害監測設備的可靠性問題,業內專家學者也展開了一系列研究工作。張翠兵[3]分析了導致異物侵限監測子系統運用失效的故障類型,并統計出各類設備故障對系統的影響程度;李曉宇等[4]從設計、建設、運用及維護等角度調研了災害監測系統存在的問題,并給出優化措施及建議;李亞群等[5]提出了災害監測系統關鍵設備監控單元的可靠性檢驗方法,完善系統的可靠性管理;除此之外,其他學者也對如何全方位完善災害監測系統進行了探索工作[6-7]。本文在對全路災害系統現場監測設備脫離監控情況調研的基礎上,開展系統現場監測設備脫離監控故障的相關分析。
現場監測設備脫離監控是指終端查詢不到當前災害監測信息和設備狀態信息的一種狀況,包括監控終端監測到現場采集設備、監控單元及附屬設備狀態顯示灰色,監測終端黑屏、死機,軟、硬件故障導致的災害監測系統無采集數據或數據不更新,通信中斷、異常等現象。現場監測設備脫離監控會導致災害監測系統無法反映現場情況、終端灰屏無法使用,甚至造成列車晚點或停運,是災害監測系統故障中影響范圍較大、故障排查較復雜的系統故障之一。
根據對全路災害監測系統設備故障情況的統計分析,2013年1月至2017年5月,全路共發生現場監測設備脫離監控情況238次,具體故障原因如圖1所示。從圖中可以看出,傳感器故障和網絡故障是造成災害監測系統現場監測設備脫離監控的主要原因,兩者占總故障原因的38%,其次是電源故障、防雷模塊故障等。
在此,按照設備脫離監控的影響范圍將設備脫離監控分為兩種情況:(1)大范圍現場監測設備脫離監控,該情況影響范圍大,如一處或多處監測終端灰屏、多監測點通信中斷等;(2)局部監測點現場監測設備脫離監控,如單監測點無采集數據或監控數據不更新等。

圖1 現場監測設備脫離監控原因統計
2013年1 月~2017年5月,全路共發生54次大范圍現場監測設備脫離監控情況,對列車運行造成了不同程度的不良影響。系統大范圍脫離監控的原因如圖2所示,可以看出,網絡故障和電源故障是主要原因,系統的具體故障原因如圖3所示。
(1) 網絡故障

圖2 大范圍現場監測設備脫離監控總體原因統計

圖3 大范圍現場監測設備脫離監控具體原因統計
網絡故障包括網絡風暴、網線故障、路由器故障、終端網絡傳輸故障、交換機故障、通信電纜被挖斷等多種情況,是災害監測系統較難排查的故障之一,如圖4所示。網絡出現故障時,不易分析和定位[8]。

圖4 網絡故障分類
其中,網絡風暴是網絡廣播風暴(Network Broadcast Storm)的簡稱。當主機系統響應一個在網上不斷循環的報文分組或者試圖響應一個沒有應答的系統時就會發生網絡廣播風暴[9]。導致網絡風暴的可能因素有網絡設備不符合要求、網卡損壞、網絡環路故障及網絡病毒入侵等。2016年1月某客運專線發生3次網絡風暴問題,致使災害監測系統監控終端灰屏、全線報警、無數據顯示,系統分別于1 min、18 min、 1 h11 min后自動恢復,故障導致的不良影響十分嚴重。
(2) 電源故障
電源故障會導致監測點通信中斷、監測終端無法正常顯示等問題,故障原因通常包括施工斷電、機房斷電、UPS故障和電源線松動等。其中,施工斷電導致的電源故障次數最多,經調研得知,主要由于相關單位檢修作業前沒有做好有效的溝通,如:需停電作業的情況下,供電段切斷了供給配電箱的供電通道,而設備管理單位相關人員未對配電箱及時進行手動切換,最終電源電量耗盡,影響系統正常運行。
(3) 軟件故障
導致軟件故障原因有災害
監測軟件不穩定、未及時升級、缺乏定期維護等。
(4) 監控數據處理設備故障監控數據處理設備故障包括服務器故障、硬盤損壞、工控機死機和小型機故障。其中,服務器故障導致的監控數據處理設備故障次數最多,主要表現為服務
器宕機等。此外,機房環境差,服務器未進行定期重啟、維護等會大大增加此類問題發生的概率。
(5) 終端故障
終端故障主要有主機故障和顯示器故障,主機故障表現為主機死機或損壞兩種情況:主機死機時,經重啟后一般可以恢復正常;遇主機受損時,經現場修復或更換備用機可恢復正常。顯示器故障時,需及時更換新的顯示器。
相比于大范圍現場監測設備脫離監控,局部監測點現場監測設備脫離監控對系統造成的不良影響相對較小,但故障類型多樣,排查工作復雜,同樣要給以足夠的重視。
2013年1 月~2017年5月,全路共發生184次局部監測點現場監測設備脫離監控的情況,原因統計如圖5、圖6所示。由圖可知,傳感器故障是導致局部監測點現場監測設備脫離監控最主要的原因,其次為網絡故障、防雷模塊故障、電源故障、監控單元主機故障等。

圖5 局部監測點現場監測設備脫離監控總體原因統計

圖6 局部監測點現場監測設備脫離監控具體原因統計
(1) 傳感器故障
災害監測系統現場傳感器主要包括風、雨、風雨、異物侵限和地震傳感器5種類型,故障分類統計如圖7所示。傳感器故障通常有設備本身損壞、傳感器接線脫落兩種表現。因此,初期選用合格的產品和后期及時的故障排查尤為重要。

圖7 傳感器故障分類
(2) 網絡故障
導致網絡故障的問題中,通信元件故障占比最多,約58%,其次還有傳輸通道故障、通信模塊故障等。由圖8可知,造成局部監測點現場監測設備脫離監控的網絡故障主要成因是硬件設備的損壞,所以需要準備充足的備品備件。

圖8 網絡故障分類
(3) 防雷模塊故障
防雷模塊故障會直接影響雷電天氣下設備的正常使用,需引起高度重視,以便及時發現問題,排除隱患。
(4) 電源故障
電源故障包括UPS故障、變壓器故障和逆變電源故障。UPS故障是導致局部監測點現場監測設備脫離監控的主要電源故障。表現為UPS數據采集串口共享器故障、UPS電源空開跳閘等,日常維護工作中應進一步加強對UPS的故障排查。
(5) 監控單元主機故障
監控單元主機故障分為主機死機及主板老化、損壞等情況,需要重啟主機或更換備用機、備用主板才能恢復正常運行。
(6) 其他故障
此外,數據傳輸單元、數據采集模塊、軟件故障等同樣會導致局部監測點現場監測設備脫離監控。其中,數據傳輸單元故障分為數據采集箱故障和配電箱故障兩類,配電箱故障居多,表現為自動切換模塊故障、箱內空開跳閘等;數據采集模塊故障包括氣象板故障、CMM數據采集模塊故障等;軟件故障包括版本未及時更新、軟件不穩定、互聯互通程序接口服務器上軟件故障等;長線收發器故障時,需要及時更換新設備;監控數據處理設備故障為2次服務器故障,對服務器進行重啟即可恢復正常。
以上描述的設備故障中,惡劣天氣是導致系統故障的間接原因之一。如雷雨天氣會使得傳感器或者基站內設備被雷擊損壞,寒冷天氣下設備故障的頻率增大等。資料顯示,某客運專線某公司管段1年內發生了10余次因環境溫度過低導致傳感器表面被凍住引起監測點閃灰的故障。因此,需將如何應對特殊氣候環境下的設備維管問題納入下一步工作范疇。
綜合以上分析,提出以下幾條改進措施和建議:
(1)加強結合部管理。災害監測作為一個綜合的專業,涉及到工務、電務、供電、信息等部門和站段,由鐵路局工務處負責災害監測系統的統一管理[10],各設備管理單位進行維修作業時應加強聯系,共同確認影響范圍及配合方式后方能作業,停電作業需要提前通知工務做好應急準備。
(2)加強設備日常巡檢。各設備管理單位應根據實際情況定期對各自管轄設備進行檢修,并做好檢查記錄,確保災害監測系統各部位處于良好工作狀態,保證良好的機房環境,備品備件充足,降低系統的故障風險,提高服務器系統穩定性和效能。
(3)加強網絡故障的排查,提高網絡安全保障能力。特別是傳輸通道、通信元件等易出現問題的部位需定期檢查、維護。通過從技術、管理和運維等方面綜合加強網絡安全保障。在技術上,通過認證授權、數據加密、訪問控制、邊界防護等技術,確保系統網絡安全;在管理上,建立網絡安全全員培訓機制,覆蓋網絡安全管理人員、技術人員和應用系統操作人員。另外,進行檢查考核,包括政策法規和標準執行情況、重大網絡安全事件及整改情況、網絡安全技術防護要求完成情況等內容。
(4)完善災害監測軟件,增強軟件容錯能力與健壯性。定期(1個月、3個月等)對磁盤進行清理,刪除無效日志,釋放磁盤空間;每半年對服務器進行重啟維護,使服務器操作系統重新初始化;至少每一年備份一次數據庫,積累監測數據,便于開展大數據分析研究。
(5)對故障頻發的設備進行監測,研究可替代的設備和技術。針對監控單元電源故障頻發的問題,對其進行實時監控,并研發可靠性高的電源設備;針對異物侵限雙電網故障多的問題,研發基于雷達和綜合視頻智能分析相結合的非接觸式異物侵限監測設備,提高異物侵限監測的可靠性和適用范圍。
(6)做好惡劣天氣下設備的防護工作,如雷電天氣下應安排人員及時做好防雷模塊的故障排查,研發鐵路沿線雷電預警產品,提前做好防范和應急處置工作;嚴寒天氣下應有針對性的對相關線路上的傳感器啟用加熱功能,防止設備由于覆冰或溫度過低而無法發揮作用。
(7)開展災害監測設備狀態大數據分析。對災害監測系統收集的設備狀態數據開展大數據分析,及時掌握設備特性變化趨勢,有針對性地進行維修和處理,預防設備故障發生,充分發揮數據對系統運用、維護的支撐作用。
(8)強化應急管理。建立路局災害監測設備故障知識庫,結合災害監測系統設備故障出現頻率及檢查要求,編寫相關故障應急處置預案,發生設備故障時,應按險情等級和影響程度及時啟動應急預案。同時加強對員工的故障應急處置方面的培訓,并且就培訓內容對人員進行考核,定期組織應急演練,提高干部職工的應急處置能力。
本文通過對全路災害監測系統現場監測設備脫離監控情況的調研,分析了系統現場監測設備的故障原因,并針對網絡故障、電源故障、傳感器故障等 具體問題,挖掘成因,提出改進建議,旨在降低災害監測系統的故障率、提高可靠性,為高速鐵路災害監測系統的運用和維護提供參考。
[1] 中國鐵路總公司. 高速鐵路自然災害及異物侵限監測系統總體技術方案:鐵總科技[2013] 35號[Z]. 北京:中國鐵道出版社,2013,2.
[2] 王 楠. 高速鐵路防災安全監控系統[J]. 鐵路計算機應用,2012,21(7):56-56.
[3] 張翠兵. 異物侵限監測子系統運用失效的故障樹分析[J]. 鐵路計算機應用,2016,25(1):4-7.
[4] 李曉宇,張 鵬,戴賢春,等. 高速鐵路自然災害及異物侵限監測系統運用及管理優化研究[J]. 中國鐵路,2013(10):21-25.
[5] 李亞群,姜 勇,雷 震,等. 高速鐵路自然災害及異物侵限監測系統監控單元設備可靠性驗證試驗方法研究[J]. 鐵路計算機應用,2013,22(12):25-27.
[6] 武明生,秦成文,徐成偉. 高速鐵路風監測設備比對試驗方法的研究[J].鐵路計算機應用,2013,22(2):5-8.
[7] Tao Wu, Yusong Yan, Xi Chen. Reduction of Power Consumption in Wireless Sensor Networks for Railway Disaster Prevention and Safety Monitoring System [C]//In:International Conference on Energy and Environmental Science (ICEES),2011:983-991.
[8] 姚鯤鵬,周 宇. 高速鐵路自然災害及異物侵限監測系統網絡優化方案[J]. 電腦知識與技術,2016,12(34):64-67.
[9] 龔仁樹. 基于CBTC的DCS通信系統介紹與網絡風暴成因及其處理方式[J]. 鐵路通信信號工程技術,2015,12(6):69-74.
[10] 中國鐵路總公司.高速鐵路自然災害及異物侵限監測系統維護試行辦法: 鐵總運[2013] 142號[Z]. 北京:中國鐵道出版社,2013,11.