徐永梅
(中國鐵道科學研究院集團有限公司 通信信號研究所,北京 100081)
黃驊港智能調度與控制系統作為車站日常生產作業調度指揮的技術裝備,以信息整合、完善、共享為核心,結合信息化、智能化技術實現黃驊港運輸生產作業向數字化、自動化、智能化轉型。系統功能的豐富必然需要復雜的軟件架構、高性能或多數量的硬件設備支撐,其維護管理難度和成本也同步上升。
近年來,隨著計算機、網絡通信、人工智能等技術的蓬勃發展,集成化的運行維護(簡稱:運維)監控平臺已成為各行各業信息資源管理的首要建設目標,尤其在云計算、物聯網、大數據等新技術應用下,一些學者[1-4]提出將智能運維納為我國重載鐵路智慧化發展內容的一部分。
因此,本文借助成熟先進的技術和設計思想,設計黃驊港智能調度與控制系統運維平臺,實現系統資源運行狀況的集中監控管理,并以面向重載鐵路智能運維方向建立智能調度與控制系統的安全運營監管體系、優化系統設備設施維修策略為目標,使其能適應重載鐵路運維管理智慧化的發展趨勢,提升設備設施維護管理效率,推動設備運維管理策略向科學化、精準化方向轉變。
黃驊港智能調度與控制系統作為集成性的應用生產系統,對車站運輸生產組織具有重要的作用。該系統設備眾多、功能復雜,維護成本和強度較大,因此,有必要借助數據采集技術實現設備狀態的集中監控顯示,減輕維護人員巡檢勞動強度、提升巡檢效率,及時對設備異常進行響應處置,避免因系統故障影響車站作業效率的事件發生。
基于“采購—管理—使用—保養—維修—報廢”的設備管理流程[5],完善從設備采購到報廢全過程的信息管理機制,打通各平臺間的信息壁壘,消除設備管理各環節的信息不對稱,實現設備全生命周期的過程追溯,建立健全設備采購、備品備件和維修策略的動態化管理機制,以滿足設備管理流程標準化、自動化的建設需求。通過定量、定性分析手段進行相應的設備運用質量統計分析,輔助相關管理人員在維修計劃、備品備件和設備采購計劃等方面制定更加科學合理的決策。
黃驊港智能調度與控制系統中任何設備的軟硬件異常都有可能導致系統運行異常,影響車站的生產作業組織順暢進行,因此,平臺須對監控設備的故障信息、故障等級等內容及時告警,使得維護人員能及時發現設備問題并快速響應處理。其要求主要包括:
(1)準確、實時地進行設備故障分析和告警;
(2)建立健全系統設備故障處理體系;
(3)提供便捷的故障日志收集功能。
利用大數據技術、人工智能算法等對海量設備運維數據進行價值挖掘,分析、總結設備運維數據呈現的規律,為相關決策提供智能化的技術支持。其要求主要包括:
(1)分析、發現設備資源使用率的變化規律,根據實際情況靈活調整告警閾值;
(2)智能分析運維信息,診斷設備故障間的關聯關系,實現多點故障的根源追溯;
(3)建立設備健康質量評價體系,依據設備健康情況動態進行設備維護策略的調整,為設備狀態修管理提供技術支撐。
黃驊港智能調度與控制系統運維平臺借鑒“平臺+應用”的模式[6]進行建設。該平臺負責設備監測數據的采集、處理、存儲、共享,并建立標準的接口規范和數據服務規范,為黃驊港大數據平臺和其他管理系統提供數據來源,應用則聚焦于現場運維業務需求,為維護人員提供可視化的運維界面和便捷的運維工具。平臺及相關系統架構如圖1 所示。

圖1 黃驊港智能調度與控制系統運維平臺及相關系統架構
2.1.1 智能調度系統
該系統服務于調度管理崗位,作為車站運輸指揮大腦,通過與外部系統的接口獲取調度組織所需的數據資源,通過資源整合、分析實現調度命令管理、站內資源管理、現車管理、作業計劃管理等功能。
2.1.2 智能控制系統
該系統服務于作業執行崗位,作為作業計劃的執行層,接收調度系統下達的作業指令、行車調度下達的接發車計劃及站場聯鎖表示信息等,實現進路指令管理、作業安全防護、車輛狀態跟蹤和信號設備集中控制等功能。
2.1.3 黃驊港大數據平臺
作為車站綜合信息集成平臺,覆蓋站場表示、作業數據、視頻監控、作業指標、設備狀態等數據內容,通過數據集成、加工、分析,實現車站各環節數據的綜合展示與海量數據的價值挖掘。
2.1.4 黃驊港智能調度與控制系統運維平臺
實時采集智能控制系統、智能調度系統的設備運行數據,經數據處理、存儲和分析,提供設備信息管理、實時狀態監測等功能。該平臺為黃驊港大數據平臺提供設備狀態數據的獲取接口,并預留為其他管理系統和朔黃中心提供設備相關數據的接口。
黃驊港智能調度與控制系統運維平臺由采集服務器、Web 應用服務器、FTP(File Transfer Protocol)服務器、數據庫存儲服務器和訪問終端等設備組成,被監測設備包括服務器主機、工控機終端、數據庫、交換機和路由器等網絡設備。平臺通過匯聚交換機實現與智能調度與控制系統的網絡連接,以獲取被監控設備的運行狀態和告警數據。被監測設備須開啟有安全保障的端口、協議及服務等,配合采集服務器實現待監測指標的數據采集。另外,在被監測對象設備上部署監測代理,實現FTP 服務器與終端之間的文件傳輸功能。平臺硬件架構如圖2 所示。

圖2 黃驊港智能調度與控制系統運維平臺硬件架構
黃驊港智能調度與控制系統運維平臺通過實時采集監測設備狀態和軟件運行數據,經過預處理后形成特定格式進行存儲,提供各類分析策略,為業務應用服務提供技術支持。平臺技術架構如圖3 所示。

圖3 黃驊港智能調度與控制系統運維平臺技術架構
2.3.1 數據源層
黃驊港智能調度與控制系統作為車站行車組織技術裝備,由服務器和工控機等主機設備、交換機和路由器等網絡設備、數據庫軟件及應用軟件共同組成。實時監測上述資源的運行情況對于系統穩定運行是必要的,監測內容包括:主機設備的系統參數信息、運行時長、性能指標和網卡狀態等;網絡設備的性能指標、面板端口信息和端口流量數據等;數據庫的軟件版本、運行時長、表空間指標(名稱、總大小、使用率)和基礎性能指標(會話數、進程數、內存大小、緩存池命中率、鎖等待率等);應用軟件的主備機狀態、在線狀態和雙機心跳端口狀態等。
2.3.2 數據采集層
平臺采用“無代理+有代理”的組合模式實現監測指標的數據采集和文件傳輸,采集的數據經過預處理形成標準、格式化的數據結構,利于后續不同平臺或系統間的數據共享。其中,無代理模式主要借助簡單網絡管理協議(SNMP,Simple Network Management Protocol)、安全外殼(SSH,Secure Shell)協議、Windows 管理規范(WMI,Windows Management Instrumentation)、Syslog 和Java 數據庫連接(JDBC,Java Database Connectivity)等協議實現對硬件基礎參數、性能指標數據的采集;借助私有協議實現對系統業務軟件監測指標數據的采集。代理模式則通過在主機設備上部署終端代理,實現FTP 服務器與主機設備之間的文件傳輸功能。
2.3.3 數據存儲層
平臺根據采集數據的類型、用途進行歸類劃分后存儲,為數據分析提供基礎數據來源,其存儲數據類型主要包括資產基礎數據、設備廠商數據、用戶數據、角色權限數據和設備采集數據等。
2.3.4 數據分析層
在標準化存儲的數據基礎上運用可視化分析、實時性能分析和統計分析等方法,進行設備采集數據分析,并運用基于數據驅動[7]的關聯分析、回歸分析和聚類分析等智能分析技術實現設備故障診斷、健康評估及故障預測等,為維護人員在設備運維過程中提供輔助決策支持,提升設備運維的智能化水平。
2.3.5 數據應用層
依托數據分析技術,以實現設備集中監測、設備全生命周期管理、故障及時響應、輔助決策支持等需求為目標,設計資產管理、狀態監測、配置管理、權限管理、告警管理、維護工具管理、決策管理和統計分析等模塊,根據實際需求可靈活配置。
按照“一單元一檔案”的管理原則[8]為黃驊港智能調度與控制系統設備建立電子檔案,實現設備基礎信息、使用情況、故障情況、維護情況等信息的電子化、流程化管理。該檔案詳細記錄設備在“調試—運用—報廢”整個運營生命周期不同階段的信息,為維護人員提供了設備精細化管理工具,實現設備信息的查詢、在線時長統計及維護記錄的追溯,同時,滿足管理人員對設備使用過程中關鍵指標的統計分析需求,為設備的采購管理、備品備件管理、維修決策管理等提供輔助決策支撐。
建立集中的設備狀態監控管理體系,采用“無代理+有代理”混合的采集技術實現對主機設備、網絡設備、數據庫、操作系統、指定進程、應用軟件等關鍵參數的運行數據采集,提供集中的業務視圖和機柜視圖兩種可視化的顯示方式,制定設備告警規則,劃分告警等級,不同的告警等級以不同顏色、音頻等方式進行提示,以便維護人員快速鑒別設備的運行狀況。
根據應用需求設計設備告警管理和定時任務提醒管理兩部分。
(1)設備告警管理包括硬件告警和軟件告警。硬件告警包括syslog 告警、閾值告警、ping 告警和硬件端口通斷告警等,軟件告警主要為應用業務相關告警。
(2)定時任務提醒則是根據用戶事先設置的提醒任務到期自動提示。根據設備故障影響的系統業務范圍,將告警等級劃分為故障告警、異常告警和變化告警3 個級別,以輔助維護人員對故障程度和影響范圍進行判斷、掌控。
該模塊提供系統功能參數的配置管理功能。
(1)數據庫配置:設置待監測數據庫的連接信息。
(2)告警匹配庫管理:管理設備硬件告警翻譯庫的增、刪、改、查功能。
(3)進程配置:設置待監測的進程及其性能告警閾值。
(4)權限管理:包括角色管理和用戶管理,實現角色權限綁定、角色增刪改查、用戶增刪改和用戶角色權限控制等功能。
(5)定時任務管理:設置定時提醒的任務、提醒周期及是否確認完成等。
(6)故障模板管理:設置設備故障日志一鍵導出的模板。
(7)數據遷移周期配置:設置告警數據、采集數據的遷移周期。
提供日常維護管理所需的基礎工具,主要包括終端操作記錄查詢、數據庫備份、文件收集、文件在線維護、子網IP 分配查詢、telnet 端口檢測和故障日志一鍵關聯導出等內容,為維護人員提供便捷化的維護操作方式,有效提升設備維護效率。
建立設備運用質量分析體系,根據分析結果幫助維護人員更加全面地掌握設備運用情況,為設備管理優化提供數據支撐。
(1)設備運用情況分析:針對單臺設備告警次數、主/備機切換次數、故障類型和故障原因等進行統計,并形成相關的時間趨勢分析圖,便于維護人員直觀地查看設備的歷史運行情況。
(2)設備告警統計:針對所有設備按照軟件告警、硬件告警和告警等級的數量進行統計,形成告警數量時間趨勢圖供管理人員查看。
(3)網絡業務分析:提供網絡設備端口的流入和流出率統計、丟包率及誤碼率統計分析,更好地監測網絡異常情況。
根據設備故障處置閉環原則,提供設備故障原因和處置方案的填寫模板,建立設備故障及其處理信息的電子案例庫。利用機器學習、人工智能等技術對電子案例庫進行文本特征提取,形成設備故障特征庫,借助關聯規則分析構建故障診斷模型,結合實時采集的相關設備數據,實現設備故障定位,提高故障處置響應效率。設備故障診斷分析流程如圖4 所示。

圖4 故障診斷分析流程
設備故障預測與健康管理主要解決設備維護過程中“不可見的問題”,利用大數據技術,關聯剖析設備狀態的影響因素、研究設備故障發生規律,實現設備故障預測機制。建立完善的設備健康評價體系,從不同維度對設備健康狀態進行評估,實現設備備品備件管理和維修計劃管理的聯動處置。
利用SpringBoot+VUE 框架實現模塊化、組件化的設計與研發,采用Maven 項目管理工具進行構建,基于MyBatis 框架完成數據存儲、查詢等映射服務,采用Shiro 技術實現平臺權限管理,基于表征性狀態轉移(RESTful,Representational State Transfer)規范的接口交互原則,采用SpringMVC 框架搭建后臺服務模型,提供設備資源的統一集成管理工具,有效降低運維管理工作量。
采用“無代理+有代理”的混合監控代理模式,最大限度地滿足監控數據采集與文件傳輸需求的獨立性,搭配角色權限管理進行平臺客戶端的靈活部署。可通過SNMP、Syslog、SSH、JDBC、WMI 等協議,實現對設備運行指標的實時采集和軟件運行狀態監控,當設備出現異常時及時進行捕獲和提醒,壓縮設備故障響應時間。
采集設備在運行、維護過程中產生的數據,根據不同的數據類型和用途進行歸檔存儲;通過對設備故障數據、處置意見等進行綜合關聯分析,建立相應的設備故障診斷模型;根據診斷結果給出相應的故障處置建議;采用基于長短期記憶(LSTM,Long Short-Term Memory)的預測技術預測設備性能指標值,通過預測值與實際值的差值范圍判斷是否進行閾值告警;基于設備故障頻率、選取關鍵評價指標,建立設備健康狀況評估模型;根據各指標的綜合評分評估設備健康狀態。
對采集數據進行計算分析,基于Vue 框架、搭載ElementUI 組件庫,快速實現數據的可視化展示,采用折線圖、餅圖、柱狀圖等多種展現形式,使其可直接、形象地查看設備主/備用狀態、在線情況、機柜位置信息、性能指標歷史曲線、網絡設備面板端口狀態等,展示效果豐富、直觀。數據庫監測展示界面如圖5 所示。

圖5 數據庫監測展示界面
目前,黃驊港智能調度與控制系統運維平臺已經研發完成。維護人員可通過該平臺實時查看設備的基礎參數信息、運行狀態、機柜位置分布、告警信息及數據庫關鍵指標等,便捷、快速地進行故障日志的收集、終端操作日志查詢及數據備份等日常維護操作,提升運維工作效率。
為滿足黃驊港智能調度與控制系統高可靠性的運維需求,設計并實現了以設備資產管理為核心的全生命周期管理的運維平臺。該平臺通過集成化的設備狀態監測技術可有效提高運維工作效率,減輕維護人員工作強度。隨著平臺的運行,將產生海量的監測數據、維護數據,我們將進一步研究、挖掘以數據驅動為核心的數據價值,發現數據間的關系和規律,將其應用于運維平臺中。