王 欣
(北京全路通信信號研究設計院集團有限公司,北京 100070)
城市軌道交通通信系統(tǒng)包含傳輸子系統(tǒng)、無線通信子系統(tǒng)、公務電話子系統(tǒng)、專用電話子系統(tǒng)、視頻監(jiān)控子系統(tǒng)、廣播子系統(tǒng)、時鐘子系統(tǒng)、電源子系統(tǒng)、乘客信息子系統(tǒng)等數(shù)十個子系統(tǒng)。這些通信子系統(tǒng)的運行狀態(tài)直接影響地鐵列車的穩(wěn)定運行,所以維護人員及時、準確地了解整個通信系統(tǒng)設備的運行狀態(tài)和告警信息,并能通過故障定位及診斷信息對設備故障進行及時有效處理是十分必要的。
為保證設備能夠管理和維護,各通信子系統(tǒng)設有獨立的網(wǎng)管,網(wǎng)管系統(tǒng)上通常顯示該子系統(tǒng)內(nèi)設備的狀態(tài)及故障信息。但由于各子系統(tǒng)網(wǎng)管安裝地點分散,維護人員無法對整個通信系統(tǒng)進行有效的集中維護管理,也無法對通信子系統(tǒng)間的故障進行聯(lián)動分析,缺少故障的定位、診斷及處理措施建議,無法對通信系統(tǒng)進行高效的管理和維護。
本文針對通信系統(tǒng)維護的實際需求,研究通信集中監(jiān)測及告警技術。通過對可擴展的接口適配、大數(shù)據(jù)處理、數(shù)據(jù)完整性設計等關鍵技術的研究,提出通信集中告警系統(tǒng)的架構和設計,實現(xiàn)整個通信系統(tǒng)設備的實時集中監(jiān)測和管理、故障的快速定位與處理、設備性能管理與預警等功能,提高系統(tǒng)整體運行可靠性及運維效率,降低運維成本。
集中告警系統(tǒng)在控制中心設置服務器、交換機,在維護值班室設置終端,終端通過交換機與服務器相連接,通過以太網(wǎng)實現(xiàn)內(nèi)部通信。
傳輸系統(tǒng)、無線通信系統(tǒng)、公務電話系統(tǒng)、專用電話系統(tǒng)、視頻監(jiān)控系統(tǒng)、廣播系統(tǒng)、時鐘系統(tǒng)、電源系統(tǒng)、乘客信息系統(tǒng)等子系統(tǒng),分別通過以太網(wǎng)接口連接到集中告警系統(tǒng)的交換機上,實現(xiàn)與集中告警服務器的通信,并實時向集中告警系統(tǒng)提供設備狀態(tài)及告警信息。
綜合監(jiān)控系統(tǒng)通過以太網(wǎng)接口與集中告警系統(tǒng)交換機相連,實現(xiàn)與集中告警系統(tǒng)服務器通信,集中告警系統(tǒng)通過以太網(wǎng)向綜合監(jiān)控系統(tǒng)提供設備狀態(tài)信息。系統(tǒng)架構如圖1 所示。

圖1 集中告警系統(tǒng)架構示意圖Fig.1 Architecture schematic diagram of centralized alarming system
考慮到系統(tǒng)升級維護簡單,多用戶分布性訪問,業(yè)務擴展方便等特點,系統(tǒng)采用B/S 軟件架構。由于需要管理和接入的通信子系統(tǒng)較多,且不同廠家接口也不完全一致,為保證系統(tǒng)的可擴展性及易維護性,系統(tǒng)劃分為數(shù)據(jù)服務子系統(tǒng)和告警展示子系統(tǒng),具體軟件架構如圖2 所示。
數(shù)據(jù)服務子系統(tǒng)主要實現(xiàn)各通信子系統(tǒng)設備狀態(tài)及告警信息的接收,數(shù)據(jù)處理,并將數(shù)據(jù)上報給告警展示子系統(tǒng)及綜合監(jiān)控系統(tǒng)。告警展示子系統(tǒng)接收數(shù)據(jù)服務子系統(tǒng)處理后的數(shù)據(jù),存儲到數(shù)據(jù)庫中,并通過UI 界面實時呈現(xiàn)給維護人員。
為增加系統(tǒng)可靠性和可用性,采用結構化方法對系統(tǒng)進行模塊劃分。數(shù)據(jù)服務子系統(tǒng)分為數(shù)據(jù)接口模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)上報模塊。告警展示子系統(tǒng)分為數(shù)據(jù)接收模塊、系統(tǒng)配置模塊、拓撲管理模塊、告警管理模塊、性能管理模塊、安全管理模塊、自定義預警模塊和數(shù)據(jù)存儲模塊。
集中告警系統(tǒng)主要實現(xiàn)對各通信子系統(tǒng)設備運行狀態(tài)和故障的診斷和呈現(xiàn),具體功能如下。
1)數(shù)據(jù)采集:能夠采集設備的運行狀態(tài)信息和告警信息,處理后存儲到數(shù)據(jù)庫中。
2)拓撲管理:能夠?qū)ν負鋱D中的節(jié)點類型(如車站、車輛段、停車場等)和節(jié)點進行配置,并能夠在拓撲圖中以聲光的形式展示各節(jié)點的告警等級、告警數(shù)量信息。

圖2 集中告警系統(tǒng)軟件架構示意圖Fig.2 Software schematic diagram of centralized alarming system
3)告警管理:能夠?qū)Ω婢^濾、告警轉(zhuǎn)發(fā)、告警方式、自動確認方式等進行配置;能夠根據(jù)過濾條件對告警信息實時顯示;根據(jù)指定條件查詢、統(tǒng)計告警信息,以圖表的形式呈現(xiàn)并可導出。
4)性能管理:獲取車站內(nèi)機柜的環(huán)境(如溫度、濕度等)信息,可根據(jù)指定條件查詢、統(tǒng)計,并支持以圖表的形式呈現(xiàn)和導出。
5)自定義預警:能夠?qū)π阅軈?shù)閾值進行配置;能夠根據(jù)用戶定義的閾值判斷設備是否存在預警,并在拓撲中展示。
6)故障分析:能夠結合通信子系統(tǒng)間的故障信息聯(lián)動分析,給出故障定位及處理措施建議。
7)安全管理:按照不同角色管理維護人員權限,記錄用戶的操作日志、登錄日志及系統(tǒng)健康狀態(tài),并提供查詢功能。
8)智能提醒:可從多個角度根據(jù)用戶配置進行郵件、短信的智能提醒功能。
集中告警系統(tǒng)南向?qū)訑?shù)十個通信子系統(tǒng),北向?qū)泳C合監(jiān)控系統(tǒng)及EAM 資源管理系統(tǒng)。同一個子系統(tǒng)也可能是由不同廠家提供,且隨著通信系統(tǒng)的發(fā)展,接入的子系統(tǒng)還會逐步增加,所以接口的靈活性和擴展性是系統(tǒng)后續(xù)可持續(xù)演進的重要因素之一。
系統(tǒng)采用獨立的數(shù)據(jù)接口模塊設計,南向支持UDP、SNMP 協(xié)議,可擴展其他基于IP 的協(xié)議(如TCP 等);北向支持modbus 協(xié)議,并預留UDP、TCP、REST 等接口協(xié)議。
集中告警系統(tǒng)采集各車站、各通信子系統(tǒng)的設備運行狀態(tài)、告警信息、性能信息等,數(shù)據(jù)并發(fā)量大,對實時性要求高。為保證在數(shù)據(jù)并發(fā)時的處理速度及響應時間,系統(tǒng)采用多線程處理。為防止多線程帶來的數(shù)據(jù)時序錯誤導致的告警信息不同步,將根據(jù)數(shù)據(jù)類別(告警或性能信息)、子系統(tǒng)類別對數(shù)據(jù)進行分類,再放到不同線程隊列中處理。
集中告警系統(tǒng)需要將歷史數(shù)據(jù)保留一年以上的時間,將會累計近TB 級的數(shù)據(jù)量,為保證查詢、統(tǒng)計的響應速度,需要對數(shù)據(jù)庫進行優(yōu)化處理。對于存儲告警信息的數(shù)據(jù)庫表,以月為單位對數(shù)據(jù)庫表進行分區(qū);對于存儲性能信息的數(shù)據(jù)庫表,以日為單位對該表進行分區(qū)處理。
集中告警系統(tǒng)最重要的是能夠?qū)崟r、準確的反映設備的運行狀態(tài),所以能夠及時、完整的接收、處理設備告警信息是系統(tǒng)的關鍵。
為保證數(shù)據(jù)的實時性和完整性,系統(tǒng)采用消息上報機制、消息重發(fā)機制,以及定時輪詢機制。當各通信子系統(tǒng)設備出現(xiàn)告警時,應根據(jù)接口定義主動上報告警信息,數(shù)據(jù)服務子系統(tǒng)收到告警信息后回復確認消息,若該子系統(tǒng)在指定時間內(nèi)未收到確認消息,應啟動消息重發(fā)機制,再次發(fā)送告警信息,直至收到確認消息或達到重發(fā)上限次數(shù)。
同時,集中告警系統(tǒng)啟動定時輪詢機制,定期更新各通信子系統(tǒng)最新狀態(tài),保證系統(tǒng)能夠為維護人員提供最新、最準確的設備狀態(tài)信息。
集中告警系統(tǒng)目前已成功應用于成都某地鐵線路,實現(xiàn)各系統(tǒng)設備運行狀態(tài)及告警信息的集中監(jiān)控和管理、重大告警的過濾和分析、處理措施的優(yōu)化和建議、運行環(huán)境的監(jiān)測和預警等,并通過智能、友好的用戶接口,使維護人員能及時、準確地掌握整個系統(tǒng)設備的運行狀態(tài),快速定位處理故障,發(fā)現(xiàn)系統(tǒng)潛在威脅和風險,從而提高運維效率,降低運維成本,保障系統(tǒng)整體運行的安全可靠。
本文研究了通信集中監(jiān)測和告警技術,介紹系統(tǒng)架構、軟件架構及系統(tǒng)功能設計,并說明系統(tǒng)的關鍵技術實現(xiàn)。經(jīng)實際應用,證明了系統(tǒng)安全穩(wěn)定運行。
考慮到信息技術及移動技術的快速發(fā)展,下一步將考慮系統(tǒng)與移動端的結合,建議后續(xù)對集中告警移動平臺的設計進行深入研究。