馬宏偉
摘要:城市軌道交通通信系統智能運維是應用數據和智能技術對運營生產任務進行賦能,以關鍵設施設備為主要管控對象,采用云計算、物聯網、大數據和人工智能等技術,圍繞設施設備運維全過程質量控制開展全面數字化、互聯化和智能化,實現關鍵系統和設備故障自診斷、遠程集中檢測、專家系統綜合決策、故障預測和健康管理等功能的綜合智能維修系統,以提高安全服務水平和管理效率,降低勞動強度、技能要求和運維成本。
關鍵詞:城市軌道交通;通信系統;智能運維
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2023)02-57-5

近年來,隨著我國城市軌道交通線網規模的不斷壯大,全國軌道交通運營線路迅猛發展,給運營公司的維保工作帶來了嚴峻的考驗。因此,城市軌道交通企業利用大數據、云計算、物聯網和人工智能等新技術,在城市軌道交通智能運維領域進行探索,智能運維逐漸成為行業的焦點[2]。
目前,各城市軌道交通通信系統的運維手段基本是靠集中告警子系統上報各子系統的設備狀態信息、告警信息,經運營工班人員初步分析故障后,派技術人員至現場查看故障現象,診斷故障問題,進行數據維護或者硬件更換,基本能實現故障現象的收集上報及定位[3]。但是,既有的集中告警系統中,對設備故障的分析、對狀態數據的深度挖掘以及對設備的全壽命周期管理做得并不深入,尚未進入到以關鍵部件狀態評估、壽命預測為核心的狀態檢修階段。
智能運維可提升設備檢修的智慧化水平達到節能、減員增效和提高管理水平的目的,更重要的是可以為乘客提供更舒服、安全、可靠和人性化的服務,提升乘客出行體驗。
通過融合各子系統告警、性能和日志等數據,在建立業務關鍵指標體系的基礎上,挖掘數據規律,打破數據孤島、業務割裂等問題;通過數據和算法研判能力,減少人的不安全行為以及物的不安全狀態,提高地鐵運營的安全性;通過數據輔助決策能力,提高運維工作的自動化程度,事前異常預警、故障快速處置、情況全面掌握;通過人工智能和AI的分析,提升對運維數據的認知能力,智能輔助故障診斷,助力運維人員快速洞察人力難以企及的故障和問題。同時準確預警系統風險,化被動運維為主動運維,推動運營維護工作由計劃修向狀態修演進,以數字化、智能化手段,實現運維工作的提質增效。
2.1數據采集與檢測功能
數據采集和檢測的目標子系統包括關鍵設備、傳輸系統、專用無線(LTE)、公務電話(軟交換)、專用電話(程控交換)、廣播系統、視頻監視系統、乘客信息系統、時鐘系統和電源系統等。
智能運維系統采集各系統交換機(包含視頻監視系統匯聚交換機和核心交換機、PIS系統交換機和廣播系統交換機等)的端口實時速率、CPU利用率、內存使用情況和設備溫度等信息。采集各系統服務器、錄音設備、視頻監視終端和系統網管終端等設備CPU利用率、內存使用情況、網口收發速率及硬盤使用情況等參數。采集檢測傳輸主設備光口收發光功率、誤碼率、丟包率、信息傳輸時延、板卡溫度、內存使用率、CPU使用率和磁盤使用率等數據。智能運維系統檢測中心交換機及基站的呼叫成功率、業務信道占用率、呼叫時間、服務器CPU工作狀態、服務器硬盤工作狀態、服務器內存使用率、服務器CPU使用率、服務器磁盤使用率、無線調度臺CPU使用率和硬盤使用率等。智能運維系統檢測調度交換機呼叫次數、應答次數、呼叫成功率、專用電話系統錄音設備端口電壓數據以及錄音通道連接狀態等。智能運維系統檢測中心服務器、接口服務器、磁盤陣列、圖像監控服務器、發布工作站、媒體編輯工作站、系統管理工作站和播放控制器服務器在線狀態等信息。智能運維系統檢測工控機CPU工作狀態、工控機硬盤工作狀態、功率放大器的使用狀態和各廣播分區的揚聲器聲音大小。智能運維系統檢測二級母鐘的校時情況、對其他系統的授時情況和各終端子鐘的電壓電流情況。智能運維系統采集檢測電源系統設備2路輸入電源的電壓、電流和頻率。采集交、直流輸出電源的電壓、電流、頻率和輸出分路狀態等。采集UPS的輸出電壓、電流和頻率。
2.2綜合態勢分析功能
綜合態勢分析匯聚數據分析結構,以圖表方式多維度展現和監測所關注指標,以輔助領導決策。以拓撲圖形式直觀展示線網、線路、站點的當前運行狀態,并與各個中心指標聯動展示,當點選具體線路或站點時,指標自動統計展示選中線路或站點的統計結果,展示統計信息包括:當前告警、當前工單展示,以文本形式滾動展示當前設備報警信息及待處理工單,與拓撲圖聯動變化;告警數量、工單數量、故障數量等總數和未處理量;告警排名,按子系統或站點維度為告警數量做排名;告警趨勢分析,以統計圖形式對告警變化趨勢進行展示;各機房溫濕度變化趨勢以及異常預警。
2.3系統拓撲功能
智能運維系統采用BIM和數字孿生技術,提供線路—站點拓撲以及子系統連接拓撲2種拓撲顯示方式,具備良好的用戶界面和交互體驗。
線路—站點拓撲以設備或系統的實際物理拓撲為基礎信息,按照線路、站點、機房、機柜和設備等層級進行逐次下鉆。系統以3D方式顯示機房、機柜的結構、位置和組成等信息,其中設備3D模型按子架、槽位、板卡以及端口層級顯示組成結構,設備模型最小粒度支持端口級別渲染和顯示。系統通過網元拓撲顏色變化反映當前網元的運行狀態以及告警信息,通過選中操作顯示選定對象的擴展信息,包括:此對象的名稱、位置、狀態、當前告警條數、當前告警的級別、告警內容及原因的簡單描述等,以及設備實時工作性能參數,并用曲線形式展示相應歷史工作性能參數。
系統拓撲以系統網絡或業務連接結構為視角,以圖形方式顯示各通信子系統的網絡拓撲,并實時、動態顯示被管設備的運行狀態。相同地,系統實時采集各通信子系統的所有告警和運行參數,經過預警或告警過濾后將在拓撲圖的相應圖標上進行顯示。
2.4告警及設備管理功能
告警分為當前告警和歷史告警,告警管理模塊提供告警等級區分、告警顯示、告警過濾、告警設置、告警確認、告警清除、告警重復、告警屏蔽、告警受理、告警拓撲定位以及告警知識庫等功能。告警等級一般分為致命告警、重要告警、一般告警、提示告警和未知告警。系統以告警列表的方式呈現告警,可以在網絡拓撲中通過圖標或文字變色的方式呈現被管對象的告警。同時系統具備對新產生的告警進行聲音提示的功能。在網絡拓撲圖上動態反映各通信子系統網絡及設備故障告警和超門限告警,告警通過聲音、網絡拓撲圖顏色變化來反映當前網絡的告警信息。告警過濾可以使界面用戶根據自己的關注角度不同來設定不同的過濾條件,過濾出自己關心的告警信息。系統提供告警自動和手工確認的功能,在告警字段中有明確的告警確認標志,便于查詢。
設備管理功能主要包含設備類型管理和設備管理。其中,設備類型管理對組成設備的基本單元進行管理,包括設備名稱、型號規格、設備分類、空間、尺寸、圖片和技術資料等內容,系統支持按照不同視圖對設備類型進行過濾顯示;設備管理采用層級列表方式顯示管理設備信息,包括設備編號、所屬子系統、物理位置和版本號等信息,可以對設備進行設備工程模式、設備導出和設備導入等操作。
2.5數據分析功能
2.5.1趨勢分析
通過對性能數據的實時分析,實現基于規則和基于算法模型的2種方式預警。其中,規則閾值預警支持用戶針對指標手動設置閾值規則,當實時性能數據超過該閾值一定周期后產生預警。在現實場景中,手動設置閾值規則,往往存在嚴重依賴工程師經驗、難以全面總結以及無法快速動態調整以適應業務發展的缺點。因此,本系統提供基于人工智能算法的智能預警功能,建立基于時序模型的異常檢測功能,實現對具有時序性特點的性能數據自動異常預警。支持對時序數據突增、突減、頻率變化和整體趨勢變化4類模型的異常檢測。
構建各通信系統的指標體系,并對相關基礎指標和業務指標進行管理。系統內置網絡、服務器、專用無線、公專電話和乘客信息等系統相關指標,同時支持指標的增刪改查。針對性能指標設置告警閾值,當設備性能參數超過該閾值時則產生預警。對電源系統、視頻監控系統、乘客信息系統和無線系統等設備通過采集和分析歷史性能運行趨勢數據,建立基于時序模型的異常檢測功能,實現對性能運行趨勢的自動異常預警,提前發現系統隱患并給出提醒。
結合通信設備包括但不限于傳輸、無線、乘客信息系統以及視頻監控系統各端口光功率采集數據,建立趨勢曲線,設置閾值,分析趨勢曲線針對光功率劣化情況進行提前預警。結合乘客信息系統服務器、視頻監控服務器、無線系統服務器、專用電話錄音工控機中應用軟件進程狀態及服務器CPU、內存和硬盤使用率等采集數據,建立分析模型,提前發現系統隱患。結合蓄電池充放電電流、放電時間等采集數據,建立分析模型,計算蓄電池容量及性能變化趨勢,實現異常情況的提前預警。分析傳輸業務端口實時流量,建立分析模型,進行異常預警,并分析流量變化趨勢。
2.5.2日志分析
對各子系統設備操作和運行日志數據的批量、實時同步、解析以及索引構建,對日志按關鍵字、級別和時間等檢索條件進行檢索,解析后日志內容查看和關鍵字高亮顯示??缦到y日志串聯分析,分析無線系統、廣播系統、乘客信息系統與ATS設備接口日志,提前發現到站異常信息,進行預警,并且在故障發生后,能夠對比接口專業日志,定位具體故障位置。對告警、故障和工單的多維度統計分析,形成專項統計列表及餅圖。
2.6維修生產管理功能
維修生產中心以日常檢修和故障維修業務為基礎展開設計,實現設備檢修計劃聯動和故障閉環管理,根據運行監測中心和數據分析中心提供的運行數據,給出維修策略和維修建議,實現設備計劃修向狀態修的轉變。該中心實現作業人員庫、備品備件庫、作業工單管理和故障臺賬管理等功能。
作業人員構建正線工班和OCC人員基礎信息庫,支持人員基本信息的增、刪、改和查數據維護功能,為日常檢修計劃流轉和故障快速維修提供人員信息支撐。
備品備件構建了各類通信設備的備品備件庫,支持備品備件型號、批次、數量和貨位等信息的管理和維護,支持在故障維修過程中備品備件消耗臺賬的查看,為日常檢修和故障維修中處置更換問題部件提供便捷手段。
工單管理完成故障維修工單的管理和線上流轉。維修工單主要根據設備故障報警情況生成故障工單,自動關聯專家庫中的維修策略和建議,指導正線工班進行故障處置,并在工單閉環后根據過程記錄和反饋自動生成故障臺賬,提升故障處置的準確性和維修效率,減輕工班工作壓力。智能運維移動App圍繞工單的閉合管控,實現故障的全流程管理,主要提供設備查看、告警查看和工單接收處置反饋等功能[4]。
故障管理包括故障清單和故障臺賬。故障清單記錄當前尚未處理的故障信息,支持對故障的添加、修改和刪除等信息維護操作,同時支持故障下發工單進行維修,或手動觸發應急事件,啟動應急預案。故障臺賬是故障維修閉環的產物,根據故障維修工單處置過程自動生成,實現故障信息、處置情況和閉環情況的記錄。
巡檢管理主要完成年、月檢修計劃的管理維護,可提前預存檢修計劃,錄入后在相應時間點系統自動提醒工班人員執行巡檢計劃,并可在計劃執行中和完成后進行檢修項的反饋和記錄,實現檢修計劃閉環。
2.7設備健康臺賬及應急管理功能
設備臺賬是建立設備全生命周期管理過程,通過設備臺賬實現設備履歷表的智能管理,從設備入場、使用、維護和故障進行全生命周期的智能化管理,明確每個設備位置、型號、供應商、編號、序列號和版本號等基本信息,同時建立設備維護文檔、技術指標等信息,實現設備周期更換、型號匹配和自動提醒等功能。
應急管理中心圍繞應急預案和應急事件處置業務設計,通過健全故障應急協同體系,做到故障后輔助運營組織,并提供應急決策建議,實現運營組織調整快速響應。該中心可實現應急預案設置、應急事件分析、定位和處置等功能。
智能運維系統由負載均衡服務器、容器云服務器、大數據集群服務器和數據庫服務器組成,系統設備組成如圖1所示。

智能運維系統在控制中心設置業務支撐服務器、應用服務器、存儲服務器、智能運維系統客戶端和交換機等設備,在控制中心與各子系統的網管服務器或網管終端相連,各子系統網管設備通過網絡接口向本系統提供告警數據[5]。
智能運維系統服務器及以太網交換機安裝于通信設備室智能運維系統機柜中,其余設備安裝于設備室或網管室。
智能運維系統邊界采用Nginx主從方式部署,在屏蔽業務系統細節的同時,提供業務系統的橫向擴展功能;業務系統部署在包含5個節點的Kubernetes容器云中;大數據集群由1臺調度節點和2臺存儲計算節點組成;數據庫服務器采用雙主模式部署,向磁盤陣列存儲數據。
整個系統技術架構從下到上依次分為數據接入層、平臺服務層、支撐服務層、業務服務層和應用服務層5部分,如圖2所示。

數據接入層為平臺服務提供基礎數據源,數據來源包含傳輸系統、公務電話系統、專用電話系統、無線通信系統、視頻監視系統、廣播系統、整合電源系統、乘客信息系統、時鐘系統以及智能PDU設備,以太網交換機等設備。
平臺服務層包含大數據分析系統、人工智能系統、Docker和Kubernetes容器云,其中大數據和人工智能系統通過對專用通信系統上報的設備信息建立相應的模型、方法和預案,生成相應的預警和告警信息。業務服務采用Docker鏡像方式部署在容器云中,Kubernetes提供資源調度、資源治理和鏡像治理等功能。
支撐服務層整合智能應用平臺中的微服務架構體系,為業務服務提供運行時的支撐環境。其中,服務網關組件屏蔽內部多個服務的實現細節,對外提供統一的接口,同時提供反向路由、安全認證、限流熔斷和日志監控等功能。注冊發現組件提供服務的注冊、發現以及負載均衡等服務治理功能;配置中心組件能夠集中化管理應用不同環境、不同集群的配置,配置修改后能夠實時推送到應用端;認證授權組件實現應用的單點登錄以及服務的安全認證和授權功能;容錯限流組件實現流量高峰時服務的熔斷、隔離、限流和降級功能;監控告警組件提供服務的調用鏈監控、Metrics監控以及日志監控功能。
業務服務層主要由運行監測中心、數據分析中心、應急管理中心、健康管理中心和維修生產中心5大業務模塊組成,完整支撐運營日常工作需求。
應用服務層結合最新的前端顯示技術,為運營人員提供良好的人機交互界面。主頁及各中心圖表通過Echarts進行展示。Echarts提供了豐富的可視化類型、千萬級的數據可視化渲染能力、多形式渲染及跨平臺能力、多維數據的支持以及豐富的視覺編碼手段等特性,多維度、更絢麗、更直觀地為用戶展現設備運行狀態、趨勢和站點拓撲等各類顯示元素;采用2D圖片加js算法或者3Dthree.js,webGL技術實現站點下的3D機房及機柜的展示;使用百度地圖和mapbox等組件實現GIS功能。
城市軌道交通必將長期伴隨我國城市的發展進程,智能運維也是軌道交通智慧化生產的創新產物,通信系統的智能運維技術必將以點帶面,在前期已實施工作的基礎上,以軌道交通各大系統和專業信息共享為基石,堅持智慧運維頂層設計,建立城市軌道交通設計—建設—運營—維保產業鏈信息共享和正向反饋體系,提升運營風險管控能力,降低全生命周期運營成本,提升乘客出行滿意度,實現城市軌道交通智能運維體系全面聯動的永續發展[6]。
參考文獻
[1]王冰,李洋,王文斌,等.城市軌道交通智能運維技術發展及智能基礎設施建設方法研究[J].現代軌道交通,2020(8): 75-82.
[2]賈文崢,胡雪霏,熊振興,等.城市軌道交通智能維保發展現狀及趨勢[J].都市快軌交通,2020,33(2):14-19.
[3]程家良,周莉.城市軌道交通運營設備維護維保模式探析[J].商品與質量,2022(3):108-110.
[4]荊晶.軌道交通通信系統向智能運維演進的思考[J].交通科技與管理,2021(17):25-27.
[5]李毅煒.地鐵通信智能運維系統應用和實踐[J].汽車博覽, 2021(17):193-194.
[6]中國城市軌道交通協會.中國城市軌道交通智慧城軌發展綱要[J].城市軌道交通,2020(4):8-23.