袁志騫
(上海地鐵維護保障有限公司通號分公司, 200235, 上海∥工程師)
上海城市軌道交通通信系統作為主要的運營管理手段和數據交互媒介,隨著近年來的通信技術快速革新,已逐漸發展成為一個由傳輸、專用無線、專用電話、公務電話、技術防范(以下簡稱“技防”)、廣播、乘客信息、時鐘、通信電源、光電纜等多個子系統組成的龐大系統。各類通信終端和資源覆蓋了整個上海城市軌道交通,各通信子系統具有種類和制式多樣、終端數量巨大、覆蓋范圍廣等特點。目前,上海城市軌道交通逐步邁向超大規模網絡化運營,為滿足設備高可靠性的運維需求,通信系統在故障快速定位、跨系統聯動分析、狀態修策略制定等方面面臨著更高的運維管理要求。雖然各類通信子系統的網絡管理(以下簡稱“網管”)系統和信息化管理系統提供了一定的設備運維管理手段,但仍普遍存在集成系統網管功能不夠完善、各子系統數據相對獨立、跨專業綜合分析主要依靠工程師個人經驗等問題,且對設備在長期應用過程中產生的大量數據缺乏收集和分析的手段。因此,迫切需要結合大數據和人工智能等技術,構建通信設備的智能運維系統來支撐城市軌道交通的超大規模網絡化運營。本文梳理了上海城市軌道交通線網層面通信系統智能運維的建設需求,以期為通信系統智能運維建設的遠期目標提供參考。
上海城市軌道交通通信系統的子系統較多。通信子系統按屬性可分為資源、行車和運營3類,其中:資源類子系統包括傳輸、光電纜、時鐘和通信電源等;行車類子系統包括專用無線、專用電話和公務電話等;運營類子系統包括技防、廣播和乘客信息等。此外,由于上海城市軌道交通各線路的建設時期不同,且部分線路為分期/分段開通,各通信子設備建設時隨通信技術發展情況選用了不同制式、不同廠家和不同型號的設備,這為通信系統的設備管理和技術儲備帶來較大挑戰。
為滿足上海城市軌道交通運營的各類通信需求,通信系統各子系統設備覆蓋了上海城市軌道交通所有車站、運營控制中心、車輛場段、管理指揮區域和軌行區,目前配置了通信機房共計449間,通信設備運維的體量巨大,運維作業面幾乎涵蓋了上海城市軌道交通的所有區域。以終端設備為例,截至2021年6月底,上海城市軌道交通網絡內有各類無線終端12 130臺,各類電話終端48 000臺,各類屏幕4 995塊,各類攝像頭40 000余個。
各通信子系統均設置有網管,以實現對各自系統的設備管理和狀態監測,但是卻普遍存在智能化程度低、無數據積累和挖掘分析功能等問題。隨著城市軌道交通線網規模的持續擴大,原本由人工進行現場巡視和檢測的工作模式給設備的運維管理帶來非常大的壓力,急需進行技術升級。例如,對公務/專用電話語音質量、乘客信息屏幕畫質和視頻圖像質量的巡視,以及對城市軌道交通區域內無線電環境情況、漏纜和天線質量的檢測等均需實現自動化和智能化。
以往上海城市軌道交通通信系統的運維工作主要以計劃修和故障修為主,計劃修模式下消耗的資源較大,且過修現象普遍存在,而故障修又較為被動,無法滿足設備保障要求。為了提高通信系統的運維保障水平,傳統的計劃修和故障修模式需逐漸演變為狀態修模式。與信號、車輛、工務等其他專業相比,通信設備的狀態沒有明顯的線性劣化過程,這導致了通信設備狀態修的觸發點較難把握。另外,既有線路設備在設計時沒有為狀態修設計一定的安全邊界,也沒有為通信系統提供一個安全的狀態修觸發點,因而在既有設備上較難全面實現狀態修模式。
由于通信系統成網絡化部署,覆蓋范圍廣、專業接口較多,處理故障的過程中經常需要多部門協同進行跨車站、跨線路、跨專業的排查,且需要工程師結合故障現象進行邏輯分析和現場測試排查后才能確定故障點,因而,通信設備的故障修復周期較長,消耗的人力較多。
上海城市軌道交通通信系統設備的種類、型號繁多,各類業務數據變動頻繁,因而對各通信子系統的設備臺賬和業務臺賬管理尤為重要。目前,上海城市軌道交通通信系統的設備和業務臺賬管理主要以人工更新電子表格的方式為主,雖然也有多個信息化系統對固定資產管理、運維合約管理、業務開通流程、備品備件維修等業務進行信息化管理,但這些業務的信息化管理較為分散,設備管理部門對現場設備的實時掌握程度不足,設備管理體系化程度不強,與設備的全生命周期管理目標仍存在較大差距。
如圖1所示,針對目前上海城市軌道交通通信系統的現狀,本文從數據采集需求和業務功能需求兩方面對通信系統的智能運維建設提出建議,為后續的新建線路提供建設參考。

圖1 上海城市軌道交通通信系統智能運維需求分析
通信系統需實現對各子系統設備數據采集的全覆蓋,其監測采集范圍包括對各子系統的設備狀態和告警信息,故障可定位至現場最小可更換單元。具體要求包括:①對傳輸、專用無線、專用電話等關鍵業務系統,需實現設備性能數據采集;②對專用無線、專用電話、技防、廣播、乘客信息等用戶終端較多的系統,需實現用戶操作信息采集;③對無線環境(如區間場強、越區切換、誤碼率、同頻和鄰頻干擾等)、設備房環境(如溫濕度、粉塵、煙感、水浸等)、電源(如外電網、電源屏、UPS(不間斷電源)、電池等),需實現對設備運行環境的監測采集。
通信系統中的傳輸、專用無線(原裝部分)、電話等子系統具有較為完備的設備數據監測采集能力,而其他集成子系統的數據采集則較為單一,且實時性較低,不能滿足多樣化感知需求。采集數據類別主要包括日志數據、故障告警、設備狀態、性能信息等。
2.2.1 日志數據
為實現對各通信子系統進行多維度的綜合分析,采集的日志數據需包括系統運行日志、用戶操作日志和維護操作日志。
1) 系統運行日志包括通用主機設備、網絡設備及各類專用設備在運行過程中產生的硬件設備運行日志,以及各業務系統在運行時涉及到的核心進程、應用業務程序、數據庫、中間件等產生的軟件日志。通過對此類數據的采集分析,可評估系統的運維狀態和健康度趨勢。
2) 用戶操作日志指用戶在操作使用設備的過程中產生的日志,如操作用戶、操作時間、操作命令、操作設備等。可通過對用戶操作日志數據的分析挖掘,對各通信子系統設備的操作成功率、操作響應靈敏度、描繪用戶操作特征等進行評估,以此達到預判故障、優化系統配置、迭代提升系統設計的目的。
3) 維護操作日志主要用于記錄運維人員對各通信子系統的運維操作,如登錄賬戶、操作時間、查詢記錄、操作記錄等,實現對各通信子系統運維質量和安全的管控。同時,通過對處理故障期間操作記錄的分析,可不斷優化各通信子系統的故障排除策略和步驟,縮短故障修復時間。
2.2.2 告警數據
各通信子系統的告警數據主要由網管和第三方監測系統提供,可較為準確、及時地反映當前各子系統面臨的主要問題,如業務中斷、冗余喪失、終端設備離線、無線網絡覆蓋不良等。智能運維系統對各通信子系統的告警數據進行分級后,可作為智能檢測故障排除的觸發條件,啟動智能故障排除邏輯。通過對各通信子系統的告警數據進行進一步的關聯分析,可實現對故障影響范圍的評估和預判。
2.2.3 狀態數據
各通信子系統的狀態數據主要包括設備的基礎信息數據和性能數據,其中基礎信息數據包括生產廠商、設備型號、生產批次、制造日期、創建日期等基本信息;性能數據采集類型如表1所示。狀態數據應結合各子系統及其設備特點進行采集。

表1 各通信子系統設備性能數據采集類型
各通信子系統網管對設備各類數據的采集相對較為完善,故通信智能運維的數據采集主要通過子系統的網管對接方式完成。此外,考慮到如無線環境監測、乘客信息發布質量監測、機房狀態監測等數據具有分析價值,但這些數據的監測超出了既有通信子系統網管監測范圍的數據采集需求,可由通信智能運維系統直接進行采集。
2.3.1 系統對接采集
通信智能運維系統需兼容SNMP(簡單網絡管理協議),以及MODBUS、Webservice、CORBA等主流的協議和接口,實現與各通信子系統的接口對接,采集智能運維系統所需的各類數據。專用無線、高速數據網、技防、上層網時鐘、公務電話軟交換、專用電話軟交換等線網級通信子系統在線網核心側與智能運維系統進行對接,而乘客信息、廣播、線路傳輸、線路時間、電源等線路級通信子系統則在線路核心側與智能運維系統進行對接。
2.3.2 直接采集數據
在超大規模網絡化運維的背景下,以及在大帶寬無線通信技術、數字圖像識別技術、傳感器技術的加持下,在既有各通信子系統自身監測范圍之外、原本由人工完成的系統性能檢測和狀態檢查工作,可通過通信智能運維系統直接進行高效、實時的數據采集。例如,通過無線終端升級或加裝監測設備的方式,實現對區間和重點部位的無線環境監測數據采集;通過既有技防子系統的攝像機或在特定位置加裝攝像機,實現對車站PIS(乘客信息系統)屏幕的狀態數據采集;通過加裝溫度、濕度、粉塵、水浸等傳感器,實現對無人值守機房環境監測數據的采集。
建立通信系統智能運維數據采集的網絡架構,需結合與之對接的各通信子系統的架構特點和傳輸網絡條件,按線網級系統、線路級系統和直采數據分類后分別進行匯聚采集。考慮到對接子系統數據的采集協議和數據采集模式可能存在差異,且不同子系統所處的網域限制可能影響數據的雙向交互,故在匯聚交換機側設置數據采集處理服務器,將采集到的數據結構化后通過高速數據網傳送至通信智能運維系統。
圖2為通信系統智能運維數據的采集邏輯架構。在建設采集網絡時,需考慮信息安全策略,配備必要的信息安全硬件并制定相應策略。同時,為實現智能運維數據的采集匯總,需根據上海城市軌道交通目前的傳輸線網資源情況和各被采集子系統設備的分布情況,結合全線網IP(互聯網協議)的地址規劃和信息安全要求,對智能運維數據采集匯聚網絡架構和IP地址進行規劃。

圖2 通信系統智能運維數據的采集邏輯架構Fig.2 Data acquisition logic architecture for intelligent operation and maintenance of communication system
由計劃修向狀態修逐步過渡過程中,在一段時間數據積累的基礎上,智能運維系統可歸納出設備故障發生前后各通信子系統自身和關聯子系統的數據特征,形成故障狀態特征庫,明確故障預警的觸發條件,并在設備性能劣化形成故障前提示運維人員介入處理,以降低故障發生概率、提升狀態修水平。
由于各通信子系統業務多樣,內外部接口眾多,在日常設備故障排查過程中經常需要結合各相關子系統網管反饋的系統狀態,由各級運維人員協同配合,以人工方式進行逐級逐層排查。故障排查的效率較低、速度較慢,無法滿足超大規模網絡化運維要求。由此,需要依托智能運維系統,建立跨子系統狀態數據分析、排查策略庫,采用端到端檢測等手段快速定位故障點,明確故障影響范圍,并給出設備故障的進一步排查和處理意見。
傳統的計劃修模式下,維護人員根據設備維護規程規定的運維檢修頻次對設備開展維護工作,通過年度設備評估梳理出設備的薄弱環節,由各通信子系統的工程師制定具體設備的運維和整治計劃,確定次年的重點工作內容和相關工作的實施次序。維護人員以人工方式逐級進行設備評估梳理的周期較長,供決策參考的設備信息相對滯后,且由于計劃修模式下人工采集的設備數據量有限、顆粒度較大,一定程度上對運維策略的準確性產生影響,因此,每年設備運維策略和整治計劃的制定對工程師的業務水平和管理經驗要求較高。
為了能夠合理、精準地制定全線網各通信子系統設備的運維策略,需要智能運維系統對采集到的多維度設備狀態數據進行深入分析,提供有較強時效性的設備評估結果,為運維策略提供參考意見,輔助各通信子系統的工程師完成設備的年度運維整治計劃。
為持續迭代各通信子系統的軟硬件設計,調整、優化運維策略,智能運維系統需在長時間積累歷史數據后對數據進行分析和挖掘,對各通信子系統進行軟硬件的橫向、縱向比較,掌握各子系統的運行狀態趨勢,找出同類子系統之間的差異特征。在此基礎上,進一步將設備運行環境、系統運行狀態、運維介入、用戶使用、運行成本等情況進行關聯分析,總結歸納出各子系統運行過程中的不利因素,為彌補現場設備的運行短板提供指導,并指明既有系統的運維重點,為后續系統的設計優化提供依據。
在運維過程中,智能運維系統需將運維工程師對每次設備故障的處理情況及故障設備的狀態、性能、告警、故障時長、近期維護情況等數據進行匹配存檔,形成一定的數據積累后,對數據進行挖掘和分析,梳理故障現場、狀態數據、處理措施等因素之間的關聯關系,構建排除設備故障的知識圖譜,歸納總結出最佳的故障排除流程。
為應對通信系統設備種類、型號繁多,以及各類業務數據變動頻繁等系統特性,智能運維系統需對各通信子系統的在用設備、業務配置和備件庫存進行系統化管理,提供方便、快捷的在用設備臺賬查詢功能,并與生產管理系統對接,在日常維護、搶修、業務調整等工作開展的過程中同步更新設備臺賬、業務配置和備件庫存數據,實現設施設備的全生命周期管理,為智能運維系統對運維資源的優化配置提供支撐。
通信設備的使用需求隨運營模式的變化而變化,設備隨通信技術發展而不斷升級。由于運維要求和理念會持續調整和創新,智能運維系統較難通過一次性設計即可滿足當下和未來的所有需求。隨著新技術、新設備的引入,以及對設備運維研究的不斷深化,智能運維平臺需要具備擴展升級的能力,不斷納入新的數據類型,以模塊化嵌入的方式增加新的應用模塊,隨著上海城市軌道交通通信系統的發展不斷進行迭代升級。
在當下大數據、人工智能等技術高速發展的背景下,上海城市軌道交通通信系統必須積極跟隨技術發展的趨勢,結合系統自身的情況和運維現狀,深入分析運維管理需求,加速推進狀態修模式。通過建設智能運維系統,可提升通信系統的整體運維水平,優化運維資源配置和設計標準,從而更好地適應城市軌道交通超大規模網絡化運營的發展需要。