李 斌
(佳訊飛鴻(北京)智能科技研究院有限公司,北京 100044)
近10年來鐵路行業高速發展,截止到2019年年底,國內鐵路運營里程達13.9萬 km以上,其中高鐵3.5萬 km。伴隨著鐵路的高速發展,鐵路行業的信息基礎設施— 數據中心在中國國家鐵路集團有限公司(簡稱國鐵集團)層面和18個鐵路局層面,穩健有序的推進和實施,為鐵路行業智能化演進提供堅實的基礎支撐。
在數據中心建設和運維管理過程中,面臨著諸多的困難和挑戰:IT基礎設施復雜度越來越高,廠商多,擴展難,不同廠商產品升級周期不一,補丁過程復雜;數據中心多廠商、多產品集成方案成本高,集成、測試、開通、運營、維護耗時耗力;異構環境可用性管理復雜,在通常的虛擬環境中,整體可用性難以保證,應用可用性更難管理;異構的數據庫、Java層、消息層和Web層很難整體調優,整體性能難以保證;異構環境增加數據中心運維管理復雜度,部分職責不好界定,問題診斷及解決問題過程復雜;鐵路上層業務要求IT基礎設施可靠和透明,對于服務中斷要求和部分鐵路業務的性能需求苛刻;運維管理過程中需要多領域專業人才,人才缺口大,人才儲備不足。
DCIOM是近幾年在數據中心運營維護管理領域興起的一個熱點。
Gartner對數據中心基礎設施管理(DCIM)的定義是:通過工具監控、管理和控制數據中心所有 IT 相關設備(如服務器、存儲和交換機)和基礎設施相關設備(如 PDU 和精密空調)的使用情況以及能耗水平。451 Group 對 DCIM 的定義是:數據中心基礎設施系統通過持續收集和管理數據中心的資產、資源以及各種設備的運行狀態,然后通過分析、整合提煉成有用的數據,從而幫助數據中心管理者管理數據中心并優化性能。
這里提出DCIOM,在DCIM的基礎上,增加對于數據中心的運營功能,試圖從第三方的角度去評估數據中心的運營情況。綜上所見,采用統一的平臺管理場地基礎設施(如 UPS、 空調)以及IT 基礎架構(如服務器),并通過數據的分析和聚合,最大化數據中心的運營效率,提高可靠性,是DCIOM 系統產生的根源及目的。
鐵路DCIOM系統涵蓋較多被監控的對象,覆蓋面較廣,功能復雜,系統設計遵循模塊式開發、部署,系統從底層到最上層的圖形用戶接口共分為4層,每一層實現不同的功能,系統整體的架構如圖1所示。

圖1 鐵路數據中心基礎設施運維管理系統整體架構Fig.1 Overall architecture of operation and maintenance management system for railway data center infrastructure
鐵路DCIOM 系統是一整套包含硬件設施、前端傳感器和定制化軟件的運維管理平臺與工具。DCIOM 技術路徑主要體現為鐵路數據中心基礎設施運維管理作為一個專業的技術應用平臺與工具,充分應用了計算機技術、通信技術、網絡技術、軟件技術、數據庫技術、自動控制技術、傳感技術、可靠性技術以及系統設計開發技術、系統集成技術、項目管理技術等。對于鐵路DCIOM 系統,差異性主要體現在產品功能的聚集度上所涉及的檢測對象種類、可管理的對象與范圍、軟件平臺的功能、數據標準與通訊協議、第三方的銜接和可擴展性等。
鐵路數據中心是鐵路大數據處理和價值挖掘的的最大物理載體,隨著其規模和數量的增加,為提升數據中心管理成熟度,智能化設備和實時傳感器大量引入鐵路數據中心,使其成為路內最大規模的物聯網應用之一,處理海量運維數據能力是實現DCIOM系統實時可見性的基礎。
DCIOM 系統作為鐵路數據中心日常運營維護管理的平臺,需要設計為滿足數據中心的7×24 h的運行條件,為數據中心正常運營提供連續性的保證。其中對于大型鐵路局數據中心(機架數量為3千到 1 萬個)及超大型國鐵集團數據中心(機架數量為1萬個以上)而言,DCIOM 系統的架構設計,尤其是存儲架構設計尤為重要。
從數據量來看,國鐵集團數據中心每次進行數據采集時需要讀取并存儲的基礎設施的測點數據基本在百萬級別,并且每日數據處理量將高達上億級規模。從數據復雜性來看,除了傳統關系數據庫管理系統能夠存儲的結構化數據以外,還需要處理并存儲例如設備圖片、維護文檔、操作手冊、維保合同等非結構化數據,以及海量實時控制和監測檢測數據。
DCIOM系統管理的數據資源中主要分為兩類。一類是存儲數據中心的資源信息及資源與資源之間關系的數據,即設備屬性、配置關系等;另一類是所有資源的監控及運維數據信息,如一臺 UPS 的功率數據、 一臺空調的維護工單等。第一類數據通常不會頻繁更新、變動,這些靜態數據稱之為“冷數據”。第二類數據則需要頻繁的進行檢索和查詢、以及更新處理,涉及到大量的查詢工作。將這些動態的數據稱之為“熱數據”。因此,DCOIM 系統的數據庫設計需要采用大數據技術來進行構建。
復雜事件處理(Complex Event Process,CEP)是處理實時數據流的關鍵技術,其特點是在內存中通過預定義規則處理來自多種異構數據源的實時數據流,并將生成結果推送給事件訂閱者。復雜事件處理流程如圖2所示。

圖2 復雜事件處理流程Fig.2 Complex event processing flowchart
可用成熟功能的 CEP引擎實現以下功能:可接入多種異構數據源,通過適配器轉換為統一數據格式;在內存中實時處理數據流,相比起傳統事件引擎首先將數據存儲至數據庫后再根據業務規則加載處理的輪詢方式有更好的性能;支持持續查詢語言的規則數據庫,其結構化查詢語言類似 SQL,提供映射、過濾 、關聯、聚合、模式匹配、延時和時間窗口等反式(Reactive)處理;支持訂閱/發布機制,主動推送處理結果給事件訂閱者。
DCIOM系統所管理的對象具有數量眾多、多種通信協議、不同連接方式和分布地點比較分散的特點。 分布式數據處理和監控比傳統集中式監控模式具有數據響應時間更短、占用帶寬更少、故障影響范圍更小和支持系統規模更大的優勢。
分布式處理監控管理應具有以下特點。
本地數據采集和協議轉換:采集性能高和占用帶寬少;復雜事件處理:過濾重復數據和聚合關聯事件,快速上報關鍵事件;本地告警聯動:聯動速度更快,減少網絡中斷影響更安全可靠;本地數據存儲:數據可靠性更高,減少網絡依賴;熱備監控單元:可部署熱備監控單元,減少單一節點故障;多種傳輸模式:監控單元和中心之間可選取多種傳輸方式,減少網絡依賴;多種采集模式:可支持任意總線和網絡采集。
分布式處理減少中心系統的數據處理工作量,系統規模擴大只需要水平擴展增加監控單元,是支撐大規模 DCIOM系統實現數據實時監控的關鍵技術。
DCIOM是數據中心管理系統的重要組成部分,DCIOM系統必須提供數據接口與其他管理系統進行互聯和集成。
3.4.1 智能設備協議
數據中心的設備種類較多,現實上每種設備協議基本都不相同,在數據中心行業標準制定前無法強制統一智能設備協議,因此DCIOM系統需要從上往下兼容所有智能設備協議。DCIOM系統應支持組件化設計, 每一種設備協議開發成一個驅動,支持動態的加載和卸載。
智能設備協議通常包括設備自動發現、數據交互、設備配置和安全驗證等內容。如:設備自動發現指設備上線后自動發出注冊命令或響應管理系統設備搜尋命令,能夠使管理系統識別和把設備自動納入管理的過程;數據交互通常包括實時信號、事件告警和控制命令;設備配置內容應包含設備唯一標識、設備類型、型號、廠家、協議和設備屬性信息;安全驗證包括對通信雙方身份驗證、數據完整性、可靠傳輸和服務質量的定義。
3.4.2 子系統接入協議
DCIOM系統作為數據中心基礎設施運維管理的統一平臺,應支持各種樓宇管理系統、動環監控系統、 安防系統和資產管理系統的接入。同樣由于數據中心行業標準缺失,現在并無統一的子系統接口規范,但是對其共性歸納子系統接入協議應包含如下要求。
開放協議:即各子系統必須開放數據通信接口,提供規范的協議文檔。
系統接口:應明確系統數據接口和設備協議的區別,通常系統由多個子設備組成,因此系統接口應支持子設備配置和數據通信協議,應避免采用SNMP或Modbus這種設備協議作為系統接口。
Web 服務:傳統系統通常提供基于TCP的自定義接口,其缺點是難以理解和缺乏服務描述;隨著 Web 技術的成熟,在運維領域 Web 服務API接口逐漸成為標準。
配置同步:子系統下接設備類型和數量通常不固定,因此必然要求子系統提供配置服務接口,當子系統配置變化時及時同步至DCIOM系統。
訂閱發布:子系統應提供訂閱/發布機制,避免數據輪詢主動推送告警信息。
數據安全:所有子系統都應提供數據加密傳輸選項,并能根據權限定義提供有限訪問,保證數據可靠傳輸。
3.4.3 API集成功能
DCIOM系統需要提供API與上層IT服務管理系統進行集成,包括資產配置、資產位置、連接關系、 容量管理、能效管理、實時監控、流程管理等服務。
資產配置:提供資產唯一標識、資產類型、型號、廠商、購買時間、使用年限、資產位置信息等一系列資產屬性信息。可批量導入導出,并與CMDB 配置數據庫同步;RFID自動資產管理系統可提供實時資產變更事件;支持變更管理和工作流派單閉環管理,可獲取資產出入庫記錄和服務器上下架記錄。
資產位置信息:提供資產位置信息。
連接關系:提供網絡連接關系和電力連接關系。網絡連接支持服務器網口到配線架端口到交換機端口的連接信息;電力連接關系支持上下游設備依賴和端口連接信息。
容量管理:提供數據中心/機房/樓層/區域/機柜等級別的實時和歷史容量信息,包括可用容量和已用容量信息,支持空間容量、供電容量、制冷容量和承重容量類型。
能效管理:提供數據中心/機房/樓層/區域/機柜等級別的實時和歷史 PUE 信息。
實時監控:提供實時數據獲取,事件告警推送和控制命令交互接口。
隨著鐵路行業數據中心規模和數量的快速增長,數據中心的高效運維逐漸成為鐵路行業數據中心領域研究和落地的關注熱點。DCIOM系統等數據中心智能化管理平臺正加速在鐵路行業數據中心部署應用,智能運維機器人或將替代大量傳統人工巡檢,逐步形成符合鐵路應用實際的“智能化運維管理平臺+智能機器人+專業工程師”三位一體運維體系。