任 帥
(中國移動通信集團有限公司,北京 100033)
中國移動現(xiàn)有45+4個數(shù)據(jù)中心、近千棟核心機樓以及逾50萬個存量基站。面對如此龐大的動環(huán)基礎設施,急需構建業(yè)內領先的動環(huán)設施支撐手段能力,實現(xiàn)全網(wǎng)動環(huán)設施資源及能力的集中化、精細化、智能化的可視、可管、可控。
現(xiàn)網(wǎng)動環(huán)管理能力較弱,各省僅靠OMC系統(tǒng)進行基本管理,只能實現(xiàn)告警監(jiān)控、負載率統(tǒng)計、資產管理等簡單功能。從現(xiàn)網(wǎng)調研分析和統(tǒng)計結果看,當前動環(huán)設施運維管理面臨諸多挑戰(zhàn),主要包括以下3個方面。
(1)缺少集中化監(jiān)控管理平臺。日常維護管理工作及指標考核數(shù)據(jù)收集大部分依賴郵件及EOMS系統(tǒng)。
(2)監(jiān)控覆蓋面不足,監(jiān)控與管理不夠緊密。基礎設施監(jiān)控較弱,對能效、資產、容量管理缺失抓手,對運維與運營等管理維度指標缺少關注。
(3)智能化程度不高。目前,監(jiān)控主要是實現(xiàn)動環(huán)的基礎數(shù)據(jù)采集,在歷史數(shù)據(jù)分析、故障根因分析等方面智能化程度不高。
針對上述挑戰(zhàn),深層次分析其中原因主要包括以下4個方面。
(1)不同廠家FSU和SC互聯(lián)互通問題。中國移動現(xiàn)網(wǎng)已建成的動環(huán)監(jiān)控涉及的廠家眾多,新建設備和老系統(tǒng)接口協(xié)議不一致,對接存在困難。
(2)各省動環(huán)監(jiān)控系統(tǒng)組網(wǎng)架構不統(tǒng)一。現(xiàn)網(wǎng)動環(huán)監(jiān)控架構從2~4層不等,組網(wǎng)復雜,亟需推動省級SC架構標準化建設,實現(xiàn)省級架構的扁平化和集中化。
(3)精細化運維管理手段不足。機樓基礎運維不到位、動環(huán)設施超負荷運行、帶病入網(wǎng)、性能劣化等問題,缺乏管理規(guī)范、預案和管控手段。
(4)系統(tǒng)接入困難、耦合性高。傳統(tǒng)動環(huán)廠家在系統(tǒng)對接設置壁壘,導致數(shù)據(jù)接入、云端協(xié)同、系統(tǒng)建設難以有效執(zhí)行。
所以,為補齊短板,實現(xiàn)業(yè)界領先的動環(huán)運維能力,參照行業(yè)標桿經驗,打造總部一級動環(huán)設施運維管理平臺,實現(xiàn)對全網(wǎng)動環(huán)設施運行情況管控,如圖1所示。

圖1 動環(huán)基礎設施DIKW模型分析圖
動環(huán)集中運維管理平臺建設需要圍繞易用性、可擴展性、接口開放性、可維護性、穩(wěn)定性、先進性等原則進行建設。
1.2.1 易部署原則
充分利用現(xiàn)有資源進行建設,既可與機房主設備同步建設,也可對已有機房進行補充建設。可根據(jù)現(xiàn)場的傳輸資源進行組網(wǎng),包括IP資源、無線、物聯(lián)網(wǎng)等。
1.2.2 可擴展原則
平臺接入規(guī)模與系統(tǒng)處理能力滿足項目需求,支持平滑升級與彈性擴容能力,以滿足業(yè)務和管理發(fā)展需要。
1.2.3 接口開放原則
提供多種標準的數(shù)據(jù)接口,如B接口、C接口、D接口等。也可提供定制化數(shù)據(jù)接口,以實現(xiàn)與第三方監(jiān)控系統(tǒng)或其他管理系統(tǒng)的對接。
1.2.4 可維護性原則
平臺架構需考慮運維體系變化對業(yè)務的影響,可快速適應運維體系變化的要求,最大限度減少運維人員運維工作量。
1.2.5 穩(wěn)定性原則
平臺系統(tǒng)架構具有良好的穩(wěn)定性,單一節(jié)點或者設備故障不影響系統(tǒng)運行,具有高可用性、穩(wěn)定性特點。
1.2.6 先進性原則
平臺應能滿足公司發(fā)布的關于動環(huán)系統(tǒng)的所有技術規(guī)范和要求,系統(tǒng)架構和技術在業(yè)界具有領先水平,滿足系統(tǒng)長期建設、演進和發(fā)展的需要,以最大限度的保護用戶投資。
根據(jù)需求調研、場景類型分析、建設原則,可歸納出動環(huán)集中運維管理平臺的基本設計要求。
(1)系統(tǒng)架構需采用業(yè)界靈活、先進的架構,具備可擴展性和高可用性特點;
(2)數(shù)據(jù)接入支持南北向接口(如標準B接口、標準C接口、能耗接口、故障接口等),可實現(xiàn)邊云協(xié)同、無障礙互聯(lián)互通;
(3)圍繞“監(jiān)”“管”“控”目標,實現(xiàn)動環(huán)基礎設施全網(wǎng)集中監(jiān)控及運營,實現(xiàn)統(tǒng)一監(jiān)控、統(tǒng)一標準、統(tǒng)一視圖;
(4)系統(tǒng)從5大域(設施、人員、管理、手段、流程)、8個方面(可視化、運維管理、資源管理、安全保障、系統(tǒng)管理、系統(tǒng)接入、深度應用、支撐工具)構建需求能力。
本文提出的動環(huán)集中運維管理平臺采用Spring Cloud微服務架構,支持Docker容器化部署,具備滾動升級、彈性擴容、高可用特性。按照數(shù)據(jù)流向維度可將平臺分為接入層、存儲層、能力層、業(yè)務層和展示層。總體架構如圖2所示。
(1)接入層:負責設備接入(動力設備、環(huán)境設備、門禁設備、視頻設備等)及第三方系統(tǒng)接入(冷源系統(tǒng)、通風系統(tǒng)、空調系統(tǒng)、安防系統(tǒng)等);
(2)存儲層:負責系統(tǒng)數(shù)據(jù)緩存、存儲及相關中間件功能;
(3)能力層:負責數(shù)據(jù)的清洗、應用使能,為業(yè)務層提供相應的能力;
(4)業(yè)務層:負責不同業(yè)務的邏輯處理,為展示層提供相應的接口服務;
(5)展示層:負責提供平臺門戶,多渠道、多方式展示系統(tǒng)業(yè)務。
動環(huán)集中運維管理平臺主要針對核心機樓、數(shù)據(jù)中心(含八大區(qū)數(shù)據(jù)中心)、匯聚機房、基站等動環(huán)設施納入集中管理,圍繞5大管理域(設施、人員、管理、手段、流程)構建“邊-管-云”,從系統(tǒng)接入、支撐工具、系統(tǒng)管理、運維管理、資源管理、安全保障、深度應用、可視化、方面出發(fā),實現(xiàn)“物聯(lián)、數(shù)聯(lián)、智聯(lián)”三位一體的新型動環(huán)智慧運維新模式,推動全網(wǎng)集中動環(huán)運維管理能力建設,全面提升全網(wǎng)動環(huán)運維能力。平臺主要功能架構如圖3所示。

圖2 動環(huán)集中運維管理平臺系統(tǒng)架構圖

圖3 動環(huán)集中運維管理平臺功能架構圖
動環(huán)集中運維管理平臺經過前期的需求調研與設計研發(fā),經系統(tǒng)測試后正式上線運行,已構建集中化動環(huán)設備及業(yè)務容量管理、能耗管理、資源管理、供電拓撲的可視化呈現(xiàn)等功能。
該功能模塊從供電、空間、制冷、承重等多維度出發(fā),通過持續(xù)記錄容量消耗量和分析增長模式,使動環(huán)集中運維管理人員能夠更加快速準確地掌控各機樓電源、空調設備的負載率情況,更高效管理各項關鍵資源,同時針對各機樓容量預警,實現(xiàn)工單督辦、掛牌通報等功能[1]。
(1)電力容量。實現(xiàn)核心機房變壓器、發(fā)電機組、開關電源系統(tǒng)、UPS系統(tǒng)、空調系統(tǒng)、蓄電池的負載率分析,容量負荷預警;支持各省預警方案的自定義設置,能夠以設備為維度和以預警級別為維度進行容量預警數(shù)量和占比分析,可按照月、季、年提供容量預警趨勢分析圖;提供設備性能預警的統(tǒng)計匯總、明細報表功能。
(2)空間容量。實現(xiàn)機房空間、配套空間、管線空間、機柜空間管理和U位管理(占用、剩余、最佳位置推薦)。
(3)制冷容量。根據(jù)機房不同區(qū)域制冷容量和現(xiàn)有帶載負荷情況,得出不同機柜、不同機房還可新增負荷量的情況。
(4)承重容量。根據(jù)地板承重和機柜電力配置,確定機柜擺放位置。機柜和設備的總重量不能超過地板總體承重要求,避免超重設備集中在某一區(qū)域。
通過容量管理,可支持從園區(qū)到機房的不同層級容量視圖,全面了解容量使用現(xiàn)狀;實時查看各機柜容量使用情況,快速查找設備上架的最佳機位,通過“UPS等重要設備的負載率紅色預警”等關鍵信息實時監(jiān)控,基于事前分析的預測性運維,實現(xiàn)全網(wǎng)機樓運行風險的有效把控,如圖4所示。
該功能支持以2D、2.5D及3D可視化方式顯示空間拓撲、設備拓撲、供電拓撲功能。聚焦豐富的KPI指標,包括資源、告警、性能、容量、能效、巡檢、溫度云圖等多種類型,實現(xiàn)運維狀態(tài)多維數(shù)據(jù)的全局可視化,如圖5所示[2]。
(1)空間拓撲。可根據(jù)布局圖,實現(xiàn)按照園區(qū)、機樓、樓層、機房、設備、機架等環(huán)境的可視化仿真,支持在拓撲圖上按空間資源分層定位設備以及查詢、顯示設備資源屬性。
(2)設備拓撲。提供重要設備拓撲,圖形化呈現(xiàn)設備關鍵運行參數(shù)指標,支持快速查詢、顯示設備資源屬性和設備當前運行狀態(tài)。
(3)供電拓撲。供電拓撲分為4層——高壓配電層、低壓配電層、不間斷電源層、機房業(yè)務層;直觀呈現(xiàn)設備的路由關系(包括上游設備和下游設備),支持按照樓層、房間的端到端拓撲呈現(xiàn),具備從高低壓配電系統(tǒng)、交直流配電系統(tǒng)到列頭柜的端到端供電拓撲情況,實現(xiàn)全網(wǎng)核心機樓、數(shù)據(jù)中心的供電拓撲、業(yè)務關系管理。

圖4 動環(huán)集中運維管理平臺容量負載率分析圖
動環(huán)設備及業(yè)務資源管理,通過掌控設備在網(wǎng)情況、設備與業(yè)務系統(tǒng)關聯(lián)關系,基于設備和業(yè)務信息將應急預案固化在管理系統(tǒng),指導故障應急處置。針對超期服役設備、老化劣化設備建立病歷表,全生命周期管控各類設備的在網(wǎng)狀態(tài),并關聯(lián)日常運維 信息。

圖5 動環(huán)集中運維管理平臺供電拓撲圖
3.3.1 動環(huán)設備資源管理
提供FSU管理、不間斷電源系統(tǒng)管理、蓄電池管理、空調管理以及發(fā)電機管理,提供供電與業(yè)務關系管理,提供全網(wǎng)動環(huán)設備資源統(tǒng)計分析功能。動環(huán)資源統(tǒng)計包括機樓、區(qū)域、設備類型、設備子類、設備品牌以及設備數(shù)量等,可從多個維度進行統(tǒng)計分析,并可查看設備詳細詳情。
3.3.2 設備超期服役管理
提供動環(huán)設備超期服役統(tǒng)計分析功能。支持按照省份維度和設備類型維度進行統(tǒng)計分析,顯示設備超期服役數(shù)據(jù)、超期服役日期。老化劣化設備建立機歷卡,為采購后評估和預算決策提供科學依據(jù)。
3.3.3 健康度管理
支持核心機樓、站點機房健康度管理,包括直流不間斷系統(tǒng)、交流不間斷系統(tǒng)、溫控系統(tǒng)、市電可用度、系統(tǒng)監(jiān)控可用度,判斷機樓、站點機房的健康狀態(tài),結合設備生命周期管理和健康度模型,設置相應的巡檢維護計劃及預警功能。
該功能通過對各用電設備的分項用電量、總用電量進行實時監(jiān)測獲取能耗數(shù)據(jù),通過精細化統(tǒng)計和分析以及智能化管控,實現(xiàn)動環(huán)體系整體能耗水平的測評,便于運營者準確和快速地掌握整體能耗狀況,如圖6所示。通過比較不同行業(yè)的能效水平,制定科學的衡量標準,提供能耗指標閾值管理和預警生成功能,同時實現(xiàn)節(jié)能減排。

圖6 動環(huán)集中運維管理平臺能耗分析圖
(1)提供動環(huán)體系各個節(jié)點的能耗總量視圖,直觀清晰了解機房/站點重要能耗指標,幫助用戶梳理機房能耗數(shù)據(jù)。
(2)提供按時間段、按用電類型、按站點查詢用電量和總計,用柱狀圖、餅圖等方式展示能耗數(shù)據(jù)。
(3)提供區(qū)域、機樓、機房能耗趨勢曲線,通過趨勢曲線、環(huán)比、同比、PUE等指標,幫助管理者找出用電差異并調整用電方式。
(4)通過對能耗數(shù)據(jù)的分析和運算,得出用電方式調整建議,對實際設備進行智能控制操作,實現(xiàn)節(jié)能目的,并以表格、柱狀圖形式呈現(xiàn)節(jié)能措施前后機房用電量,評估節(jié)能效果。
將現(xiàn)網(wǎng)電源、空調告警接入總部平臺,提供重要動環(huán)告警的統(tǒng)計結果呈現(xiàn),可以查看告警清單,定時刷新。實現(xiàn)告警分類統(tǒng)計(分廠家、設備、級別、故障原因等維度),實現(xiàn)異常告警分析,提供超頻、超短、超長告警的統(tǒng)計報表。可以按省份、IDC園區(qū)、設備類型、告警類型等維度,進行一定時間周期的趨勢分析、對比分析、排名分析。
建立關鍵告警知識庫,對各種類型站點設備告警。制定告警關聯(lián)規(guī)則或其他相應手段,通過關聯(lián)規(guī)則標識主次告警和衍生告警,對主告警進行準確的故障定位,提升故障處理效率。
本文提出的“動環(huán)集中運維管理平臺”實現(xiàn)了全網(wǎng)動環(huán)設施容量和運行情況的集中監(jiān)控,集中收集全部集團要求根據(jù)采集的全網(wǎng)動環(huán)數(shù)據(jù),實時采集解析多維呈現(xiàn),并能提供能耗數(shù)據(jù)的統(tǒng)一對比分析。根據(jù)上下層業(yè)務的資源關聯(lián)關系,輔助統(tǒng)一應急指揮調度和關鍵問題的督辦等,對全面提升全網(wǎng)動環(huán)運維能力,有效支撐節(jié)能減排、降本增效,具有重大的價值與廣泛的應用前景。